Technologia

Zapomnij o ChatGPT kontra Bard, prawdziwa bitwa to GPU kontra TPU

  • 8 lutego, 2023
  • 5 min read
Zapomnij o ChatGPT kontra Bard, prawdziwa bitwa to GPU kontra TPU


Podczas gdy ChatGPT i Bard to robią, dwa giganty pracują w cieniu, aby zapewnić im działanie – procesory graficzne NVIDIA z technologią CUDA (jednostki przetwarzania grafiki) i niestandardowe jednostki TPU firmy Google (jednostki przetwarzania tensorów). Innymi słowy, nie chodzi już o ChatGPT vs Bard, ale o TPU vs CPU i o to, jak skutecznie są w stanie wykonać mnożenie macierzy.

Dlaczego modele powinny być optymalizowane

Koszty szkolenia są jedną z największych barier w tworzeniu dużego modelu. Obliczenia AI są zazwyczaj obliczane w godzinach obliczeniowych/GPU, co oznacza czas potrzebny na przeszkolenie modelu. Stosowana jest również inna metoda, określana jako petaflops/s-dzień. 1 pf-dzień składa się z węzłów obliczeniowych wykonujących 10^15 (lub petaflop) operacji na sekundę przez cały dzień.

Dla porównania, największa wersja GPT-3, zawierająca 175 miliardów parametrów, potrzebowała 3640 pf-dni na trenowanie. Oznacza to, że GPU musiały wykonywać petaflop operacji dziennie przez prawie 10 lat! Jednak przy pomocy równoległości i niewielkiej pomocy klastra superkomputerowego platformy Azure przewidywania przewidywały, że czas na wyszkolenie tego modelu wyniesie około 34 dni. Dla porównania, wytrenowanie tego samego modelu na pojedynczym procesorze graficznym NVIDIA V100 zajęłoby ponad 355 lat.

Chociaż skrócenie czasu szkolenia do 34 dni w przypadku tak dużego modelu wydaje się gigantycznym zadaniem, problem został rozwiązany przy użyciu brutalnej siły. Szacunki określają koszt szkolenia tego modelu na około 5 milionów dolarów za same obliczenia. Szacunek ten pochodzi z cen tych procesorów graficznych w chmurze, które zazwyczaj kosztują 1,5 USD za godzinę na procesor graficzny.

Warto przeczytać!  10 sposobów, w jakie ChatGPT może ulepszyć Twój biznes, zwiększyć świadomość

Największy pojedynczy koszt obliczeniowy szkolenia LLM pochodzi z mnożenia macierzy. W sztucznej inteligencji naukowcy rozwiązali złożony problem matematyczny mnożenia macierzy, tworząc trójwymiarową tablicę zwaną tensorem. Obliczanie tych tensorów i wykorzystanie danych wyjściowych do zasilania algorytmu stanowi dużą część szkolenia, a także pochłania dużo mocy obliczeniowej ze względu na charakter zadania.


Pobierz naszą aplikację mobilną


Mnożenie macierzy jest jednym z podstawowych pojęć matematyki, ale jest również jednym z najtrudniejszych do rozwiązania problemów. Podczas gdy naukowcy odkryli metody skutecznego mnożenia małych macierzy o rozmiarze 4×4, większe macierze, takie jak te widoczne w sztucznej inteligencji, wymagają złożonych dowodów matematycznych w celu wydajnego mnożenia.

Rozwiązanie wydajnego mnożenia macierzy może zmniejszyć ilość zasobów obliczeniowych wymaganych do zadań szkoleniowych i wnioskowania. Chociaż udowodniono, że inne metody, takie jak kwantyzacja i zmniejszanie modelu, zmniejszają moc obliczeniową, poświęcają one dokładność. W przypadku giganta technologicznego tworzącego najnowocześniejszy model woleliby raczej wydać 5 milionów dolarów, jeśli nie ma możliwości obniżenia kosztów. Jednak DeepMind znalazł sposób i piłka jest teraz po stronie Google.

GPU kontra TPU

Procesory graficzne NVIDIA były dobrze przystosowane do zadań mnożenia macierzy ze względu na ich architekturę sprzętową, ponieważ były w stanie skutecznie działać równolegle na wielu rdzeniach CUDA. Modele szkoleniowe na procesorach graficznych stały się status quo dla głębokiego uczenia się w 2012 roku, a branża nigdy nie oglądała się za siebie.

Warto przeczytać!  Oto, co stanie się z alternatywnym sklepem App Store na Twoim iPhonie, gdy opuścisz UE

Opierając się na tym, w 2016 roku Google wprowadziło również pierwszą wersję jednostki przetwarzającej tensor (TPU), która zawiera niestandardowe układy ASIC (układy scalone specyficzne dla aplikacji) zoptymalizowane pod kątem obliczeń tensorowych. Oprócz tej optymalizacji, TPU działają również wyjątkowo dobrze z platformą Google TensorFlow; narzędzie wybierane przez inżynierów zajmujących się uczeniem maszynowym w firmie. Daje im to przewagę w innych zadaniach obliczeniowych AI poza mnożeniem macierzy, a nawet pozwala im przyspieszyć zadania dostrajania i wnioskowania.

Oprócz tego naukowcy z Google DeepMind znaleźli również metodę odkrywania lepszych algorytmów mnożenia macierzy. Nazywany AlphaTensor, ten system sztucznej inteligencji działa w celu optymalizacji mnożenia macierzy dla innych algorytmów, dostarczając wydajne formuły dla tego procesu.

Podczas gdy stos technologiczny Google i nowe metody optymalizacji obliczeń AI przyniosły dobre wyniki, konkurenci, tacy jak Microsoft, wykorzystują pozycję NVIDII w branży, aby uzyskać przewagę nad konkurencją. Jednak w miarę jak dzisiejsze procesory graficzne zużywają coraz więcej zasobów (pod względem poboru mocy i chłodzenia), przedsiębiorstwa szukają alternatyw. Co więcej, sztuczna inteligencja potrzebuje mocy obliczeniowej, aby stać się lepszą, a to badanie przewiduje, że potrzeby obliczeniowe sztucznej inteligencji będą się podwajać co 3,4 miesiąca.

Warto przeczytać!  Czy warto zagrać w Free Fire w 2024 roku?

Aby zaspokoić tę potrzebę, firma NVIDIA weszła w przestrzeń akceleratorów sztucznej inteligencji. Podczas gdy konkurenci, tacy jak AMD i Intel, stworzyli już konkurencyjne produkty, branżowe know-how firmy NVIDIA i jej żelazna władza nad CUDA ponownie zapewniły im przewagę. Wraz z wprowadzeniem NVIDIA DGX firmy mogły wdrażać gotowe rozwiązania sprzętowe i programowe do każdego zadania AI: coś, czego konkurenci wciąż nie mogą zaoferować ze względu na brak własności intelektualnej.

Podczas gdy inni konkurenci, tacy jak AWS, również uruchomili akceleratory AI (patrz Graviton i Inferentia), pole bitwy wydaje się być na razie zdominowane przez GPU i TPU. Akceleratory AI mogą pojawić się w kolejnym cyklu modernizacji przedsiębiorstw, ale istniejące rozwiązania zapewniają USP, których nie da się tak łatwo zastąpić.

Charakter ogólnych zastosowań procesorów graficznych NVIDIA umożliwia przyspieszenie szerokiej gamy obciążeń, a skoncentrowany charakter procesorów Google TPU umożliwia oferowanie najlepszych możliwych mocy obliczeniowych osobom pracującym w ekosystemie narzędzi sztucznej inteligencji Google. Zmiana paradygmatu w tej dziedzinie może doprowadzić do zwycięstwa jednego nad drugim, ale śmierć prawa Moore’a mówi, że będziemy musieli trochę poczekać, zanim wojna zostanie wygrana.


Źródło