Twórcy „Attention is All You Need” na Nvidia GTC wychodzą poza Transformers for AI: „Świat potrzebuje czegoś lepszego”
![Twórcy „Attention is All You Need” na Nvidia GTC wychodzą poza Transformers for AI: „Świat potrzebuje czegoś lepszego”](https://oen.pl/wp-content/uploads/2024/03/Screen-Shot-2024-03-20-at-4.13.39-PM-770x470.png)
Dołącz do liderów przedsiębiorstw pokolenia AI w Bostonie 27 marca na ekskluzywną noc networkingu, spostrzeżeń i rozmów na temat integralności danych. Poproś o zaproszenie tutaj.
Siedmiu z ośmiu autorów przełomowego artykułu „Attention is All You Need”, który przedstawił Transformers, zebrało się dziś po raz pierwszy jako grupa na czacie z dyrektorem generalnym Nvidii, Jensenem Huangiem, w wypełnionej po brzegi sali balowej konferencji GTC.
Byli wśród nich Noam Shazeer, współzałożyciel i dyrektor generalny Character.ai; Aidan Gomez, współzałożyciel i dyrektor generalny Cohere; Ashish Vaswani, współzałożyciel i dyrektor generalny Essential AI; Llion Jones, współzałożyciel i dyrektor ds. technicznych Sakana AI; Illia Polosukhin, współzałożycielka protokołu NEAR; Jakob Uskhoreit, współzałożyciel i dyrektor generalny Inceptive; oraz Łukasz Kaiser, członek personelu technicznego OpenAI. Niki Parmar, współzałożycielka Essential AI, nie mogła być obecna.
W 2017 roku ośmioosobowy zespół Google Brain osiągnął sukces dzięki Transformers — przełomowej sieci neuronowej NLP, która uchwyciła kontekst i znaczenie słów dokładniej niż jej poprzednicy: rekurencyjna sieć neuronowa i długoterminowa sieć pamięci. Architektura Transformer stała się podstawą rozwiązań LLM, takich jak GPT-4 i ChatGPT, ale także aplikacji niejęzykowych, w tym Codex firmy OpenAI i AlphaFold firmy DeepMind.
„Świat potrzebuje czegoś lepszego niż Transformers”
Ale teraz twórcy Transformers patrzą nie tylko na to, co zbudowali, ale na to, co będzie dalej z modelami AI. Gomez z Cohere powiedział, że w tym momencie „świat potrzebuje czegoś lepszego niż Transformers”, dodając: „Myślę, że wszyscy tutaj mamy nadzieję, że zastąpi go coś, co wyniesie nas na nowy poziom wydajności”. Następnie zapytał resztę grupy: „Jak myślisz, co będzie dalej? Myślę, że to ekscytujący krok [what is there now] jest zbyt podobny do tego, co było tam sześć, siedem lat temu.
Wydarzenie VB
Wycieczka AI Impact – Atlanta
Poproś o zaproszenie
W dyskusji z VentureBeat po panelu Gomez rozwinął swoje uwagi panelowe, mówiąc, że „byłoby naprawdę smutno, gdyby [Transformers] to najlepsze, co możemy zrobić”, dodając, że myślał tak od następnego dnia po przesłaniu przez zespół dokumentu „Uwaga to wszystko, czego potrzebujesz”. „Chcę, aby zastąpiono go czymś innym, 10 razy lepszym, ponieważ oznacza to, że każdy otrzyma dostęp do modeli, które są 10 razy lepsze”.
Podkreślił, że istnieje wiele nieefektywności po stronie pamięci Transformersów i wielu elementów architektonicznych Transformera, które pozostały takie same od samego początku i należy je „ponownie zbadać, ponownie rozważyć”. Na przykład bardzo długi kontekst – wyjaśnił – staje się kosztowny i nieskalowalny. Ponadto „parametryzacja jest być może niepotrzebnie duża, moglibyśmy ją znacznie bardziej skompresować, moglibyśmy znacznie częściej dzielić wagi – to mogłoby obniżyć rzeczy o rząd wielkości”.
„Musisz być wyraźnie, oczywiście lepszy”
To powiedziawszy, przyznał, że choć pozostali autorzy artykułu prawdopodobnie się z tym zgodzą, Gomez stwierdził, że „może to nastąpić w różnym stopniu. A może przekonania będą się różnić, jeśli tak się stanie. Ale każdy chce czegoś lepszego — w głębi serca wszyscy jesteśmy naukowcami — a to oznacza po prostu, że chcemy postępu”.
Jednak podczas panelu Jones z Sakany zwrócił uwagę, że aby branża sztucznej inteligencji mogła przejść do czegoś następnego po Transformersach – cokolwiek by to nie było – „nie musisz po prostu być lepszy. — trzeba być wyraźnie, oczywiście lepszym… tak [right now] utknął w oryginalnym modelu, mimo że prawdopodobnie technicznie nie jest to obecnie najpotężniejsza rzecz, jaką można mieć.”
Gomez zgodził się, mówiąc VentureBeat, że Transformer stał się tak popularny nie tylko ze względu na dobry model i dobrą architekturę, ale także dlatego, że ludzie byli nim podekscytowani – powiedział, że potrzebne jest jedno i drugie. „Jeśli przegapisz którąkolwiek z tych dwóch rzeczy, nie możesz poruszyć społeczności” – wyjaśnił. „Aby więc katalizować dynamikę przejścia od architektury do innej, naprawdę trzeba postawić przed nimi coś, co ekscytuje ludzi”.