Technologia

ChatGPT zdetronizowany: jak Claude został nowym liderem AI

oen.pl

17 lipca, 2023
10 min read

„Wielki wyścig AI”. Źródło: Autor z modelem Diffusion w stylu Tiago Hoisela

Przyzwyczailiśmy się do ciągłych przełomów w sztucznej inteligencji w ciągu ostatnich kilku miesięcy.

Ale nie rekordowe ogłoszenia, które ustawiają nową poprzeczkę 10-krotnie w stosunku do poprzedniej, co właśnie zrobił Anthropic ze swoją najnowszą wersją swojego chatbota Claude, największego konkurenta ChatGPT.

Dosłownie zawstydza wszystkich wokół.

Wkrótce godziny wyszukiwania tekstu i informacji zamienią się w sekundy, ewoluujące chatboty Generative AI od prostych agentów konwersacyjnych do naprawdę zmieniających grę narzędzi dla twojego życia i osób wokół ciebie.

Jak wiecie, dzięki GenAI otworzyliśmy okno, w którym sztuczna inteligencja może generować rzeczy, takie jak tekst lub obrazy, co jest niesamowite.

Ale jak w przypadku wszystkiego w technologii, wiąże się to z kompromisem, ponieważ modele GenAI nie mają świadomości ani oceny tego, co jest ’Dobry’ Lub ’zły’.

W rzeczywistości osiągnęli zdolność generowania tekstu poprzez naśladowanie danych generowanych przez ludzi, które najczęściej ukryć dyskusyjne uprzedzenia i wątpliwe treści.

Niestety, w miarę jak te modele stają się coraz lepsze, zachęta do nadania im dowolnego możliwego tekstu, jaki można znaleźć, bez względu na treśćjest szczególnie kuszące.

A to powoduje ogromne ryzyko.

Problem z wyrównaniem

Ze względu na brak osądu podstawowe modele dużych języków lub podstawowe LLM, jak się je powszechnie nazywa, są szczególnie niebezpieczne, ponieważ są bardzo podatne na uczenie się uprzedzeń, które ukrywają ich dane szkoleniowe, ponieważ odtwarzają te same zachowania.

Na przykład, jeśli dane są tendencyjne w kierunku rasizmu, te LLM stają się jego żywym ucieleśnieniem. To samo dotyczy homofobii i każdego innego rodzaju dyskryminacji, jaki możesz sobie wyobrazić.

Tak więc, biorąc pod uwagę, że wiele osób postrzega Internet jako idealne miejsce do testowania swoich granic nieetyczności i niemoralności, fakt, że LLM zostały przeszkolone z prawie całym Internetem bez jakichkolwiek barier, mówi wszystko o potencjalnym ryzyku.

Na szczęście modele takie jak ChatGPT są ewolucją tych podstawowych modeli uzyskaną dzięki dostosowaniu ich reakcji do tego, co ludzie uważają za ’odpowiedni’.

Dokonano tego za pomocą mechanizmu nagrody opisanego jako Uczenie się ze wzmocnieniem w celu uzyskania informacji zwrotnych od ludzilub RLHF.

W szczególności ChatGPT został przefiltrowany przez władczy osąd inżynierów OpenAI, który przekształcił bardzo niebezpieczny model w coś nie tylko znacznie mniej stronniczego, ale także znacznie bardziej użytecznego i świetnego w wykonywaniu instrukcji.

Nic dziwnego, że te LLM są ogólnie nazywane modelami językowymi dostrojonymi do instrukcji.

Oczywiście inżynierowie OpenAI nie powinni być odpowiedzialni za decydowanie, co jest dobre, a co złe dla reszty świata, ponieważ mają również swój udział w uprzedzeniach (kulturowych, etnicznych itp.).

Pod koniec dnia, nawet najbardziej cnotliwi ludzie mają uprzedzenia.

Nie trzeba dodawać, że ta procedura nie jest idealna.

Warto przeczytać! Niektórzy użytkownicy serwisu Netflix zgłaszają zmiany cen w swoich planach subskrypcji

Widzieliśmy kilka przypadków, w których te modele, pomimo ich rzekomego dopasowania, działały w sposób pobieżny, niemal podły w stosunku do swoich użytkowników, jak wielu cierpiało z Bing, zmuszając Microsoft do ograniczenia kontekstu interakcji do zaledwie kilku wiadomości zanim sprawy potoczyły się w drugą stronę.

Biorąc to wszystko pod uwagę, kiedy dwaj byli badacze OpenAI założyli Anthropic, mieli inny pomysł… dostosowaliby swoje modele przy użyciu sztucznej inteligencji zamiast ludzi, z całkowicie rewolucyjną koncepcją samodopasowania.

Od Massachusetts do AI

Najpierw zespół sporządził projekt konstytucji, który zawierał m.in. Powszechną Deklarację Praw Człowieka lub warunki świadczenia usług Apple.

W ten sposób model nie tylko nauczył się przewidywać następne słowo w zdaniu (jak każdy inny model językowy), ale także musiał uwzględniać w każdej udzielanej odpowiedzi: Konstytucja, która określała, co może mówić, a czego nie.

Następnie, zamiast ludzi, rzeczywista sztuczna inteligencja jest odpowiedzialna za dostosowanie modelu, potencjalnie uwalniając go od ludzkich uprzedzeń.

Ale kluczową wiadomością, którą niedawno opublikował Anthropic, nie jest koncepcja dostosowania ich modeli do czegoś, co ludzie mogą tolerować i wykorzystywać dzięki sztucznej inteligencji, ale niedawne ogłoszenie sprawiło, że Claude stał się niezachwianym dominującym graczem w wojnie GenAI.

Konkretnie, zwiększył swoje okno kontekstowe z 9 000 tokenów do 100 000. Bezprecedensowa poprawa, która ma niezrównane implikacje.

Ale co to oznacza i jakie są tego implikacje?

Chodzi o tokeny

Niech mi będzie jasne, że znaczenie tej koncepcji ’znak’ nie można lekceważyć, ponieważ pomimo tego, co wiele osób może ci powiedzieć, LLM nie przewidują następnego słowa w sekwencji… przynajmniej nie dosłownie.

Podczas generowania odpowiedzi LLM przewidują następny token, który zwykle reprezentuje od 3 do 4 znaków, a nie następne słowo.

Oczywiście żetony te mogą reprezentować słowo lub słowa mogą składać się z kilku z nich (dla porównania 100 żetonów reprezentuje około 75 słów).

Podczas wnioskowania modele takie jak ChatGPT dzielą przekazany im tekst na części i wykonują serię obliczeń macierzowych, pojęcie określone jako samouważnośćktóre łączą wszystkie różne tokeny w tekście, aby dowiedzieć się, jak każdy token wpływa na pozostałe.

W ten sposób model „uczy się” znaczenie i kontekst tekstu i w ten sposób może przystąpić do udzielania odpowiedzi.

Warto przeczytać! Pełna lista zniżek dostępnych w GTA Online Gun Van

Problem polega na tym, że proces ten jest bardzo intensywny obliczeniowo dla modelu.

Mówiąc ściślej, wymagania obliczeniowe są kwadratowe w stosunku do długości danych wejściowych, więc im dłuższy jest tekst, opisywany jako okno kontekstowe, tym droższe jest uruchomienie modelu zarówno w czasie uczenia, jak i wnioskowania.

Zmusiło to naukowców do znacznego ograniczenia dozwolonego rozmiaru danych wejściowych przekazywanych do tych modeli do około standardowej proporcji między 2000 a 8000 tokenów, z których ten ostatni zawiera około 6000 słów.

Jak można było przewidzieć, ograniczenie okna kontekstowego poważnie ograniczyło zdolność LLM do wpływania na nasze życie, pozostawiając je jako zabawne narzędzie, które może pomóc w kilku rzeczach.

Ale dlaczego zwiększenie tego okna kontekstowego odblokowuje największy potencjał LLM?

Cóż, proste, ponieważ odblokowuje najpotężniejszą funkcję LLM, uczenie się w kontekście.

Nauka bez treningu

Mówiąc prościej, LLM mają rzadką zdolność, która pozwala im się uczyć ’w drodze’.

Jak wiesz, szkolenie LLM jest zarówno drogie, jak i niebezpieczne, szczególnie dlatego, że aby je wyszkolić, musisz przekazać im swoje dane, co nie jest najlepszą opcją, jeśli chcesz chronić swoją prywatność.

Co więcej, każdego dnia pojawiają się nowe dane, więc jeśli musiałbyś stale dostrajać – dalej trenować – swój model, uzasadnienie biznesowe dla LLM byłoby całkowicie zniszczone.

Na szczęście LLM są świetne w tej koncepcji opisanej jako uczenie się w kontekścieczyli ich zdolność do uczenia się bez faktycznego modyfikowania wag modelu.

Innymi słowy, mogą nauczyć się odpowiadać na Twoje zapytanie, po prostu przekazując im potrzebne dane w tym samym czasie, gdy prosisz ich o wszystko, czego potrzebujesz… bez konieczności trenowania modelu.

Pojęcie to, znane również jako strzał zerowy uczenie się lub kilka strzałów uczenie się (w zależności od tego, ile razy trzeba zobaczyć dane, aby się nauczyć), to zdolność LLM do dokładnego reagowania na dane żądanie przy użyciu danych, których nie widziały wcześniej do tego momentu.

W konsekwencji im większe okno kontekstowe, tym więcej danych możesz im przekazać, a tym samym bardziej złożone zapytania, na które może odpowiedzieć.

Dlatego chociaż małe okna kontekstowe nadawały się do czatowania i innych prostszych zadań, zupełnie nie radziły sobie z naprawdę potężnymi zadaniami… aż do teraz.

przejdę do rzeczy.

Jak wspomniałem wcześniej, najnowsza wersja Claude, wersja 1.3, może wchłonąć za jednym razem 100 000 tokenów, czyli około 75 000 słów.

Warto przeczytać! Garmin wprowadza Fenix 7 Pro i Epix Pro w Indiach: szczegóły

Ale to niewiele ci mówi, czy to?

Pozwól, że dam ci lepsze wyobrażenie o tym, co mieści się w 75 000 słów.

Od Frankensteina do Anakina

Artykuł, który teraz czytasz, ma mniej niż 2000 słów, czyli ponad 37,5 razy mniej niż to, co Claude jest teraz w stanie przełknąć za jednym razem.

Ale czym są przykłady o porównywalnej wielkości? Cóż, mówiąc dokładniej, 75 000 słów oznacza:

Mniej więcej cała długość książki Mary Shelley Frankenstein
Cały Harry Potter i kamień filozoficzny książka, która zawiera 76 944 słów
Każda z książek Opowieści z Narnii, ponieważ wszystkie mają mniejszą liczbę słów
I najbardziej imponująca liczba ze wszystkich, wystarczy dołączyć dialogi z maksymalnie 8 filmów Gwiezdnych Wojen… łącznie

A teraz pomyśl o chatbocie, który w ciągu kilku sekund da ci możliwość zadania tego pytania wszystko chcesz o dowolnym tekście.

Na przykład niedawno widziałem wideo, w którym Claude dał pięciogodzinny podcast Johna Cormacka, a model był w stanie nie tylko podsumować cały podcast w zaledwie kilku słowach, był w stanie wskazać konkretne rzeczy, które zostały powiedziane w jednym konkretnym momencie podczas pięciogodzinnej sesji.

To nie do pojęcia, że nie tylko ten model jest w stanie to zrobić z transkrypcją 75 000 słów, ale oszałamiające jest to, że działa również z danymi, które może zobaczyć po raz pierwszy.

Bez wątpienia jest to najlepsze rozwiązanie dla studentów, prawników, naukowców i praktycznie każdego, kto musi przeglądać wiele danych jednocześnie.

Dla mnie jest to zmiana paradygmatu w sztucznej inteligencji, jakiej nie widzieliśmy.

Niewątpliwie drzwi do prawdziwie przełomowych innowacji zostały otwarte dla LLM.

To niesamowite, jak sztuczna inteligencja zmieniła się w ciągu zaledwie kilku miesięcy i jak szybko zmienia się co tydzień. I jedyne, co wiemy, to to, że się zmienia… jeden token na raz.

Ignacio de Gregorio Noblejas ma ponad pięcioletnie wszechstronne doświadczenie w sektorze technologicznym, a obecnie zajmuje stanowisko Management Consulting Manager w czołowej firmie konsultingowej, gdzie zdobył solidne doświadczenie w oferowaniu strategicznego doradztwa w zakresie wdrażania technologii i inicjatyw związanych z transformacją cyfrową. Jego doświadczenie nie ogranicza się do pracy w konsultingu, ale w wolnym czasie dzieli się swoimi głębokimi spostrzeżeniami z szerszą publicznością. Aktywnie edukuje i inspiruje innych w zakresie najnowszych osiągnięć w dziedzinie sztucznej inteligencji (AI) poprzez pisanie na Medium i cotygodniowy biuletyn TheTechOasis, który ma odpowiednio ponad 11 000 i 3 000 zaangażowanych odbiorców.

Oryginalny. Przesłane za zgodą.

Źródło

OEN.PL

ChatGPT zdetronizowany: jak Claude został nowym liderem AI

oen.pl

Problem z wyrównaniem

Od Massachusetts do AI

Chodzi o tokeny

Nauka bez treningu

Od Frankensteina do Anakina

Recenzja How Do You Live: piękny relikt i koniec pewnej epoki

Kurs dolara amerykańskiego (USD) przed kluczowymi rozstrzygnięciami! Zobacz prognozy analityków wielkich banków

Ostatnie artykuły

Biała koszulka Carmy’ego i jego styl w

Grecja przyjmuje sześciodniowy tydzień pracy, sprzeciwiając się

Badania wskazują na lepszy sposób przewidywania ryzyka

Eksperci ścigają się, aby powstrzymać nowy wirus