Technologia

Musisz przeczytać dokumenty NLP z ostatnich 12 miesięcy

  • 2 marca, 2023
  • 7 min read
Musisz przeczytać dokumenty NLP z ostatnich 12 miesięcy


Musisz przeczytać dokumenty NLP z ostatnich 12 miesięcy
Zdjęcie Anila Sharmy na Pexels

od przełomowe wydanie BERT w październiku 2018 r., uczenie maszynowe osiągnęło jeszcze wyższy poziom dzięki sprytnej optymalizacji i rozszerzonym obliczeniom. BERT, co oznacza dwukierunkowe reprezentacje enkoderów z transformatorów, wprowadziło nowy paradygmat w architekturze sieci neuronowych. The transformator posłużyło jako znaczące odblokowanie możliwości uczenia maszynowego.

Dalsze postępy w dziedzinie przetwarzania języka naturalnego (NLP) poprawiły tłumaczenie języków obcych, ulepszyły aplikacje bez kodu, zwiększyły płynność chatbotów i bardzo szybko ustanowiły nowe standardy dla szeregu najnowocześniejszych testów porównawczych.

Oprócz tych niezwykłych osiągnięć rozwój dużych modeli językowych (LLM) nie był pozbawiony kontrowersji. W artykule „Stochastic Parrots” z 2021 r. zespół naukowców, w tym inżynier uczenia maszynowego i etyk Timnit Gebru, skrytykował te modele za:

  • Nakładanie potępienia koszt środowiskowy
  • Z wyłączeniem głosów marginalizowanych poprzez nieelegancką kurację zbioru danych treningowych
  • Plagiat treści internetowych i kradzieży od pisarzy

Gebru została zwolniona ze stanowiska w zespole etycznej sztucznej inteligencji Google.

W tym spisie

Przyglądamy się czterem artykułom NLP opublikowanym w ubiegłym roku, które reprezentują najnowsze osiągnięcia. Zrozumienie tych zmian poprawi Twoje możliwości jako Data Scientist i postawi Cię na czele tej dynamicznej przestrzeni badawczej.

W tym artykule zbadano idealny rozmiar modelu i liczbę tokenów dla modelu językowego korzystającego z architektury transformatora. Ma na celu odpowiedzieć na pytanie, jaka jest idealna liczba parametrów i rozmiar zbioru danych dla modelu wyszkolonego w ramach z góry określonego budżetu obliczeniowego.

Naukowcy odkryli, że we wcześniejszych przypadkach LLM wydawały się być poważnie niedoszkolone. Autorzy krytykują te zespoły za nadmierne podkreślanie skalowania zasobów obliczeniowych przy jednoczesnym niedocenianiu znaczenia ilości danych szkoleniowych.

Warto przeczytać!  Almer podpisuje umowę z TeamViewer w celu globalnego wprowadzenia jego zestawu słuchawkowego AR

Autorzy doszli do wniosku, że w przypadku szkolenia optymalnego pod kątem obliczeń rozmiar modelu i liczba tokenów szkoleniowych powinny być jednakowo skalowane. Innymi słowy,

za każde podwojenie rozmiaru modelu należy również podwoić liczbę żetonów szkolenia.

Badanie wykazało, że stosunkowo mały model (parametry 70B) trenowany na 4-krotnie większej liczbie danych treningowych mógł konsekwentnie wygrywać z większymi modelami (do parametrów 530B) w najnowocześniejszych testach porównawczych, takich jak wielozadaniowe rozumienie języka (MMLU) .

Ulepszone dane treningowe pozwalają mniejszemu modelowi wykorzystywać znacznie mniej zasobów obliczeniowych do wnioskowania i dostrajania. To dobrze wróży dalszemu wykorzystaniu.

TL;DR — ten artykuł pokazuje, że wcześniejsze rozumienie praw skalowania było błędne. W rzeczywistości, po przeszkoleniu z odpowiednio dużą liczbą tokenów, mniejsze sieci mogą być znacznie lepsze niż większe.

Zwiększenie mocy obliczeniowej zapewnianej LLM nie poprawia automatycznie ich zdolności do interpretowania intencji użytkownika. Jako niepokojąca konsekwencja tego faktu, LLM mogą dostarczać wyniki, które są nieprawdziwe lub szkodliwe.

W tym artykule zwrócono uwagę na nowatorską metodę precyzyjnego dostrajania modeli językowych przy użyciu informacji zwrotnych od ludzi, aby lepiej dostosować dane wyjściowe do intencji użytkownika w różnych zadaniach.

Badacze zebrali zestaw danych, zaczynając od zbioru monitów API OpenAI. Następnie wykorzystują dane do precyzyjnego dostrojenia GPT-3 poprzez nadzorowane uczenie się. Następnie, korzystając z uczenia się przez wzmacnianie na podstawie danych wprowadzanych przez użytkownika, wygenerowali wyniki nowego modelu rankingu zestawów danych. Następnie naukowcy wykorzystali te dane do dalszego dostrojenia nadzorowanego modelu, w wyniku czego powstał model, który nazwali InstructGPT.

W porównaniu z oryginalnym GPT-3, InstructGPT ma 100 razy mniej parametrów, a mimo to jest w stanie przewyższyć GPT-3 w ocenach ludzi.

Warto przeczytać!  Pojawiają się szczegółowe specyfikacje Xiaomi 13T i 13T Pro

Na podstawie danych testowych model InstructGPT jest bardziej skłonny do uczciwej odpowiedzi i mniejszego prawdopodobieństwa tworzenia szkodliwych treści. Chociaż InstructGPT nadal od czasu do czasu popełnia podstawowe błędy, odkrycia te pokazują, że precyzyjne dostrojenie za pomocą człowieka w pętli służy jako realna droga do dopasowywania modeli językowych do ludzkich intencji.

TL;DR — w tym artykule pokazano, że uczenie się przez wzmacnianie z wykorzystaniem informacji zwrotnych od ludzi jest niezwykle pomocnym sposobem na uczynienie istniejących modeli bardziej użytecznymi i wymagającymi niewielkich nakładów.

W tym artykule omówiono ulepszenia, dzięki którym model może grać w Atari, dodawać napisy do obrazów, generować tekst, układać fizyczne bloki za pomocą ramienia robota i wiele więcej.

Model Gato składa się z pojedynczej sieci neuronowej o niezmienionych wagach w różnych zadaniach.

Gato powstał w wyniku klonowania zachowania na większą skalę, będącego formą wyzwania związanego z modelowaniem sekwencji. Wyzwanie polegające na zakodowaniu wielu modalności w pojedynczej przestrzeni wektorowej tokenów stanowiło największą barierę, z jaką musieli zmierzyć się badacze w swoich wysiłkach. Badanie wprowadza szereg postępów w tokenizacji standardowych zbiorów danych wizyjnych i językowych. Ponadto badacze poszukiwali nowych rozwiązań typowego problemu modelu sekwencyjnego, jakim jest określanie długości okna kontekstowego.

TL;DR — ten artykuł pokazuje, że modele multimodalne mogą bardzo dobrze i prawdopodobnie są przyszłością paradygmatu modelowania. W przeciwieństwie do poprzednich najnowocześniejszych modeli, które były w stanie działać tylko na wąskim obszarze, Gato realizuje ogólną politykę zdolną do różnorodnych zadań i wielu modalności.

LLM to niezwykli, nieliczni uczniowie, którzy używają wąskich, specyficznych dla zadania przykładów. Ten artykuł badawczy pokazuje, że LLM są również kompetentnymi intelektualistami, którzy nie mają żadnego pomysłu, zwłaszcza gdy zostaną poproszeni o wyrażenie „przemyślmy krok po kroku”.

Warto przeczytać!  5 przyszłych możliwości spin-offu dzięki przejęciu przez SEGA dewelopera Angry Birds, firmy Rovio

Tak, dobrze przeczytałeś.

Poinstruowanie LLM, aby „myśleło krok po kroku”, w rzeczywistości poprawia wyniki na tyle, aby uzasadnić artykuł.

Model stworzony przez autorów Kojima et al. przekroczył istniejące standardy w zadaniach rozumowania, takich jak arytmetyka (np. MultiArith, GSM8K, AQUA-RAT, SVAMP), rozumowanie symboliczne (np. Ostatnia litera, Rzut monetą) i rozumowanie logiczne (np. Rozumienie dat, Śledzenie przetasowanych obiektów).

Możliwość dostosowania tej pojedynczej zachęty „przemyśl krok po kroku” w szerokim zakresie zadań rozumowania sugeruje, że umiejętności strzału zerowego były wcześniej znacznie niedostatecznie wykorzystywane. Niezwykle zaawansowane, wielozadaniowe możliwości można uzyskać po prostu przez zastosowanie lingwistycznego sformułowania problemu, który wymaga większego obciążenia poznawczego.

Mój umysł jest spalony.

TL;DR — ten artykuł pokazuje, że jakość odpowiedzi LLM w dużej mierze zależy od brzmienia zachęty

Streszczenie

Uczenie maszynowe znacznie się rozwinęło w ciągu ostatnich czterech lat. Tylko czas pokaże, czy takie tempo rozwoju uda się utrzymać.

Artykuły te omawiają najnowsze ulepszenia w NLP, ujawniając znaczną przestrzeń do ciągłego doskonalenia procesów szkoleniowych, aby obejmowały większe zbiory danych i uczenie się wzmacniające człowieka w pętli.

Niedawne badania badają również tworzenie paradygmatów multimodalnych i ulepszone możliwości wnioskowania zero-shot poprzez proste zmiany monitów wejściowych modelu.

Rachunki Nicole Janeway jest Data Scientist z doświadczeniem w doradztwie komercyjnym i federalnym. Pomaga organizacjom wykorzystać ich największy atut: prostą i solidną strategię dotyczącą danych.

Oryginalny. Przesłane za zgodą.


Źródło