Technologia

Multimodalne modele językowe: przyszłość sztucznej inteligencji (AI)

  • 27 marca, 2023
  • 9 min read
Multimodalne modele językowe: przyszłość sztucznej inteligencji (AI)


Duże modele językowe (LLM) to modele komputerowe zdolne do analizowania i generowania tekstu. Są szkoleni w zakresie ogromnej ilości danych tekstowych, aby poprawić ich wydajność w zadaniach takich jak generowanie tekstu, a nawet kodowanie.

Większość obecnych LLM to tylko tekst, tj. wyróżniają się tylko aplikacjami tekstowymi i mają ograniczoną zdolność rozumienia innych typów danych.

Przykłady LLM tylko tekstowych obejmują GPT-3, BERT, RoBERTaitp.

? Zalecana lektura: Multimodalne modele językowe: przyszłość sztucznej inteligencji (AI)

Wręcz przeciwnie, multimodalne LLM łączą inne typy danych, takie jak obrazy, wideo, audio i inne dane sensoryczne wraz z tekstem. Integracja multimodalności z LLM rozwiązuje niektóre ograniczenia obecnych modeli tekstowych i otwiera możliwości dla nowych aplikacji, które wcześniej były niemożliwe.

Niedawno wydany GPT-4 przez Open AI jest przykładem multimodalnego LLM. Może przyjmować obrazy i tekst, aw wielu testach porównawczych wykazał wydajność na poziomie człowieka.

Rozwój multimodalnej sztucznej inteligencji

Rozwój multimodalnej sztucznej inteligencji można przypisać dwóm kluczowym technikom uczenia maszynowego: Nauka reprezentacji I nauka transferu.

Z nauka reprezentacjimodele mogą opracować wspólną reprezentację dla wszystkich modalności, podczas gdy nauka transferu pozwala im najpierw nauczyć się podstawowej wiedzy przed dopracowaniem w określonych domenach.

Techniki te są niezbędne, aby multimodalna sztuczna inteligencja była wykonalna i skuteczna, co widać w ostatnich przełomowych rozwiązaniach, takich jak CLIP, który wyrównuje obrazy i tekst, oraz DALL·E 2 i Stable Diffusion, które generują wysokiej jakości obrazy na podstawie monitów tekstowych.

Ponieważ granice między różnymi modalnościami danych stają się mniej wyraźne, możemy spodziewać się, że więcej aplikacji AI będzie wykorzystywać relacje między wieloma modalnościami, wyznaczając zmianę paradygmatu w tej dziedzinie. Podejścia ad-hoc będą stopniowo przestarzałe, a znaczenie zrozumienia powiązań między różnymi modalnościami będzie nadal rosło.

Działanie multimodalnych LLM

Tylko tekstowe modele językowe (LLM) są zasilane przez model transformatora, który pomaga im rozumieć i generować język. Ten model pobiera tekst wejściowy i konwertuje go na reprezentację numeryczną zwaną „osadzeniem słów”. Te osadzenia pomagają modelowi zrozumieć znaczenie i kontekst tekstu.

Model transformatora wykorzystuje następnie coś, co nazywa się „warstwami uwagi”, aby przetworzyć tekst i określić, w jaki sposób różne słowa w tekście wejściowym są ze sobą powiązane. Te informacje pomagają modelowi przewidzieć najbardziej prawdopodobne następne słowo w danych wyjściowych.

Warto przeczytać!  Od dziś Twitter będzie pobierał opłaty za uwierzytelnianie dwuskładnikowe; Oto jak zdobyć to za darmo

Z drugiej strony multimodalne LLM działają nie tylko z tekstem, ale także z innymi formami danych, takimi jak obrazy, audio i wideo. Modele te konwertują tekst i inne typy danych na format wspólny przestrzeni kodowania, co oznacza, że ​​mogą przetwarzać wszystkie typy danych przy użyciu tego samego mechanizmu. Umożliwia to modelom generowanie odpowiedzi obejmujących informacje z wielu modalności, co prowadzi do dokładniejszych i kontekstowych wyników.

Dlaczego istnieje potrzeba multimodalnych modeli językowych

LLM tylko tekstowe, takie jak GPT-3 i BERT, mają szeroki zakres zastosowań, takich jak pisanie artykułów, tworzenie wiadomości e-mail i kodowanie. Jednak to podejście oparte wyłącznie na tekście uwydatniło również ograniczenia tych modeli.

Chociaż język jest kluczową częścią ludzkiej inteligencji, reprezentuje tylko jeden aspekt naszej inteligencji. Nasze zdolności poznawcze w dużej mierze opierają się na nieświadomej percepcji i zdolnościach, w dużej mierze ukształtowanych przez nasze przeszłe doświadczenia i zrozumienie, jak działa świat.

LLM przeszkoleni wyłącznie w zakresie tekstu mają z natury ograniczoną zdolność uwzględniania zdrowego rozsądku i wiedzy o świecie, co może okazać się problematyczne w przypadku niektórych zadań. Rozszerzenie zestawu danych szkoleniowych może do pewnego stopnia pomóc, ale modele te mogą nadal napotkać nieoczekiwane luki w swojej wiedzy. Podejścia multimodalne mogą sprostać niektórym z tych wyzwań.

Aby lepiej to zrozumieć, rozważmy przykład ChatGPT i GPT-4.

Chociaż ChatGPT to niezwykły model językowy, który okazał się niezwykle przydatny w wielu kontekstach, ma on pewne ograniczenia w obszarach takich jak złożone rozumowanie.

Aby temu zaradzić, oczekuje się, że następna iteracja GPT, GPT-4, przekroczy możliwości rozumowania ChatGPT. Wykorzystując bardziej zaawansowane algorytmy i włączając multimodalność, GPT-4 jest gotowy do przeniesienia przetwarzania języka naturalnego na wyższy poziom, umożliwiając mu rozwiązywanie bardziej złożonych problemów rozumowania i dalszą poprawę jego zdolności do generowania odpowiedzi podobnych do ludzkich.

OpenAI: GPT-4

GPT-4 to duży, multimodalny model, który może przyjmować zarówno obrazy, jak i tekst oraz generować dane wyjściowe w postaci tekstu. Chociaż w niektórych rzeczywistych sytuacjach może nie być tak zdolny jak ludzie, GPT-4 wykazał się wydajnością na poziomie człowieka w wielu profesjonalnych i akademickich testach porównawczych.

Warto przeczytać!  OpenAI wprowadza model przetwarzania tekstu na wideo Sora, rzuca wyzwanie rywalom

W porównaniu do swojego poprzednika, GPT-3.5, różnica między tymi dwoma modelami może być subtelna w zwykłej rozmowie, ale staje się widoczna, gdy złożoność zadania osiąga określony próg. GPT-4 jest bardziej niezawodny i kreatywny oraz może obsługiwać bardziej szczegółowe instrukcje niż GPT-3.5.

Ponadto może obsługiwać podpowiedzi zawierające tekst i obrazy, co pozwala użytkownikom określić dowolne zadanie wizyjne lub językowe. GPT-4 zademonstrował swoje możliwości w różnych dziedzinach, w tym w dokumentach zawierających tekst, zdjęcia, diagramy lub zrzuty ekranu, i może generować wyniki tekstowe, takie jak język naturalny i kod.

Khan Academy niedawno ogłosiła, że ​​użyje GPT-4 do zasilania swojego asystenta AI Khanmigo, który będzie pełnić rolę wirtualnego korepetytora dla uczniów oraz asystenta w klasie dla nauczycieli. Zdolność każdego ucznia do zrozumienia koncepcji znacznie się różni, a użycie GPT-4 pomoże organizacji rozwiązać ten problem.

Microsoft: Kosmos-1

Kosmos-1 to multimodalny model dużego języka (MLLM), który może dostrzegać różne modalności, uczyć się w kontekście (kilka strzałów) i postępować zgodnie z instrukcjami (zero strzałów). Kosmos-1 został przeszkolony od podstaw w zakresie danych internetowych, w tym tekstu i obrazów, par obraz-podpis oraz danych tekstowych.

Model osiągnął imponującą wydajność w zakresie rozumienia języka, generowania, postrzegania języka i zadań wzrokowych. Kosmos-1 natywnie obsługuje język, percepcję-język i czynności związane z widzeniem, a także może obsługiwać zadania wymagające intensywnej percepcji i języka naturalnego.

Kosmos-1 wykazał, że multimodalność pozwala dużym modelom językowym osiągnąć więcej przy mniejszych nakładach, a mniejszym modelom rozwiązywać skomplikowane zadania.

Google: PaLM-E

PaLM-E to nowy model robotyki opracowany przez naukowców z Google i TU Berlin, który wykorzystuje transfer wiedzy z różnych dziedzin wizualnych i językowych w celu usprawnienia uczenia się robotów. W przeciwieństwie do wcześniejszych wysiłków, PaLM-E trenuje model językowy, aby bezpośrednio uwzględniać surowe dane z czujników z robota-agenta. Rezultatem jest wysoce skuteczny model uczenia się robota, najnowocześniejszy model języka wizualnego ogólnego przeznaczenia.

Model przyjmuje dane wejściowe z różnymi typami informacji, takimi jak tekst, obrazy i zrozumienie otoczenia robota. Może generować odpowiedzi w postaci zwykłego tekstu lub serii instrukcji tekstowych, które można przetłumaczyć na polecenia wykonywalne dla robota w oparciu o szereg typów informacji wejściowych, w tym tekst, obrazy i dane środowiskowe.

PaLM-E wykazuje kompetencje zarówno w zadaniach ucieleśnionych, jak i nieucieleśnionych, o czym świadczą eksperymenty przeprowadzone przez naukowców. Ich odkrycia wskazują, że szkolenie modelu w zakresie kombinacji zadań i przykładów wykonania zwiększa jego wydajność w każdym zadaniu. Ponadto zdolność modelu do przekazywania wiedzy umożliwia mu skuteczne rozwiązywanie zadań robotów nawet przy ograniczonych przykładach szkoleniowych. Jest to szczególnie ważne w robotyce, gdzie uzyskanie odpowiednich danych treningowych może być trudne.

Warto przeczytać!  Galaxy Book 3 Pro, Book 3 Pro 360 w praktyce: Samsung przechodzi na pełną wersję Pro

Ograniczenia multimodalnych LLM

Ludzie w naturalny sposób uczą się i łączą różne modalności i sposoby rozumienia otaczającego ich świata. Z drugiej strony multimodalne LLM próbują jednocześnie uczyć się języka i percepcji lub łączyć wcześniej przeszkolone komponenty. Chociaż takie podejście może prowadzić do szybszego rozwoju i lepszej skalowalności, może również skutkować niezgodnościami z ludzką inteligencją, które mogą objawiać się dziwnym lub nietypowym zachowaniem.

Chociaż multimodalne LLM robią postępy w rozwiązywaniu niektórych krytycznych problemów współczesnych modeli językowych i systemów głębokiego uczenia się, wciąż istnieją ograniczenia, którymi należy się zająć. Ograniczenia te obejmują potencjalne rozbieżności między modelami a ludzką inteligencją, co może utrudniać ich zdolność do wypełnienia luki między sztuczną inteligencją a ludzkim poznaniem.

Wniosek: dlaczego multimodalne LLM to przyszłość?

Jesteśmy obecnie na czele nowej ery sztucznej inteligencji i pomimo jej obecnych ograniczeń, modele multimodalne są gotowe do przejęcia władzy. Modele te łączą wiele typów danych i modalności i mogą całkowicie zmienić sposób, w jaki wchodzimy w interakcje z maszynami.

Multimodalne LLM osiągnęły niezwykły sukces w przetwarzaniu obrazu komputerowego i języka naturalnego. Jednak w przyszłości możemy spodziewać się, że multimodalne LLM będą miały jeszcze większy wpływ na nasze życie.

Możliwości multimodalnych LLM są nieograniczone, a my dopiero zaczęliśmy odkrywać ich prawdziwy potencjał. Biorąc pod uwagę ich ogromną obietnicę, jasne jest, że multimodalne LLM będą odgrywać kluczową rolę w przyszłości sztucznej inteligencji.


Nie zapomnij dołączyć nasz subreddit z ponad 16 tysiącami ML, Kanał DiscordaI Biuletyn e-mailowygdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.


Źródła:

Jestem absolwentem inżynierii lądowej (2022) z Jamia Millia Islamia w New Delhi i żywo interesuję się nauką o danych, zwłaszcza sieciami neuronowymi i ich zastosowaniem w różnych obszarach.

? Najlepsze narzędzia do adnotacji obrazu w 2023 roku


Źródło