OpenAI GPT-4 pojawi się w połowie marca 2023 i jest ogromny
Andreas Braun, CTO firmy Microsoft w Niemczech, potwierdził, że GPT-4 pojawi się w ciągu tygodnia od 9 marca 2023 r. i że będzie multimodalny. Multimodalna sztuczna inteligencja oznacza, że będzie w stanie działać w ramach wielu rodzajów danych wejściowych, takich jak wideo, obrazy i dźwięk.
Multimodalne duże modele językowe
Dużym wnioskiem z ogłoszenia jest to, że GPT-4 jest multimodalny (SEJ przewidywał, że GPT-4 będzie multimodalny w styczniu 2023 r.).
Modalność jest odniesieniem do typu danych wejściowych, którym (w tym przypadku) zajmuje się duży model językowy.
Multimodalność może obejmować tekst, mowę, obrazy i wideo.
GPT-3 i GPT-3.5 działały tylko w jednym trybie, tekstowym.
Według niemieckiego doniesienia prasowego, GPT-4 może działać w co najmniej czterech trybach: obrazy, dźwięk (słuchowy), tekst i wideo.
Cytowany jest dr Andreas Braun, CTO Microsoft Niemcy:
„W przyszłym tygodniu wprowadzimy GPT-4, tam będziemy mieli modele multimodalne, które będą oferować zupełnie inne możliwości – na przykład filmy…”
W raportach brakowało szczegółów dotyczących GPT-4, więc nie jest jasne, czy to, co zostało udostępnione na temat multimodalności, było specyficzne dla GPT-4, czy tylko ogólnie.
Microsoft Director Business Strategy Holger Kenn wyjaśnił multimodalność, ale raporty nie były jasne, czy odnosił się do multimodalności GPT-4, czy multimodalności w rodzajach.
Uważam, że jego odniesienia do multimodalności były specyficzne dla GPT-4.
W wiadomości udostępniono:
„Kenn wyjaśnił, na czym polega multimodalna sztuczna inteligencja, która może odpowiednio tłumaczyć tekst nie tylko na obrazy, ale także na muzykę i wideo”.
Innym interesującym faktem jest to, że Microsoft pracuje nad „metryki zaufania”, aby oprzeć swoją sztuczną inteligencję na faktach, aby uczynić ją bardziej niezawodną.
Microsoft Kosmos-1
Coś, co najwyraźniej było zaniżone w Stanach Zjednoczonych, to fakt, że Microsoft wypuścił multimodalny model językowy o nazwie Kosmos-1 na początku marca 2023 r.
Według raportu niemieckiego serwisu informacyjnego Heise.de:
„…zespół poddał wstępnie wytrenowany model różnym testom, uzyskując dobre wyniki w klasyfikowaniu obrazów, odpowiadaniu na pytania dotyczące zawartości obrazów, automatycznym etykietowaniu obrazów, optycznym rozpoznawaniu tekstu i zadaniach związanych z generowaniem mowy.
…Rozumowanie wizualne, czyli wyciąganie wniosków na temat obrazów bez użycia języka jako kroku pośredniego, wydaje się być tutaj kluczem…
Kosmos-1 to multimodalny modal, który integruje modalności tekstu i obrazów.
GPT-4 idzie dalej niż Kosmos-1, ponieważ dodaje trzecią modalność, wideo, a także wydaje się zawierać modalność dźwięku.
Działa w wielu językach
Wygląda na to, że GPT-4 działa we wszystkich językach. Jest opisany jako możliwość otrzymania pytania w języku niemieckim i odpowiedzi po włosku.
To trochę dziwny przykład, bo kto zadałby pytanie po niemiecku i chciałby otrzymać odpowiedź po włosku?
Oto co się potwierdziło:
„…technologia zaszła tak daleko, że zasadniczo „działa we wszystkich językach”: możesz zadać pytanie po niemiecku i uzyskać odpowiedź po włosku.
Dzięki multimodalności Microsoft(-OpenAI) „uczyni modele wszechstronne”.
Uważam, że przełom polega na tym, że model wykracza poza język dzięki swojej zdolności do przekazywania wiedzy w różnych językach. Więc jeśli odpowiedź jest w języku włoskim, będzie ją znać i będzie w stanie udzielić odpowiedzi w języku, w którym zadano pytanie.
To upodobniłoby go do celu multimodalnej sztucznej inteligencji Google o nazwie MUM. Mówi się, że mama jest w stanie udzielić odpowiedzi w języku angielskim, dla którego dane istnieją tylko w innym języku, na przykład japońskim.
Aplikacje GPT-4
Nie ma obecnie ogłoszenia, gdzie pojawi się GPT-4. Ale konkretnie wspomniano o Azure-OpenAI.
Google stara się dogonić Microsoft, integrując konkurencyjną technologię we własnej wyszukiwarce. Ten rozwój jeszcze bardziej pogłębia wrażenie, że Google pozostaje w tyle i brakuje mu pozycji lidera w dziedzinie sztucznej inteligencji skierowanej do konsumentów.
Google integruje już sztuczną inteligencję z wieloma produktami, takimi jak Google Lens, Google Maps i innymi obszarami, w których konsumenci wchodzą w interakcje z Google.
Po prostu sposób, w jaki Microsoft to wdraża, jest bardziej widoczny.
Przeczytaj oryginalne niemieckie raporty tutaj:
GPT-4 pojawi się w przyszłym tygodniu – i będzie multimodalny, mówi Microsoft Niemcy
Wyróżniony obraz autorstwa Shutterstock/Master1305