Technologia

Google Bliźnięta | Wyścig chatbotów

oen.pl

9 grudnia, 2023
4 min read

Google już od roku dogania OpenAI. Odkąd wypuszczenie ChatGPT było doniosłym wydarzeniem w erze sztucznej inteligencji, widać było, że ociężały gigant wyszukiwarek stara się postawić kolejny krok do przodu. Google, firma, która agresywnie publikowała badania nad sztuczną inteligencją, ale powoli udostępniała narzędzia społeczeństwu, została przechytrzona przez sprytny startup. Zagrożenie ze strony chatbota AI było na tyle duże, że dyrektor generalny Sundar Pichai włączył alarm przeciwpożarowy i ogłosił w firmie sytuację „kod czerwony”. Założyciele Sergei Brin i Larry Page przeszli z emerytury na polecenie pana Pichai.

Po doniesieniach o opóźnieniach i długim oczekiwaniu Google wypuścił w środę nowy model AI Gemini. A teraz był równie odpowiedni moment, jak każdy inny. Kilka tygodni temu OpenAI zostało przyłapane na zamachu stanu w zarządzie, który zakończył się tymczasowym usunięciem dyrektora generalnego Sama Altmana. Google z pewnością chciał wykorzystać falę niepewności, która wstrząsnęła jego konkurentem.

Z pomocą przyszła skarbnica Google zawierająca wielomodalne dane z wyszukiwarki i YouTube. Bliźnięta zostały przeszkolone, aby uczyć się o świecie jak dziecko, co zmieniło nasze postrzeganie tego, czym powinien być duży model językowy. Nie tylko odczytywał dane i pozornie je zwracał; mógł zrozumieć, czym był obraz lub dźwięk. Ta multimodalna zdolność była znacznie bardziej okrągłym sposobem „inteligencji”.

Warto przeczytać! Niestandardowe algorytmy Bluesky mogą być przyszłością mediów społecznościowych | PRZEWODOWY

Podczas gdy standardowe podejście do budowania modeli multimodalnych zwykle oznacza szkolenie różnych komponentów dla różnych modalności, Gemini zostało przeszkolone od podstaw w zakresie wielu modalności. Z tego powodu Google nazwał Gemini „natywnie multimodalnym”.

Reakcje pod wrażeniem

Filmy demonstracyjne modelu wywołały reakcje pod wrażeniem. W filmach widziano rzeczy, które Gemini robiły, a których nie widzieliśmy jeszcze w żadnym modelu AI. Jakby potrafił odgadnąć, że obrazek od kropki do kropki to krab, jeszcze zanim został ukończony, albo nawet wyśledzić kulkę papieru spod plastikowego kubka i dostrzec sztuczki zręcznościowe.

W przeciwieństwie do większości modeli, które są szkolone w zakresie procesorów graficznych lub procesorów graficznych, Gemini został przeszkolony przy użyciu opracowanych przez Google jednostek przetwarzania tensorów, czyli TPU, co dobrze wróży, biorąc pod uwagę nadrzędne niedobory procesorów graficznych, które nękają większość firm budujących własne modele sztucznej inteligencji.

Gemini jest dostępny w trzech rozmiarach przeznaczonych dla różnych platform — Nano został zaprojektowany do zadań na urządzeniu, takich jak podsumowywanie tekstu i zgłaszanie sugestii w aplikacjach do czatu; Gemini Pro był obecnie modelem leżącym u podstaw opartego na sztucznej inteligencji chatbota Bard; a Gemini Ultra, wersja multimodalna, zostanie wypuszczona na rynek w przyszłym roku, po zakończeniu kontroli zaufania i bezpieczeństwa. Model zostanie udostępniony programistom za pośrednictwem interfejsu API Google Cloud od 13 grudnia. Gemini jest również najbardziej zorientowany na produkty niż większość modeli na rynku, ponieważ jest osadzony w ekosystemie Google.

Warto przeczytać! Ogromna zniżka na iPhone'a 15 – India TV

Niektórzy zagłębiając się w twierdzenia Google odkryli więcej prawd. Profesor Wharton, Ethan Mollick, wykazał, że ChatGPT może wygodnie odtworzyć niektóre zadania, które początkowo wydawały się imponujące w wersji demonstracyjnej Gemini, jak np. analiza obrazu krok po kroku. Inny profesor nadzwyczajny z Uniwersytetu Wisconsin-Madison, Dimitris Papailiopoulos, wypróbował 14 przykładów wnioskowania multimodalnego zaprezentowanego w artykule badawczym Gemini na ChatGPT-4. GPT4V uzyskał trafność w 12 z tych przypadków, a kilka odpowiedzi było nawet lepszych niż Gemini.

Google przyznało również, że filmy demonstracyjne zostały zmontowane, aby skrócić czas reakcji. Dochodzenie przeprowadzone przez Bloomberg ujawniło, że pozornie płynna rozmowa między Gemini a użytkownikiem w filmie była wstawianym głosem. W rzeczywistości podpowiedzi były formułowane za pomocą tekstu, a modelowi wyświetlano kolejno obrazy. Żenująca gafa popełniona w wersji demo na żywo podczas premiery Barda była czymś, czego firma desperacko chciała uniknąć. Jednak pomimo zastrzeżeń związanych z dobrym marketingiem, Gemini przesunęło sztuczną inteligencję w kierunku bardziej ekspansywnym niż zwykły gadający chatbot.