Technologia

Zabijanie robotami

oen.pl

21 czerwca, 2023
4 min read

Podczas gdy świat utknął w chatbotach i dużych modelach językowych (LLM), Google DeepMind buduje własną ligę. Firma jest piekielnie nastawiona na budowanie robotów i nad tym pracuje.

Firma zaprezentowała RoboCat, samodoskonalącego się agenta robota, który jest w stanie uczyć się i wykonywać różnorodne zadania różnymi ramionami, a także generuje nowe dane treningowe do samodoskonalenia. Może wykonywać nowe zadania przy mniej niż 100 demonstracjach, zmniejszając potrzebę szkolenia nadzorowanego przez człowieka.

RoboCat jest oparty na Gato (po hiszpańsku „kot”), uniwersalnym agencie do przetwarzania języka, obrazów i działań. Model został wypuszczony we wrześniu 2022 r. wyłącznie z zamiarem wyjścia poza wyjścia tekstowe i stania się multimodalnym i wielozadaniowym uogólnieniem. Po pierwszym szkoleniu z Gato, badacze uruchomili RoboCat na treningu „samodoskonalenia” z zadaniami, których nigdy wcześniej nie widziano.

Proces szkolenia obejmuje:

Uzyskanie znacznej liczby demonstracji, w zakresie od 100 do 1000, dla nowego zadania lub robota przy użyciu sterowanego przez człowieka ramienia robota.
Wykorzystanie zebranych demonstracji w celu dostrojenia RoboCat specjalnie do tego nowego zadania lub ramienia, co zaowocuje opracowaniem wyspecjalizowanego agenta spin-off.
Umożliwienie agentowi spin-off dalszej poprawy jego wydajności w nowym zadaniu lub ramieniu poprzez ćwiczenie go około 10 000 razy, generując dodatkowe dane szkoleniowe w procesie.
Integracja zarówno danych demonstracyjnych, jak i danych wygenerowanych samodzielnie z istniejącym zestawem danych treningowych RoboCat w celu ulepszenia ogólnych danych treningowych.
Wykorzystanie zaktualizowanego zestawu danych szkoleniowych do szkolenia nowej wersji RoboCat, włączając nowo nabytą wiedzę i doświadczenie od wyspecjalizowanego agenta spin-off.

Warto przeczytać! Aktualizacja Androida Auto została zaprezentowana na targach CES 2023 wraz z ulepszeniami cyfrowych kluczyków samochodowych i wbudowanym Google dla samochodów

Google DeepMind wyraźnie pokazał, że chce odejść od tradycyjnych modeli przetwarzania języka i zrobić krok w kierunku budowania agentów, którzy potrafią wykonywać zadania. Jest to jedna z niewielu firm, które starają się uczynić sztuczną inteligencję użyteczną, zamiast po prostu budować chatboty, jak inne.

W innej innowacji omówionej w artykule badawczym zatytułowanym Agile Catching with Whole-Body MPC and Blackbox Policy Learning, firma pokazuje robota łapiącego przedmioty rzucane z dużą prędkością. Najlepsze w tych badaniach jest to, że nie wykorzystują one żadnych podstawowych modeli, takich jak modelowanie języka, aby osiągnąć to zadanie. Dzięki prostemu śledzeniu i przechwytywaniu robot łapie rzucane w niego piłki.

Google zaprezentował swoją wizję i możliwości w zeszłym roku za pomocą PaLM-E. Stanowiło to ucieleśnienie multimodalnego modelu językowego do wykonywania zadań w świecie rzeczywistym w oparciu o wizję i obrazy. Następnie, w przypadku RT-1, Google Research wykorzystał transformatory do sterowania w świecie rzeczywistym. To pokazuje, że przywrócenie DeepMind przez Google z powrotem do swojego ekosystemu było rzeczywiście strzałem w dziesiątkę.

Stojąc osobno

Jedynym bliskim konkurentem Google DeepMind w robotyce jest Boston Dynamics. Firma rozwija robotykę od czasu wydania Spot, a teraz powstaje także humanoidalny „Atlas”. Nie oznacza to, że żadna inna firma nie buduje robotycznego marzenia. Tesla Elona Muska zaprezentowała Optimusa w zeszłym roku, ale wciąż jest w trakcie prac i nie ma już po nim śladu. Zdecydowanie mniej optymistyczne.

Warto przeczytać! 6 unikalnych funkcji, które wyróżniają OnePlus 11 spośród innych flagowców z Androidem

OpenAI miał kiedyś dział robotyki, który zbudował ramię robota, które mogło ułożyć kostkę Rubika. Ale firma zamknęła go w 2021 roku. Teraz postanowiła postawić na to ponownie i zainwestować w norweski start-up o nazwie 1x.

W 2021 roku, kiedy OpenAI zamknęło dział robotyki, Google DeepMind zrobił ogromny krok w kierunku budowy bardziej ogólnych robotów. Na blogu badawczym firma przedstawiła wizyjną manipulację robotami opartą na RGB-Stacking, aby umożliwić robotom zrozumienie świata i otaczających go obiektów.

Z drugiej strony Microsoft wciąż ma kaca ChatGPT. W lutym firma rozszerzyła swoje możliwości w zakresie ramion robotyki, dronów i innych robotów asystentów domowych, nazywając badania „ChatGPT for Robotics”.

Co ciekawe, firma posiada laboratorium robotyki o nazwie AI Lab Projects, w którym jednocześnie eksperymentuje ze sztuczną inteligencją i robotami, aby zautomatyzować wiele zadań. W tym celu laboratorium ma Paul-E, współpracującego robota poruszającego się pod kątem 7 stopni z wbudowanym systemem wizyjnym i kontrolą siły w wysokiej rozdzielczości. Mimo to badania są dalekie od tego, ile DeepMind inwestuje w tę dziedzinę.

Debata, czy ucieleśnienie jest wymagane dla AGI, czy nie, trwa prawdopodobnie w nieskończoność dzięki dogłębnym badaniom Google DeepMind w tej dziedzinie z integracją modeli językowych w maszynach.

Warto przeczytać! Apple spotyka się z ostrą krytyką celebrytów po reklamie iPada miażdżącej pianino

Źródło