Technologia

Nowe badanie Microsoft AI pokazuje, jak ChatGPT może konwertować instrukcje języka naturalnego na wykonywalne akcje robota

  • 14 kwietnia, 2023
  • 5 min read
Nowe badanie Microsoft AI pokazuje, jak ChatGPT może konwertować instrukcje języka naturalnego na wykonywalne akcje robota


Źródło:

Duże modele językowe (LLM), które mogą rozumieć i tworzyć język podobny do ludzkiego, stały się możliwe dzięki niedawnemu rozwojowi przetwarzania języka naturalnego. Niektóre LLM mogą zostać dopracowane do określonych zadań w kilku ujęciach poprzez dyskusje w wyniku uczenia się dużej ilości danych. Dobrym przykładem takiego LLM jest ChatGPT. Robotyka to fascynująca dziedzina, w której można zastosować ChatGPT, gdzie można go użyć do tłumaczenia poleceń języka naturalnego na kody wykonywalne do wydawania poleceń robotom. Pożądanym celem jest generowanie programów robotów na podstawie poleceń języka naturalnego i istnieje kilka zachowanych badań, z których niektóre są oparte na LLM.

Niestety, większość z nich nie ma funkcji „człowiek w pętli”, została zbudowana w ograniczonym zakresie lub jest zależna od sprzętu. Jednak większość tych badań opiera się na określonych zestawach danych, co powoduje konieczność przywoływania danych i ponownego uczenia modeli w celu dostosowania lub rozszerzenia ich do różnych sytuacji robotów. Z punktu widzenia praktycznego zastosowania system robotyczny, który można łatwo dostosować do wielu zastosowań lub warunków operacyjnych bez konieczności gromadzenia znacznej ilości danych lub ponownego uczenia modelu, byłby doskonały. Zaletą przyjęcia ChatGPT dla aplikacji robotów jest to, że mogą zacząć od skromnej ilości przykładowych danych w celu dostosowania modelu do konkretnych aplikacji i wykorzystania możliwości rozpoznawania języka i interakcji jako interfejsu.

Warto przeczytać!  Kolejnym ROG Ally firmy Asus będzie ROG Ally X
Rysunek 1: Pokazuje rzeczywiste wskazówki, których ChatGPT może użyć do przetłumaczenia wieloetapowych instrukcji ludzkich na sekwencje robotów, które można wykonać w różnych sytuacjach.

Chociaż zwraca się uwagę na potencjał ChatGPT w aplikacjach robotycznych, obecnie nie ma sprawdzonego podejścia do zastosowania w praktyce. W tym badaniu naukowcy z firmy Microsoft przedstawiają konkretną ilustrację tego, w jaki sposób ChatGPT można zastosować w kilku ujęciach, aby przetłumaczyć polecenia języka naturalnego na serię działań, które może wykonać robot (ryc. 1). Podpowiedzi zostały stworzone w celu spełnienia specyfikacji typowych dla wielu rzeczywistych aplikacji, a jednocześnie skonfigurowane tak, aby można je było łatwo dostosować.

? DOŁĄCZ DO najszybszej społeczności ML Subreddit

Aby sprostać tym wymaganiom, zaprojektowali zachęty do wprowadzania danych, aby zachęcić ChatGPT do: 1) Wygenerowania sekwencji predefiniowanych działań robota wraz z objaśnieniami w czytelnym formacie JSON. 2) Reprezentuj środowisko operacyjne w sformalizowanym stylu. 3) Wnioskuj i wysyłaj zaktualizowany stan środowiska operacyjnego, który można ponownie wykorzystać jako kolejne dane wejściowe, umożliwiając ChatGPT działanie wyłącznie w oparciu o pamięć ostatnich operacji. Przeprowadzili eksperymenty, aby przetestować skuteczność zaproponowanych przez siebie podpowiedzi we wnioskowaniu odpowiednich działań dla wieloetapowych instrukcji językowych w różnych środowiskach. Wymienili następujące wymagania dotyczące tego dokumentu: 1) Prosta interakcja z systemami wykonawczymi robotów lub oprogramowaniem do rozpoznawania wizualnego. 2) Przydatność w różnych warunkach domowych. 3) Zdolność do dostarczania dowolnej liczby instrukcji w prostym języku angielskim przy jednoczesnym zmniejszeniu efektu ograniczenia tokena ChatGPT.

Warto przeczytać!  Naukowcy mogą identyfikować pisanie akademickie generowane przez sztuczną inteligencję z „99% dokładnością”

Zauważyli również, że możliwości konwersacyjne ChatGPT umożliwiają użytkownikom modyfikowanie danych wyjściowych za pomocą informacji zwrotnych w języku naturalnym, co ma kluczowe znaczenie dla tworzenia aplikacji, która jest zarówno bezpieczna, jak i odporna, a jednocześnie oferuje przyjazny dla użytkownika interfejs. Zbiór działań robotów, reprezentacji środowiska i nazw obiektów można łatwo modyfikować i można ich używać jako szablonów w sugerowanych monitach. Wkład tego artykułu polega na stworzeniu i rozpowszechnieniu ogólnych wskazówek, które można łatwo dostosować do potrzeb każdego eksperymentatora, dostarczając użytecznych informacji społeczności zajmującej się robotyką. Są open source i są swobodnie dostępne na GitHub, wraz z monitami o ich użycie.


Sprawdź Papier I Github. Cała zasługa za te badania należy się badaczom tego projektu. Nie zapomnij też dołączyć nasz SubReddit z ponad 18 tysiącami ML, Kanał DiscordaI Biuletyn e-mailowygdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.

? Sprawdź narzędzia AI 100 w AI Tools Club

Aneesh Tickoo jest stażystą konsultingu w MarktechPost. Obecnie kontynuuje studia licencjackie w dziedzinie nauki o danych i sztucznej inteligencji w Indyjskim Instytucie Technologii (IIT) w Bhilai. Większość czasu spędza pracując nad projektami mającymi na celu wykorzystanie mocy uczenia maszynowego. Jego zainteresowania badawcze to przetwarzanie obrazu i pasjonuje się budowaniem wokół niego rozwiązań. Uwielbia kontakt z ludźmi i współpracę przy ciekawych projektach.

Warto przeczytać!  Apple wypuszcza iOS 16.3 i macOS Ventura 13.2 z obsługą klucza Apple ID FIDO, nową tapetą, głównymi poprawkami i nie tylko

? Koniecznie przeczytaj – Czym jest halucynacja AI? Co jest nie tak z chatbotami AI? Jak rozpoznać halucynującą sztuczną inteligencję?


Źródło