Technologia

Meta AI przedstawia IMAGEBIND: pierwszy projekt sztucznej inteligencji typu open source, który umożliwia wiązanie danych z sześciu modalności jednocześnie, bez konieczności jawnego nadzoru

  • 10 maja, 2023
  • 5 min read
Meta AI przedstawia IMAGEBIND: pierwszy projekt sztucznej inteligencji typu open source, który umożliwia wiązanie danych z sześciu modalności jednocześnie, bez konieczności jawnego nadzoru


Ludzie mogą uchwycić złożone idee po zetknięciu się z zaledwie kilkoma przypadkami. W większości przypadków możemy zidentyfikować zwierzę na podstawie pisemnego opisu i odgadnąć dźwięk silnika nieznanego samochodu na podstawie obrazu. Dzieje się tak częściowo dlatego, że pojedynczy obraz może „powiązać” razem odmienne doznania zmysłowe. W oparciu o sparowane dane standardowe uczenie multimodalne ma ograniczenia w sztucznej inteligencji wraz ze wzrostem liczby modalności.

Dopasowywanie tekstu, dźwięku itp. do obrazów było przedmiotem zainteresowania kilku ostatnich metodologii. Strategie te wykorzystują co najwyżej dwa zmysły, jeśli już. Ostateczne osadzenie może jednak reprezentować tylko modalności treningowe i odpowiadające im pary. Z tego powodu nie jest możliwe bezpośrednie przeniesienie osadzania wideo-audio do działań obrazowo-tekstowych lub odwrotnie. Brak ogromnych ilości multimodalnych danych, w których wszystkie modalności są obecne razem, jest istotną barierą w nauce prawdziwego osadzania stawów.

Nowe badania Meta przedstawiają IMAGEBIND, system, który wykorzystuje kilka form danych par obrazów, aby nauczyć się jednej współdzielonej przestrzeni reprezentacji. Nie jest konieczne stosowanie zbiorów danych, w których wszystkie modalności występują jednocześnie. Zamiast tego niniejsza praca wykorzystuje właściwość wiązania obrazów i pokazuje, w jaki sposób wyrównanie osadzania każdej modalności z osadzeniem obrazu skutkuje wyłaniającym się wyrównaniem we wszystkich modalnościach.

? Sprawdź narzędzia sztucznej inteligencji firmy 100 w naszym klubie narzędzi sztucznej inteligencji

Duża ilość obrazów i towarzyszącego im tekstu w sieci doprowadziła do szeroko zakrojonych badań nad szkoleniem modeli tekstowo-obrazowych. ImageBind wykorzystuje fakt, że obrazy często współwystępują z innymi modalnościami i mogą służyć jako pomost do ich łączenia, na przykład łączenie tekstu z obrazem z danymi online lub łączenie ruchu z wideo z danymi wideo uzyskanymi z kamer do noszenia z czujnikami IMU.

Warto przeczytać!  Apple w końcu daje zielone światło na uruchomienie sklepu Epic Games Store na urządzeniach z systemem iOS w regionie UE

Cele uczenia się funkcji w różnych modalnościach mogą być reprezentacjami wizualnymi wyuczonymi z ogromnych ilości danych internetowych. Oznacza to, że ImageBind może również wyrównać dowolną inną modalność, która często pojawia się obok obrazów. Wyrównanie jest prostsze w przypadku modalności, takich jak ciepło i głębokość, które silnie korelują z obrazami.

ImageBind pokazuje, że samo użycie sparowanych obrazów może zintegrować wszystkie sześć modalności. Model może zapewnić bardziej holistyczną interpretację informacji, pozwalając różnym modalnościom „rozmawiać” ze sobą i odkrywać powiązania bez bezpośredniej obserwacji. Na przykład ImageBind może łączyć dźwięk i tekst, nawet jeśli nie widzi ich razem. W ten sposób inne modele mogą „zrozumieć” nowe modalności bez konieczności intensywnego, czasochłonnego i energochłonnego szkolenia. Solidne zachowanie skalowania ImageBind umożliwia zastosowanie modelu zamiast lub oprócz wielu modeli AI, które wcześniej nie mogły korzystać z dodatkowych modalności.

Wyraźnie pojawiająca się klasyfikacja zero-shot i wydajność wyszukiwania w zadaniach dla każdej nowej modalności zostały zademonstrowane poprzez połączenie sparowanych danych obraz-tekst na dużą skalę z naturalnie sparowanymi danymi samonadzorującymi w czterech nowych modalnościach: audio, głębokość, termiczna i bezwładnościowa jednostka pomiarowa ( IMU) odczyty. Zespół pokazuje, że wzmocnienie podstawowej reprezentacji obrazu wzmacnia te wyłaniające się cechy.

Warto przeczytać!  Wytrzymała konstrukcja, średnia dokładność, imponująca żywotność baterii

Odkrycia sugerują, że pojawiająca się klasyfikacja IMAGEBIND typu „zero-shot” w testach klasyfikacji i wyszukiwania dźwięku, takich jak ESC, Clotho i AudioCaps, dorównuje lub przewyższa modele ekspertów przeszkolonych pod bezpośrednim nadzorem tekstu audio. W kilkupunktowych testach porównawczych reprezentacje IMAGEBIND również działają lepiej niż modele nadzorowane przez ekspertów. Na koniec demonstrują wszechstronność wspólnego osadzania IMAGEBIND w różnych zadaniach kompozycyjnych, w tym międzymodalne wyszukiwanie, arytmetyczna kombinacja osadzania, wykrywanie źródła dźwięku w obrazach i generowanie obrazu z wejścia audio.

Ponieważ te osadzania nie są szkolone pod kątem konkretnej aplikacji, pozostają w tyle za wydajnością modeli specyficznych dla domeny. Zespół uważa, że ​​pomocne byłoby dowiedzieć się więcej o tym, jak dostosować osadzanie ogólnego przeznaczenia do określonych celów, takich jak ustrukturyzowane zadania przewidywania, takie jak wykrywanie.


Sprawdź Papier, PróbnyI Kod. Nie zapomnij dołączyć nasz SubReddit z ponad 20 000 ML, Kanał DiscordaI Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres Asif@marktechpost.com

Warto przeczytać!  Jak grać w Fortnite na iPhonie i iPadzie w 2023 roku

? Sprawdź narzędzia AI 100 w AI Tools Club

Tanushree Shenwai jest stażystką konsultanta w MarktechPost. Obecnie zdobywa tytuł B.Tech w Indyjskim Instytucie Technologii (IIT) w Bhubaneswar. Jest entuzjastką Data Science i żywo interesuje się zakresem zastosowań sztucznej inteligencji w różnych dziedzinach. Pasjonuje się odkrywaniem nowych osiągnięć w technologiach i ich praktycznym zastosowaniem.


Źródło