Technologia

Ten model sztucznej inteligencji o nazwie SeaFormer wprowadza transformatory wizyjne do urządzeń mobilnych

oen.pl

14 lutego, 2023
4 min read

Wprowadzenie transformatora wizyjnego i jego ogromny sukces w zadaniu wykrywania obiektów przyciągnęły wiele uwagi w kierunku transformatorów w domenie widzenia komputerowego. Podejścia te wykazały swoją siłę w globalnym modelowaniu kontekstowym, chociaż ich złożoność obliczeniowa spowolniła ich adaptację w praktycznych zastosowaniach.

Pomimo ich złożoności widzieliśmy wiele zastosowań transformatorów wizyjnych od czasu ich premiery w 2021 roku. Zostały one zastosowane do filmów w celu kompresji i klasyfikacji. Z drugiej strony kilka badań koncentrowało się na ulepszeniu transformatorów wizyjnych poprzez integrację istniejących struktur, takich jak zwoje lub piramidy cech.

Jednak interesującym aspektem dla nas jest ich zastosowanie do segmentacji obrazu. Mogli z powodzeniem modelować globalny kontekst zadania. Te podejścia sprawdzają się, gdy mamy potężne komputery, ale nie można ich wykonać na urządzeniach mobilnych ze względu na ograniczenia sprzętowe.

? Dołącz do naszej ponad 13-tysięcznej społeczności Subreddit ML

Niektórzy próbowali rozwiązać ten ogromny problem dotyczący pamięci i mocy obliczeniowej transformatorów wizyjnych, wprowadzając lekkie alternatywy dla istniejących komponentów. Choć zmiany te poprawiły wydajność transformatorów wizyjnych, to nadal był to poziom niewystarczający do ich realizacji na urządzeniach mobilnych.

Warto przeczytać! Ogromne zniżki, oferty bankowe na te iPhone'y. Sprawdź zmienioną cenę

Mamy więc nową technologię, która może przewyższyć wszystkie poprzednie dostępne modele w zadaniach segmentacji obrazu, ale nie możemy jej używać na urządzeniach mobilnych ze względu na ograniczenia. Czy istnieje sposób, aby rozwiązać ten problem i zapewnić tę moc urządzeniom mobilnym? Odpowiedź brzmi: tak, i to jest to SeaFormer jest dla.

SeaFormer (squeeze-enhanced Axial Transformer) to przyjazny dla urządzeń mobilnych model segmentacji obrazu zbudowany przy użyciu transformatorów. Zmniejsza złożoność obliczeniową uwagi osiowej, aby osiągnąć najwyższą wydajność na urządzeniach mobilnych.

Podstawowym elementem budulcowym jest to, co nazywają uwagą osiową wzmocnioną ściskaniem (SEA). Ten blok działa jak kompresor danych w celu zmniejszenia rozmiaru danych wejściowych. Zamiast przekazywać całe poprawki obrazu wejściowego, moduł uwagi SEA najpierw łączy mapy cech wejściowych w kompaktowy format, a następnie oblicza samouwagę. Ponadto, aby zminimalizować utratę informacji podczas łączenia, zapytanie, klucze i wartości są dodawane z powrotem do wyniku. Po ich ponownym dodaniu warstwa splotu w głąb jest używana do uwydatnienia lokalnych szczegółów.

Ten moduł uwagi znacznie zmniejsza obciążenie obliczeniowe w porównaniu z tradycyjnymi transformatorami wizyjnymi. Jednak model nadal wymaga udoskonalenia; w związku z tym modyfikacje są kontynuowane.

Warto przeczytać! ColorOS, aktualizacja aplikacji Moje pliki, poprawia niektóre funkcje

Aby jeszcze bardziej poprawić wydajność, zaimplementowano ogólny blok uwagi, który charakteryzuje się sformułowaniem skupienia uwagi i uwydatnienia szczegółów. Ponadto na końcu zastosowano lekką głowicę segmentującą. Połączenie tych wszystkich zmian daje model zdolny do przeprowadzania segmentacji obrazu w wysokiej rozdzielczości na urządzeniach mobilnych.

SeaFormer przewyższa wszystkie inne najnowocześniejsze wydajne transformatory segmentacji obrazu na różnych zestawach danych. Chociaż można go zastosować również do innych zadań, i aby to wykazać, autorzy ocenili zadanie SeaFormer pod kątem klasyfikacji obrazów w zbiorze danych ImageNet. Wyniki okazały się pomyślne, ponieważ SeaFormer może przewyższać inne przyjazne dla urządzeń przenośnych transformatory, a jednocześnie działać szybciej od nich.

Sprawdź Papier I Github. Cała zasługa za te badania należy się badaczom tego projektu. Nie zapomnij też dołączyć nasz SubReddit o ponad 14 tysiącach ML, Kanał DiscordaI Biuletyn e-mailowygdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.

Ekrem Çetinkaya otrzymał tytuł licencjata. w 2018 i mgr inż. w 2019 roku na Uniwersytecie Ozyegin w Stambule, w Turcji. Napisał pracę mgr. praca magisterska o odszumianiu obrazu przy użyciu głębokich sieci splotowych. Obecnie jest w trakcie studiów doktoranckich. stopień naukowy na Uniwersytecie w Klagenfurcie w Austrii i pracował jako badacz w projekcie ATHENA. Jego zainteresowania badawcze obejmują głębokie uczenie się, widzenie komputerowe i sieci multimedialne.

Warto przeczytać! Laptopy do gier z serii Lenovo Legion Slim wprowadzone na rynek w Indiach: wszystkie szczegóły

Źródło