Technologia

Meta AI przedstawia Seamless: publicznie dostępny system AI, który odblokowuje ekspresyjną komunikację międzyjęzykową w czasie rzeczywistym

  • 4 grudnia, 2023
  • 4 min read
Meta AI przedstawia Seamless: publicznie dostępny system AI, który odblokowuje ekspresyjną komunikację międzyjęzykową w czasie rzeczywistym


Nowe funkcje i ulepszenia automatycznego tłumaczenia głosowego umożliwiły osiągnięcie znacznie więcej, obsługę większej liczby języków i pracę z większą liczbą formatów wejściowych. Jednak obecnie w wielkoskalowych zautomatyzowanych systemach tłumaczenia głosu brakuje kluczowych funkcji, które sprawiają, że komunikacja za pośrednictwem maszyn wydaje się naturalna w porównaniu z rozmową między ludźmi.

Nowe badanie Meta AI przedstawia zestaw modeli, które mogą przesyłać strumieniowo ekspresyjne i wielojęzyczne tłumaczenia od początku do końca. Badacze rozpoczęli od zaprezentowania SeamlessM4T v2, ulepszonej wersji modelu SeamlessM4T, która jest multimodalna i obsługuje prawie każdy język. Ten ulepszony model, który wykorzystuje nowszą wersję frameworku UnitY2, został przeszkolony przy użyciu danych językowych, które miały mniej zasobów. Wraz z rozszerzeniem SeamlessAlign dane w aż 76 językach — 114 800 godzin — są automatycznie dopasowywane. Dwa najnowsze modele, SeamlessExpressive i SeamlessStreaming, oparte są na technologii SeamlessM4T v2. Dzięki SeamlessExpressive użytkownicy mogą tłumaczyć, zachowując wszystkie fleksje i style głosu.

W badaniu Meta zachowano styl głosu, jednocześnie uwzględniając pewne niedostatecznie zbadane cechy prozodii, takie jak tempo mowy i pauzy, które zostały zaniedbane we wcześniejszych próbach badań nad mową ekspresyjną. Jeśli chodzi o SeamlessStreaming, proponowany model nie czeka na zakończenie wypowiedzi źródłowych przed utworzeniem tłumaczeń docelowych o niskim opóźnieniu; zamiast tego wykorzystuje technikę Efficient Monotonic Multihead Attention (EMMA). Dzięki SeamlessStreaming, pierwszemu tego rodzaju rozwiązaniu, wiele języków źródłowych i docelowych może jednocześnie wykonywać tłumaczenia mowy na tekst.

Warto przeczytać!  5 najpopularniejszych telefonów do kupienia poniżej 30 000 funtów w grudniu 2023 r.: Pixel 6a, Samsung F54 5G i więcej

Zespół ocenił prozodię, opóźnienie i solidność tych modeli w oparciu o połączenie nowych i zaktualizowanych wersji istniejących wcześniej środków automatycznych. Aby przeprowadzić ocenę na ludziach, zmodyfikowali istniejące protokoły, aby zmierzyć najważniejsze cechy dotyczące zachowania znaczenia, autentyczności i ekspresji. Przeprowadzili wszechstronną ocenę uprzedzeń ze względu na płeć, pierwszą znaną próbę zespołu red-team w zakresie multimodalnego tłumaczenia maszynowego, pierwszy znany system wykrywania i łagodzenia dodatkowej toksyczności oraz niesłyszalny, zlokalizowany mechanizm znaku wodnego mający na celu złagodzenie wpływu deepfakes i zagwarantowanie, że ich modele mogą używać w sposób odpowiedzialny i bezpieczny.

Seamless to pierwszy publicznie dostępny system umożliwiający ekspresyjną międzyjęzyczną komunikację w czasie rzeczywistym. Łączy w sobie SeamlessExpressive i SeamlessStreaming, które łączą główne komponenty. Ogólnie rzecz biorąc, Seamless zapewnia wgląd w podstawowe technologie wymagane do przekształcenia Universal Speech Translator z pomysłu science fiction w rzeczywistość.

Badacze podkreślają, że dokładność modelu może różnić się w zależności od płci, rasy lub akcentu, mimo że dokładnie przetestowaliśmy nasze artefakty pod kątem różnych osi uczciwości i w miarę możliwości uwzględniliśmy zabezpieczenia. Dalsze badania powinny mieć na celu poprawę zasięgu języków i zlikwidowanie różnic w wydajności między językami o niskich i dużych zasobach, aby stworzyć Uniwersalny Tłumacz Mowy.

Warto przeczytać!  Google Pixel 8a Uruchomienie IO Dane techniczne Ceny Funkcje Kolory

Sprawdź Artykuł i artykuł referencyjny. Cała zasługa za te badania przypada badaczom biorącym udział w tym projekcie. Nie zapomnij też dołączyć nasz ponad 33 tys. ML subReddit, 41 tys.+ społeczność na Facebooku, Kanał DiscordaI Biuletyn e-mailowygdzie dzielimy się najnowszymi wiadomościami dotyczącymi badań nad sztuczną inteligencją, ciekawymi projektami AI i nie tylko.

Jeśli podoba Ci się nasza praca, pokochasz nasz newsletter..

Dhanshree Shenwai jest inżynierem informatykiem i ma dobre doświadczenie w firmach FinTech zajmujących się finansami, kartami i płatnościami oraz bankowością, szczególnie zainteresowany zastosowaniami sztucznej inteligencji. Z entuzjazmem podchodzi do odkrywania nowych technologii i postępów w dzisiejszym, zmieniającym się świecie, dzięki którym życie każdego staje się łatwiejsze.

? Dołącz do najszybciej rozwijającego się biuletynu badawczego dotyczącego sztucznej inteligencji, czytanego przez naukowców z Google + NVIDIA + Meta + Stanford + MIT + Microsoft i wielu innych…


Źródło