Technologia

Model mowy Google działa lepiej niż OpenAI Whisper

oen.pl

8 marca, 2023
3 min read

Model mowy Google działa lepiej niż OpenAI Whisper

Badacze Google niedawno zaprezentowali nową aktualizację swojego uniwersalnego modelu mowy (USM), która obsługuje 1000 języków. Naukowcy stwierdzili, że ten model działa lepiej niż OpenAI Whisper we wszystkich segmentach automatycznego rozpoznawania mowy. Ponadto lepsze napisy na YouTube!

Badacze mogą poprosić o dostęp do interfejsu API USM tutaj.

Artykuł „Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages” pokazuje, że duży, nieoznakowany wielojęzyczny zestaw danych używany do wstępnego szkolenia kodera modelu i dostrojony na mniejszym zestawie oznakowanych danych umożliwia rozpoznawanie niedostatecznie reprezentowanych języków . Ponadto proces szkolenia skutecznie adaptuje nowe języki i dane.

Badacze zademonstrowali skuteczność wstępnie wytrenowanego kodera poprzez precyzyjne dostrojenie wielojęzycznych danych mowy w YouTube Caption. Pomimo ograniczonych nadzorowanych danych YouTube, model osiąga średnio mniej niż 30% błędów słownych w 73 językach, co jest kamieniem milowym nigdy wcześniej nie osiągniętym. Model ma średnio relatywnie niższy WER o 32,7% w porównaniu z modelem Whisper (large-v2), który został przeszkolony z wykorzystaniem ponad 400 000 godzin oznaczonych danych dla tych 18 języków. USM przewyższa również Whisper we wszystkich segmentach automatycznego rozpoznawania mowy.

Warto przeczytać! Potwierdzono, że Samsung Galaxy F55 5G wkrótce zadebiutuje: oczekiwany procesor, szczegóły konfiguracji aparatu i nie tylko

Inicjatywa 1000 języków mająca na celu zbudowanie modelu uczenia maszynowego, który obsługiwałby tysiące najczęściej używanych języków na świecie w celu lepszej integracji na całym świecie, została uruchomiona w listopadzie ubiegłego roku. Jednak niektórymi z tych języków posługuje się mniej niż dwadzieścia milionów ludzi, więc głównym wyzwaniem jest znalezienie sposobu na obsługę języków z niewielką liczbą użytkowników lub ograniczonymi danymi.

Pobierz naszą aplikację mobilną

USM to grupa modeli mowy, które mają dwa miliardy parametrów i zostały przeszkolone na ogromnym zbiorze danych obejmującym 12 milionów godzin mowy i 28 miliardów zdań tekstu, obejmujących ponad 300 języków. Modele są używane w YouTube (w przypadku napisów) i mogą wykonywać automatyczne rozpoznawanie mowy nie tylko w powszechnie używanych językach, ale także w językach, w których brakuje zasobów, takich jak amharski, cebuański, asamski i azerbejdżański, by wymienić tylko kilka.

Zaktualizowany model wykorzystuje standardową architekturę koder-dekoder. Conformer lub transformator ze splotem jest używany jako koder. Ważnym czynnikiem jest blok Conformer, składający się z modułów uwagi, sprzężenia zwrotnego i splotu. Pobiera jako dane wejściowe i wykonuje próbkowanie, po czym nakładane są bloki Conformer wraz z warstwą projekcyjną, aby uzyskać ostateczne osadzenie.

Warto przeczytać! Adobe ogłasza nowe narzędzia wideo generujące sztuczną inteligencję dla Premiere Pro

Trening modelu rozpoczyna się od samonadzorowanej nauki na temat mowy dźwiękowej obejmującej setki języków. W tym celu używany jest BEST-RQ, który jest skuteczny w zadaniach wielojęzycznych przy użyciu bardzo dużych ilości nienadzorowanych danych audio.

W drugim opcjonalnym kroku naukowcy wykorzystali wielocelowe nadzorowane szkolenie wstępne w celu uwzględnienia dodatkowych danych tekstowych w celu poprawy jakości modelu i pokrycia językowego. Decyzja o włączeniu drugiego kroku zależy od tego, czy dane tekstowe są dostępne, ale USM działa najlepiej na tym etapie.

W ostatnim etapie model jest dostrajany pod kątem dalszych zadań. Dzięki wstępnemu szkoleniu demonstruje wysokiej jakości wyniki z niewielką ilością nadzorowanych danych z zadań.

Źródło