Google ujawnia AudioPaLM: Gdzie tekst spotyka się z głosem
Big tech Google, który zabija go w generatywnej domenie sztucznej inteligencji, wprowadził AudioPaLM, nowy multimodalny model językowy, który jest zbudowany przez połączenie możliwości dużego modelu językowego PaLM-2, który Google zaprezentował podczas Google I/O 2023 i jego generatywnego dźwięku model AudioLM wydany w zeszłym roku. AudioPaLM ustanawia wszechstronną multimodalną platformę biegłą w przetwarzaniu i generowaniu zarówno treści tekstowych, jak i języka mówionego.
Przeczytaj cały artykuł tutaj.
Zastosowania AudioPaLM są różnorodne i obejmują takie obszary, jak rozpoznawanie mowy i tłumaczenie mowy na mowę. Wykorzystując doświadczenie AudioLM, AudioPaLM dziedziczy zdolność wychwytywania sygnałów niewerbalnych, takich jak identyfikacja mówiącego i intonacja, jednocześnie integrując wiedzę lingwistyczną zawartą w tekstowych modelach językowych, takich jak PaLM-2. Co więcej, AudioPaLM prezentuje charakterystyczne cechy modeli języka audio, takie jak możliwość przenoszenia głosu z jednego języka na inny w oparciu o zwięzły komunikat mówiony.
AudioPaLM wykorzystuje moc wielkoskalowego modelu transformatora jako swojej podstawowej ramy. Rozszerza istniejący wcześniej tekstowy LLM, rozszerzając jego słownictwo o specjalistyczne tokeny audio. To, wraz z podstawowym opisem zadania, umożliwia trenowanie jednego modelu tylko dekodera, zdolnego do obsługi mieszanki zadań obejmujących zarówno mowę, jak i tekst, w różnych kombinacjach. Zadania te obejmują rozpoznawanie mowy, syntezę tekstu na mowę i tłumaczenie mowy na mowę. Dzięki takiemu podejściu konsolidujemy tradycyjnie segregowane modele w ujednoliconą architekturę i proces szkoleniowy.
AudioPaLM osiąga wyjątkową wydajność w testach porównawczych tłumaczenia mowy i zapewnia konkurencyjne wyniki w zadaniach rozpoznawania mowy. Wykazuje również zdolność do konwersji mowy na tekst dla wcześniej niewidzianych par językowych bez konieczności wcześniejszego szkolenia.
Oprócz generowania mowy, AudioPaLM może również generować transkrypcje, w oryginalnym języku lub bezpośrednio jako tłumaczenie, lub generować mowę w oryginalnym źródle. AudioPaLM osiągnął najlepsze wyniki w testach porównawczych tłumaczenia mowy i wykazał się konkurencyjną wydajnością w zadaniach rozpoznawania mowy.
Model może również zachować informacje paralingwistyczne, takie jak tożsamość mówiącego i intonacja, które często są tracone w tradycyjnych systemach tłumaczenia mowy na tekst. Oczekuje się, że system przewyższy istniejące rozwiązania pod względem jakości mowy, opartej na automatycznej i ludzkiej ocenie.
„Istnieją dalsze możliwości badawcze w zakresie tokenizacji audio, mające na celu identyfikację pożądanych właściwości tokenów audio, opracowanie technik pomiarowych i odpowiednią optymalizację. Ponadto potrzebne są bardziej ugruntowane wzorce i metryki w generatywnych zadaniach audio, aby poczynić postępy w badaniach, ponieważ obecne wzorce koncentrują się głównie na rozpoznawaniu i tłumaczeniu mowy” – czytamy w artykule.
Czytaj więcej: LLM nie są tak inteligentne, jak myślisz
Bitwa gigantów technologii w branży muzycznej właśnie się rozpoczęła
Jednak nie po raz pierwszy Google wprowadza coś w przestrzeni generowania dźwięku. W styczniu wypuścił MusicLM, generatywny model muzyczny o wysokiej wierności, który tworzy muzykę z opisów tekstowych, również zbudowany na AudioLM. Wykorzystuje hierarchiczne podejście sekwencja do sekwencji w celu generowania stabilnej muzyki przy częstotliwości 24 kHz. Wprowadzono również MusicCaps, wyselekcjonowany zestaw danych składający się z 5,5 tys. par muzyka-tekst przeznaczony do oceny generowania tekstu na muzykę.
Rywale Google’a również nie pozostają daleko w tyle w tej dziedzinie.
Firma Microsoft niedawno uruchomiła Pengi, model języka audio, który wykorzystuje transfer nauki do zadań audio jako zadań generowania tekstu. Integrując zarówno wejścia audio, jak i tekstowe, Pengi może generować wyjście tekstowe w dowolnym formacie bez dodatkowego dostrajania.
Co więcej, Meta, kierowana przez Marka Zuckerberga, wprowadziła MusicGen, który wykorzystuje moc architektury transformatora do tworzenia w oparciu o podpowiedzi tekstowe, dopasowując wygenerowaną muzykę do istniejących melodii. Podobnie jak modele językowe, MusicGen przewiduje następną sekcję utworu muzycznego, dzięki czemu powstają spójne i ustrukturyzowane kompozycje. Wydajnie przetwarza tokeny równolegle przy użyciu tokenizera audio EnCodec firmy Meta. Model został przeszkolony na zbiorze danych obejmującym 20 000 godzin licencjonowanej muzyki, zapewniając dostęp do różnorodnych stylów muzycznych i kompozycji. Wydano również Voicebox, wielojęzyczny generatywny model sztucznej inteligencji, który może wykonywać różne zadania generowania mowy poprzez uczenie się w kontekście, nawet zadania, do których nie został wyraźnie przeszkolony.
Jednak wspierany przez Microsoft OpenAI, który jest obecnie uważany za lidera generatywnej przestrzeni sztucznej inteligencji, wydaje się zagubiony w tym wyścigu generowania muzyki. Twórca ChatGPT nie opublikował żadnych ostatnich ogłoszeń w tej przestrzeni.