Technologia

Nowa technologia zamiany tekstu na mowę firmy Microsoft może być ogromna

oen.pl

19 lutego, 2023
6 min read

Nowa technologia zamiany tekstu na mowę firmy Microsoft może być ogromna

Model językowy kodeków neuronowych firmy Microsoft, VALL-E, tokenizuje mowę i wykorzystuje algorytmy do tworzenia kształtów fal, które brzmią jak mówca, zachowując jednocześnie barwę i ton emocjonalny.

Sztuczna inteligencja zamiany tekstu na mowę (TTS) w wielu obszarach, takich jak opieka zdrowotna i edukacja, była w stanie ułatwić operacje i pomóc w wykonywaniu wielu zadań jednocześnie, zarówno w domu, jak iw pracy. Pomyśl o botach głosowych, które przeprowadzają badania przesiewowe pacjentów z COVID-19, minimalizując bezpośrednie kontakty i zmniejszając obciążenie lekarzy. Ale pomyśl także o obszarach, w których jest to ułatwienie, niezależnie od tego, czy ułatwia czytanie, czy pomaga osobom niepełnosprawnym. A kto jest najlepszym przykładem, jeśli nie Stephen Hawking, który używał oprogramowania za pomocą syntezatora głosu na swoim komputerze, a ten głos zmarłego fizyka jest teraz dostępny dla wielu.

TTS to standardowa technologia wspomagająca, w której komputer lub tablet odczytuje użytkownikowi na głos tekst na ekranie. I dlatego to urządzenie jest popularne wśród dzieci mających problemy z czytaniem, szczególnie tych zmagających się z dekodowaniem.

TTS może zamienić słowa pisane na komputerze lub urządzeniu cyfrowym w dźwięk. TTS jest świetny dla dzieci, które mają problemy z czytaniem, ale może również pomóc im pisać, edytować, a nawet zwracać uwagę. Pozwala wypowiedzieć się dowolnej treści cyfrowej, bez względu na to, czym ona jest (aplikacja, strony internetowe, ebooki, dokumenty online). Ponadto systemy TTS zapewniają bezproblemową metodę odczytywania treści tekstowych z urządzeń mobilnych i komputerów stacjonarnych. Rozwiązania te zyskują na popularności, ponieważ oferują czytelnikom wysoki poziom wygody zarówno w zastosowaniach osobistych, jak i zawodowych. Microsoft właśnie opracował nową strategię TTS.

Warto przeczytać! Najlepszy build Slowbro Tera Raid

VALL-E firmy Microsoft to neuronowy model języka kodeków. Sztuczna inteligencja tokenizuje mowę, zanim użyje swoich algorytmów do skonstruowania przebiegów, które brzmią jak mówca, zachowując jednocześnie barwę i ton emocjonalny mówcy.

W raporcie z badania stwierdzono, że przy zaledwie trzysekundowym zarejestrowanym nagraniu ukośnego mówcy jako bodźca słuchowego, VALL-E może wytwarzać wysokiej jakości, zindywidualizowaną mowę. Proces ten nie wymaga dodatkowych prac konstrukcyjnych, wcześniej zaplanowanych elementów akustycznych ani dostrajania w celu osiągnięcia pożądanych rezultatów. Jest to przydatne w przypadku metod TTS typu zero-shot, które opierają się na monitach i nauce kontekstowej.

Istniejące podejścia

Obecne podejścia TTS można sklasyfikować jako kaskadowe lub kompleksowe. W 2018 roku naukowcy z Google i University of California w Berkeley opracowali systemy Cascaded TTS, które zazwyczaj wykorzystują potok składający się z modelu akustycznego.

W 2021 roku koreańscy naukowcy wraz z Microsoft Research Asia zaproponowali kompleksowy model TTS, aby jednocześnie zoptymalizować model akustyczny i wokoder w celu wyeliminowania wad wokodera. Jednak w rzeczywistych warunkach pożądane jest dostosowanie systemu TTS do dowolnego głosu poprzez rejestrację nietypowych nagrań. W związku z tym rośnie zainteresowanie wielogłośnikowymi rozwiązaniami TTS typu zero-shot, przy czym większość badań koncentruje się na kaskadowych systemach TTS.

Jako pionierzy, badacze Baidu Research z Kalifornii proponują sposoby adaptacji głośników i kodowania głośników. Równolegle tajwańscy naukowcy stosują metauczenie się do adaptacji mówców, co wymaga tylko pięciu przykładów szkoleniowych, aby stworzyć dobrze działający system. Podobnie, podejścia oparte na kodowaniu mówców poczyniły znaczne postępy w ostatnich latach. System oparty na kodowaniu mówcy obejmuje koder mówcy i komponent TTS, przy czym koder mówcy jest wstępnie przeszkolony w zakresie zadania weryfikacji mówcy.

Warto przeczytać! Prezes firmy potwierdza, że wkrótce pojawi się OnePlus Ace 3V

Później eksperymenty przeprowadzone przez badaczy Google w 2019 r. wykazały, że model może tworzyć wysokiej jakości dane wyjściowe dla mówców w domenie z trzema sekundami zarejestrowanych nagrań. Podobnie, korzystając z zaawansowanych modeli osadzania głośników w 2018 roku, chińscy badacze zwiększyli jakość niewidocznych głośników, które wciąż wymagają poprawy. Co więcej, w porównaniu z wcześniejszymi pracami naukowców z Uniwersytetu Zhejiang z Chin, VALL-E kontynuuje tradycję kaskadowego TTS, ale wykorzystuje kodek audio jako reprezentacje pośrednie. Jest pierwszym, który ma tak silne możliwości uczenia się w kontekście, jak GPT-3, bez potrzeby precyzyjnego dostrajania, wstępnie zaprojektowanych funkcji lub wyrafinowanego kodera głośników.

Jak to działa?

VALL-E oferuje demonstracje dźwiękowe modelu AI w akcji. Jedną z próbek jest trwająca trzy sekundy wskazówka dźwiękowa zwana „Komunikiem głośnika”, którą VALL-E musi powtórzyć. Dostarczono dwie próbki; pierwszy, oznaczony jako „Linia bazowa”, jest reprezentatywny dla standardowej syntezy tekstu na mowę, podczas gdy drugi, „VALL-E”, to dane wyjściowe modelu.

Zgodnie z wynikami ocen, VALL-E przewyższa najbardziej zaawansowany system TTS typu zero-shot zarówno w LibriSpeech, jak i VCTK. Co więcej, VALL-E wygenerował nawet najnowocześniejsze wyniki TTS typu zero-shot w LibriSpeech i VCTK.

Wyzwania

Według naukowców VALL-E przeszedł długą drogę, ale nadal ma następujące problemy:

Autorzy badania zauważają, że czasami synteza mowy tworzy niejednoznaczne, brakujące lub zbędne słowa. Podstawowym powodem jest to, że segment języka fonem-akustyka jest modelem autoregresyjnym, co oznacza, że nie ma ograniczeń w rozwiązywaniu problemu, a zatem wyrównania uwagi są nieuporządkowane.

Żadna ilość danych treningowych, nawet z 60 000 godzin, nie jest w stanie uwzględnić każdego możliwego głosu. Jest to szczególnie prawdziwe w przypadku głośników akcentujących. Ponieważ LibriLight jest zbiorem danych audiobooków, większość wypowiedzi jest wypowiadana w stylu czytania. Dlatego należy zwiększyć zakres stylów mówienia.

Naukowcy przestawili się na używanie dwóch modeli do prognozowania kodów dla różnych kwantyzatorów. Przewidywanie ich za pomocą szerokiego uniwersalnego modelu to obiecująca droga naprzód.

Możliwe niebezpieczeństwa związane z niewłaściwym użyciem modelu wynikają ze zdolności E VALL do syntezy mowy przy jednoczesnym zachowaniu tożsamości mówiącego, co może prowadzić do sytuacji takich jak fałszowanie identyfikatora głosowego lub podszywanie się pod inne osoby.

Wniosek

Sieci neuronowe i kompleksowe modelowanie poprawiły syntezę głosu w ostatnich latach. Kaskadowe systemy zamiany tekstu na mowę (TTS) wykorzystują teraz wokodery i modele akustyczne, a spektrogramy mel służą jako reprezentacje pośrednie. Nowoczesne systemy TTS mogą syntetyzować wysokiej jakości mowę z pojedynczego mówcy lub panelu mówców.

Ponadto technologia TTS została włączona do różnych programów i sprzętu, w tym aplikacji nawigacyjnych, platform e-learningowych i wirtualnych asystentów, takich jak Amazon Alexa i Google Assistant. Jest również wykorzystywany w reklamie, marketingu i obsłudze klienta, aby interakcje były bardziej ekscytujące i odpowiednie dla danej osoby.

Źródło

Warto przeczytać! Niespodzianka cenowa iPhone'a 15, problemy iPhone'a 14, testy porównawcze M2 Pro