Technologia

VALL-E AI może naśladować głos osoby z 3-sekundowego fragmentu • The Register

  • 12 stycznia, 2023
  • 5 min read
VALL-E AI może naśladować głos osoby z 3-sekundowego fragmentu • The Register


Badacze firmy Microsoft pracują nad modelem zamiany tekstu na mowę (TTS), który może naśladować głos osoby — wraz z emocjami i intonacją — po zaledwie trzech sekundach szkolenia.

Technologia – nazwana VALL-E i opisana w 15-stronicowym artykule badawczym opublikowanym w tym miesiącu na stronie badawczej arXiv – jest znaczącym krokiem naprzód dla firmy Microsoft. TTS to wysoce konkurencyjna nisza, która obejmuje innych graczy wagi ciężkiej, takich jak Google, Amazon i Meta.

Redmond już wykorzystuje sztuczną inteligencję do przetwarzania języka naturalnego (NLP) za pośrednictwem swojego biznesu Nuance – który kupił za 20 miliardów dolarów w zeszłym roku, w tym zarówno rozpoznawanie mowy, jak i technologię TTS. Agresywnie inwestuje i wykorzystuje technologię startowego OpenAI – w tym narzędzie ChatGPT – być może w swojej wyszukiwarce Bing i pakiecie aplikacji Office.

Demo VALL-E można znaleźć na GitHub.

W artykule naukowcy argumentują, że chociaż rozwój sieci neuronowych i kompleksowego modelowania szybko poprawił technologie związane z syntezą mowy, nadal istnieją problemy z podobieństwem używanych głosów i brakiem naturalnych wzorców mówienia w TTS produkty. Nie są głosami robotów sprzed dekady czy dwóch, ale też nie wydają się całkowicie ludzkie.

Zastrzeżenia

Wiele pracy wkłada się w ulepszenie tego, ale według jajogłowych Microsoftu istnieją poważne wyzwania. Niektóre wymagają czystych danych głosowych ze studia nagraniowego, aby uchwycić wysokiej jakości mowę. Muszą też polegać na stosunkowo niewielkich ilościach danych szkoleniowych – duże biblioteki mowy znalezione w Internecie nie są wystarczająco czyste do pracy.

Warto przeczytać!  Producenci telefonów Nokia produkują telefon z klapką Barbie

W przypadku obecnych generatorów TTS typu zero-shot – gdzie oprogramowanie wykorzystuje próbki nieuwzględnione w szkoleniu – praca jest złożona. Zastosowanie głosu osoby do wpisanego tekstu może zająć systemowi wiele godzin.

„Zamiast projektować złożoną i specyficzną sieć dla tego problemu, ostatecznym rozwiązaniem jest wytrenowanie modelu z jak największymi i różnorodnymi danymi, motywowane sukcesem w dziedzinie syntezy tekstu” – napisali naukowcy, zauważając, że ilość danych używanych w modelach języka tekstowego w ostatnich latach wzrosła z 16 GB nieskompresowanego tekstu do około terabajta.

VALL-E to „pierwsza platforma TTS oparta na modelu językowym, wykorzystująca duże, różnorodne i wielomówiące dane mowy”, według boffinów.

Przeszkolili VALL-E z Libri-Light – zestawem danych open source od Meta, który zawiera 60 000 godzin angielskiej mowy z ponad 7000 unikalnych użytkowników. Dla porównania, inne systemy TTS są szkolone przy użyciu dziesiątek godzin danych jednego mówcy lub setek godzin danych z wielu mówców.

VALL-E może zachować środowisko akustyczne głosu. Jeśli więc fragment głosu używany jako podpowiedź akustyczna w modelu zostanie nagrany przez telefon, zsyntetyzowany tekst mówiony również brzmiałby tak, jakby przechodził przez telefon.

Naukowcy twierdzą, że uchwycenie emocji jest podobne. Jeśli sekundy nagranego głosu podpowiedzi akustycznej wyrażają gniew, wówczas zsyntetyzowana mowa oparta na tym głosie również wyświetli gniew.

Rezultatem jest model TTS, który przewyższa inne w takich obszarach, jak naturalnie brzmiąca mowa i podobieństwo mówców. Testy wskazują również, że „zsyntetyzowana mowa niewidzialnych mówców jest tak samo naturalna jak ludzkie nagrania” – twierdzą.

Naukowcy zauważyli pewne problemy, które należy rozwiązać – w tym brak niektórych słów w syntetyzowanej mowie, są one niejasne lub są zduplikowane. Nie ma również wystarczającej liczby mówców z akcentami i konieczne jest większe zróżnicowanie stylów mówienia.

Szacuje się, że globalny rynek TTS wzrośnie do dziesiątek miliardów dolarów do końca dekady, przy czym zarówno uznani gracze, jak i start-upy napędzają rozwój tej technologii. Firma Microsoft Nuance ma swój produkt TTS, a gigant oprogramowania oferuje usługę TTS na platformie Azure. Amazon ma Polly, Meta ma Meta-TTS, a Google Cloud oferuje również usługę.

Wszystko to składa się na zatłoczoną przestrzeń.

Szybki rozwój technologii rodzi różne kwestie etyczne i prawne. Głos osoby mógłby zostać przechwycony i zsyntetyzowany w celu wykorzystania w wielu obszarach – od reklam lub połączeń spamowych po gry wideo lub chatboty. Mogą być również wykorzystywane w deepfake’ach, w których głos polityka lub celebryty łączy się z obrazem w celu szerzenia dezinformacji lub podsycania gniewu.

Warto przeczytać!  Głębokie nurkowanie: Dziwne i cudowne nowe stworzenia i cechy głębin morskich

powiedział Patrick Harr, dyrektor generalny antyphishingowej firmy SlashNext Rejestr TTS może również stać się kolejnym narzędziem dla cyberprzestępców, którzy mogliby go wykorzystać do kampanii vishingowych – ataków wykorzystujących oszukańcze połączenia telefoniczne lub wiadomości głosowe, które prawdopodobnie pochodzą od kontaktu, który ofiara zna. Może być również używany w bardziej tradycyjnych atakach phishingowych.

„Ta technologia może być niezwykle niebezpieczna w niepowołanych rękach” – powiedział Harr.

Badacze Microsoftu zauważyli ryzyko syntezy mowy, która zachowuje tożsamość mówcy. Powiedzieli, że możliwe będzie zbudowanie modelu wykrywania, aby rozpoznać, czy klip audio jest prawdziwy, czy zsyntetyzowany przy użyciu VALL-E.

Harr powiedział, że w ciągu kilku lat każdy może mieć „unikalny cyfrowy wzorzec DNA oparty na blockchain, który można zastosować do jego głosu, treści, które piszą, wirtualnego awatara itp. To znacznie utrudniłoby cyberprzestępcom wykorzystanie sztucznej inteligencji na przykład do podszywania się pod osoby zarządzające firmą, ponieważ w tych podszywaniach nie będzie „odcisku palca” faktycznego dyrektora”.

W każdym razie jest nadzieja. ®


Źródło