Technologia

Narzędzie Microsoft AI Vall-E może naśladować Twój głos: Oto wszystko, co musisz wiedzieć o Pipa News

  • 13 stycznia, 2023
  • 4 min read
Narzędzie Microsoft AI Vall-E może naśladować Twój głos: Oto wszystko, co musisz wiedzieć o Pipa News


Narzędzie Microsoft AI Vall-E może naśladować Twój głos: Oto wszystko, co musisz wiedzieć

Pada deszcz narzędzi AI od 2022 roku, a nowe narzędzia pojawiają się od czasu do czasu, zadziwiając ludzi ich zdolnością do tworzenia wciągających esejów, dzieł sztuki i filmów za pomocą samego monitu tekstowego. Ale sztuczna inteligencja, która może generować tekst, obrazy i wideo, od jakiegoś czasu trafia na pierwsze strony gazet, to prawie tak, jakby przemówieniu nie okazywano wiele miłości.

Microsoft zmienia to za pomocą Val-E, nowego systemu przetwarzania tekstu na mowę (TTS) opartego na sztucznej inteligencji, który może wykonać trzysekundowe nagranie czyjegoś głosu i powtórzyć go, zamieniając słowa pisane w mowę. Oczywiście pomysł nie jest nowy – nowością jest to, jak dobra sztuczna inteligencja sprawia, że ​​wierzymy, że dane wyjściowe pochodzą od prawdziwego człowieka – podczas gdy tak naprawdę nie jest. Przyjrzyjmy się, jak Vall-E może rzucać swoją magię, swoje umiejętności i przypadki użycia.

Ale najpierw, czym jest Val-E?

Microsoft lubi nazywać Vall-E „modelem języka kodeków neuronowych”. Wykorzystuje inne podejście niż inne generatory głosu, które pojawiły się przed nim, co pomaga osiągnąć wysoką dokładność. Jednym z nich jest fakt, że dane szkoleniowe TTS zostały przeskalowane do 60 000 godzin mowy w języku angielskim, co według Microsoftu jest setki razy większe niż istniejące systemy. Pozwala to systemowi TTS na generowanie „wysokiej jakości indywidualnej mowy” oprócz 3-sekundowego nagrania dowolnej osoby w postaci „sygnału akustycznego”.

Warto przeczytać!  Najpopularniejsze nadchodzące telefony komórkowe wprowadzone na rynek w Indiach w lutym 2023 r

Pomimo podobnie brzmiących nazw, Vall-E nie ma nic wspólnego z Dall-E, modelem głębokiego uczenia opracowanym przez OpenAI, który generuje obrazy z opisów w języku naturalnym.

Jak Val-e wygląda inaczej

Duże dane treningowe, jak wspomniano powyżej, oraz inne innowacyjne metody oznaczają, że Vall-E przyjmuje inne podejście niż inne systemy TTS. Microsoft twierdzi, że pozwoliło mu to „znacząco przewyższyć” inne produkty w swojej kategorii pod względem naturalności mowy i podobieństwa mówców. Vall-E jest również skonstruowany tak, aby działał w „sytuacjach zerowych”, co oznacza, że ​​nie wymaga wcześniejszych przykładów ani szkolenia w określonym kontekście — można go użyć z 3-sekundowym klipem audio i tekstem Podaj monit, i to jest to.


Jak działa Val-e (Zdjęcie: Microsoft)

Ale być może najfajniejsza jest zdolność Val-E do zachowania emocji mówcy. Firma Microsoft zademonstrowała tę możliwość na stronie GitHub dla systemu TTS. 3-sekundowy dźwięk można wymówić dowolnym tonem — gniewnym, sennym, neutralnym, szczęśliwym, sfrustrowanym itp. — a Val-E wyrecytuje dowolny tekst, zachowując ten ton.

potencjalne zastosowanie

Jednym z najbardziej oczywistych zastosowań tej technologii jest udzielenie głosu niemym, którzy w którymś momencie życia utracili zdolność mówienia. Nawet bardzo krótkie nagrania z głosem osoby badanej można wykorzystać do zrekonstruowania niezwykle naturalnie brzmiącego sztucznego głosu. Może być również używany przez osoby z zaburzeniami mowy – mogą wpisać to, co chcą powiedzieć, a Val-e może to przekonwertować na mowę.

Warto przeczytać!  Co musisz wiedzieć o bitwach rankingowych Pokémon Scarlet i Violet

tyczyć

Sztucznej inteligencji prawie zawsze towarzyszą lęki, więc nie powinno dziwić, że Val-E zabiera ze sobą kilka z nich. Microsoft potwierdza to w swoim dokumencie dotyczącym systemu, mówiąc, że Vall-E może potencjalnie nadużyć, takich jak fałszowanie rozpoznawania głosu lub podszywanie się pod konkretnego mówcę. Widzieliśmy już, że deepfake rozpowszechniają dezinformację i promują mizoginię, tworząc fałszywe narracje o ludziach, więc ciekawie będzie zobaczyć, jak sprawy potoczą się z Vall-E, jeśli i kiedy zostanie to upublicznione. huh.




Źródło