Technologia

Microsoft po cichu ujawnił nowy typ sztucznej inteligencji (może cię po cichu spetryfikować)

  • 15 stycznia, 2023
  • 4 min read
Microsoft po cichu ujawnił nowy typ sztucznej inteligencji (może cię po cichu spetryfikować)


Budynek Microsoftu

Obrazy Getty’ego

To nie lada przywilej być jednym z ostatnich, całych ludzi.

więcej Niepoprawne technicznie

Jestem świadomy, że w namacalnej przyszłości artyści znani wcześniej jako ludzie będą wzruszającą hybrydą ciała i frytek.

Być może nie powinienem być więc zaskoczony, gdy badacze Microsoftu pojawili się, by nieco przyspieszyć rozpaczliwą przyszłość.

Wszystko wydawało się takie niewinne i bardzo naukowe. Nagłówek artykułu badaczy był twórczo nieprzejrzysty: „Modele językowe kodeków neuronowych to syntezatory tekstu na mowę o zerowym ujęciu”.

Jak myślisz, co to może oznaczać? Jest nowy, szybszy sposób na zapisywanie przez maszynę twoich wypowiedzi?

Także: Rewolucja ChatGPT? Wygląda na to, że Microsoft ma wielkie plany dotyczące tego chatbota AI

Streszczenie badaczy zaczyna się dość dobrodusznie. Używa wielu słów, zwrotów i akronimów, które nie są znane, powiedzmy, wielu laickim modelom językowym. Wyjaśnia, że ​​model języka kodeków neuronowych nosi nazwę VALL-E.

Z pewnością ta nazwa ma cię zmiękczyć. Co może być przerażającego w technologii, która brzmi prawie jak ten uroczy mały robot z porywającego filmu?

Cóż, być może to: „VALL-E wyłania możliwości uczenia się w kontekście i może być używany do syntezy wysokiej jakości spersonalizowanej mowy z zaledwie 3-sekundowym zarejestrowanym nagraniem niewidocznego mówcy jako zachętą akustyczną”.

Często chciałem wydobyć zdolności uczenia się. Zamiast tego musiałem uciekać się do czekania, aż się pojawią.

A z ostatniego zdania badaczy wyłaniają się dreszcze. Wielkie mózgi Microsoftu potrzebują teraz tylko 3 sekund, abyś coś powiedział, aby sfałszować dłuższe zdania i być może duże przemówienia, które nie zostały wygłoszone przez Ciebie, ale brzmią bardzo podobnie do Ciebie.

Nie będę się zbytnio zagłębiał w naukę, bo żadne z nas by na tym nie skorzystało.

Wspomnę tylko, że VALL-E korzysta z biblioteki audio stworzonej przez jedną z najbardziej podziwianych i godnych zaufania firm na świecie – Meta. Nazywa się LibriLight i jest repozytorium 7 000 osób rozmawiających łącznie przez 60 000 godzin.

Oczywiście posłuchałem twórczości VALL-E.

Także: Zobaczymy zupełnie nowy typ komputera, mówi Geoff Hinton, pionier sztucznej inteligencji

Słuchałem mężczyzny mówiącego przez 3 sekundy. Następnie wysłuchałem 8-sekundowej wersji VALL-E, która miała powiedzieć: „Potem ostrożnie poruszali się po chacie, macając przed nimi i wokół nich, aby znaleźć coś, co pokazywałoby, że Warrenton wypełnił swoją misję”.

Rzucam wyzwanie zauważeniu dużej różnicy, jeśli w ogóle.

To prawda, że ​​wiele podpowiedzi brzmiało jak bardzo kiepskie fragmenty literatury XVIII wieku. Przykład: „W ten sposób ten ludzki i prawy ojciec pocieszył swoją nieszczęśliwą córkę, a jej matka, ponownie ją obejmując, zrobiła wszystko, co mogła, aby uspokoić jej uczucia”.

Ale co mogłem zrobić poza słuchaniem kolejnych przykładów przedstawionych przez badaczy? Niektóre wersje VALL-E były nieco bardziej podejrzane niż inne. Dykcja wydawała się niewłaściwa. Czuli się splecieni.

Ogólny efekt jest jednak dość przerażający.

Oczywiście zostałeś już ostrzeżony. Wiesz, że gdy dzwonią do ciebie oszuści, nie powinieneś z nimi rozmawiać, na wypadek gdyby cię nagrali, a następnie odtworzyli twoją dykcję, aby twój abstrakcyjny głos nikczemnie zamówił drogie produkty.

Także: Korzystaj z personalizacji opartej na sztucznej inteligencji, aby blokować niechciane połączenia i SMS-y

Wydaje się to jednak innym poziomem wyrafinowania. Być może obejrzałem już zbyt wiele odcinków „The Capture” Peacocka, w których deepfake jest przedstawiany jako naturalna część rządu. Być może naprawdę nie powinienem się martwić, ponieważ Microsoft jest obecnie tak miłą, nieszkodliwą firmą.

Jednak myśl, że kogoś, kogokolwiek, można łatwo oszukać, by uwierzył, że mówię coś, czego nie powiedziałem – i nigdy nie powiedziałem – nie dodaje mi otuchy. Tym bardziej, że naukowcy twierdzą, że potrafią odtworzyć „emocje i środowisko akustyczne” pierwszych 3 sekund mowy.

Poczujesz więc ulgę, że naukowcy mogli zauważyć ten potencjał dyskomfortu. Oferują: „Ponieważ VALL-E może syntetyzować mowę, która zachowuje tożsamość mówiącego, może wiązać się z potencjalnym ryzykiem niewłaściwego użycia modelu, takiego jak fałszowanie identyfikacji głosu lub podszywanie się pod konkretnego mówcę”.

Rozwiązanie? Budowa systemu wykrywania – mówią naukowcy.

Co może sprawić, że jedna lub dwie osoby będą się zastanawiać: „Więc dlaczego w ogóle to zrobiłeś?”

Dość często w technologii odpowiedź brzmi: „Ponieważ mogliśmy”.


Źródło

Warto przeczytać!  Spadek dostaw smartfonów w Indiach trwa, ponieważ sprzedaż spadła o 20 ℅ w pierwszym kwartale, ET Telecom