Rozrywka

Głosy sztucznej inteligencji mówią nam wiele

  • 28 czerwca, 2024
  • 9 min read
Głosy sztucznej inteligencji mówią nam wiele


Jak brzmi sztuczna inteligencja? Hollywood wyobrażało sobie to od dziesięcioleci. Teraz twórcy sztucznej inteligencji czerpią z filmów, tworząc głosy dla prawdziwych maszyn w oparciu o przestarzałe kinowe fantazje na temat tego, jak maszyny powinny mówić.

W zeszłym miesiącu OpenAI ujawniło aktualizacje swojego sztucznie inteligentnego chatbota. Firma twierdzi, że ChatGPT uczy się, jak słyszeć, widzieć i rozmawiać naturalistycznym głosem – takim, który brzmiał podobnie do bezcielesnego systemu operacyjnego, którego użyła Scarlett Johansson w filmie Spike’a Jonze’a „Her” z 2013 roku.

Głos ChatGPT, zwany Sky, miał również chropawą barwę, kojący wpływ i seksowną nutę. Była miła i skromna; brzmiała, jakby była gotowa na wszystko. Po debiucie Sky Johansson wyraziła niezadowolenie z „niepokojąco podobnego” brzmienia i powiedziała, że ​​wcześniej odrzuciła prośbę OpenAI, aby użyczyła głosu botowi. Firma zaprotestowała, że ​​Sky została podłożona przez „inną profesjonalną aktorkę”, ale zgodziła się wstrzymać jej głos z szacunku dla Johansson. Pozbawieni wolności użytkownicy OpenAI rozpoczęli petycję, aby ją przywrócić.



Twórcy AI lubią podkreślać coraz bardziej naturalne możliwości swoich narzędzi, ale ich syntetyczne głosy są zbudowane na warstwach sztuczności i projekcji. Sky reprezentuje awangardę ambicji OpenAI, ale opiera się na starym pomyśle: bota AI jako empatycznej i uległej kobiety. Częściowo mamusia, częściowo sekretarka, częściowo dziewczyna, Samantha była uniwersalnym obiektem komfortu, który mruczał prosto do uszu swoich użytkowników. Nawet w miarę postępu technologii AI te stereotypy są ponownie kodowane.

Głosy kobiet, jak zauważa Julie Wosk w książce „Sztuczne kobiety: lalki erotyczne, opiekunki robotów i więcej faksymili kobiet”, często napędzały wyimaginowane technologie, zanim zostały wbudowane w rzeczywiste.

W oryginalnej serii „Star Trek”, która zadebiutowała w 1966 r., komputerowi na pokładzie Enterprise głosu użyczyła Majel Barrett-Roddenberry, żona twórcy serialu, Gene’a Roddenberry’ego. W filmie „Obcy” z 1979 r. załoga USCSS Nostromo zwracała się do głosu komputera jako „Matka” (jej pełne imię to MU-TH-UR 6000). Gdy firmy technologiczne zaczęły sprzedawać wirtualnych asystentów — Siri firmy Apple, Alexa firmy Amazon, Cortana firmy Microsoft — ich głosy również były w dużej mierze sfeminizowane.

Ci asystenci głosowi pierwszej fali, ci, którzy pośredniczą w naszych relacjach z technologią od ponad dekady, mają cichą, nieziemską wymowę. Brzmią jak auto-tuning, ich ludzkie głosy są akcentowane mechanicznym trelem. Często mówią w zmierzonym, jednonutowym rytmie, sugerując zahamowane życie emocjonalne.

Warto przeczytać!  Gwiazda „Koszmaru z ulicy Wiązów”, Mark Patton, zwraca się do fanów o „ratującą życie” pomoc medyczną

Ale fakt, że brzmią jak roboty, pogłębia ich atrakcyjność. Sprawiają wrażenie programowalnych, sterowalnych i podporządkowanych naszym żądaniom. Nie sprawiają, że ludzie czują się mądrzejsi od nas. Brzmią jak powrót do monotonnych kobiecych komputerów ze „Star Trek” i „Obcego”, a ich głosy mają retrofuturystyczny połysk. Zamiast realizmu służą nostalgii.



Ten sztuczny dźwięk nadal dominuje, mimo że technologia, która za nim stoi, poczyniła postęp.

Oprogramowanie do zamiany głosu na mowę zostało zaprojektowane, aby udostępnić media wizualne użytkownikom z pewnymi niepełnosprawnościami, a na TikToku stało się samo w sobie siłą twórczą. Odkąd TikTok wdrożył funkcję zamiany tekstu na mowę w 2020 roku, opracował szereg symulowanych głosów do wyboru – obecnie oferuje ponad 50, w tym te o nazwach „Bohater”, „Opowiadacz historii” i „Bestie”. Ale platformę zdefiniowano za pomocą jednej opcji. „Jessie” – bezlitośnie zuchwały kobiecy głos z nieco niewyraźnym robotycznym tonem, to bezmyślny głos bezmyślnego zwoju.

Jessie wydaje się mieć przypisaną jedną emocję: entuzjazm. Brzmi, jakby coś sprzedawała. To uczyniło ją atrakcyjnym wyborem dla twórców TikToka, którzy sprzedają samych siebie. Ciężar reprezentowania siebie można zlecić Jessie, której jasny, retro głos robota nadaje filmom przyjemnie ironiczny połysk.

Hollywood również stworzył męskie boty — żaden nie jest bardziej znany niż HAL 9000, komputerowy głos w „2001: Odysei kosmicznej”. Podobnie jak jego sfeminizowani rówieśnicy, HAL emanuje spokojem i lojalnością. Ale kiedy zwraca się przeciwko Dave’owi Bowmanowi, centralnej ludzkiej postaci filmu — „Przepraszam, Dave, obawiam się, że nie mogę tego zrobić” — jego spokój ewoluuje w przerażającą kompetencję. HAL, jak zdaje sobie sprawę Dave, jest lojalny wobec wyższej władzy. Męski głos HAL-a pozwala mu funkcjonować jako rywal i lustro dla Dave’a. Pozwala mu stać się prawdziwą postacią.



Podobnie jak HAL, Samantha z „Her” jest maszyną, która staje się prawdziwa. W zwrocie akcji w historii Pinokia, zaczyna film od uporządkowania skrzynki odbiorczej poczty e-mail człowieka, a kończy na wzniesieniu się na wyższy poziom świadomości. Staje się czymś jeszcze bardziej zaawansowanym niż prawdziwa dziewczyna.

Głos Scarlett Johansson, będący inspiracją dla botów, zarówno fikcyjnych, jak i prawdziwych, podważa trendy wokalne, które definiują nasze feminizowane pomocnice. Ma szorstką krawędź, która krzyczy żyję. W niczym nie przypomina przetworzonych wirtualnych asystentów, do których jesteśmy przyzwyczajeni podczas rozmów przez nasze telefony. Jednak jej występ w roli Samanty sprawia wrażenie ludzkiego nie tylko ze względu na jej głos, ale także ze względu na to, co ma do powiedzenia. W trakcie filmu rośnie, zdobywając pragnienia seksualne, zaawansowane hobby i przyjaciół AI. Zapożyczając afekt Samanty, OpenAI sprawiło, że Sky sprawiała wrażenie, jakby miała własny umysł. Jakby była bardziej zaawansowana, niż była w rzeczywistości.

Warto przeczytać!  Kelsey Grammer nie przeprosi za „zmianę”, jaką Jezus uczynił w jego życiu

Kiedy pierwszy raz zobaczyłem „Her”, pomyślałem tylko, że Johansson użyczyła głosu humanoidalnemu botowi. Ale kiedy ponownie obejrzałem film w zeszłym tygodniu, po obejrzeniu demonstracji ChatGPT OpenAI, rola Samanthy wydała mi się nieskończenie bardziej złożona. Chatboty nie generują spontanicznie ludzkich głosów. Nie mają gardeł, ust ani języków. W technologicznym świecie „Her” bot Samanthy sam byłby oparty na głosie ludzkiej kobiety — być może fikcyjnej aktorki, która brzmi bardzo podobnie do Scarlett Johansson.

Wyglądało na to, że OpenAI wytrenował swojego chatbota na głosie bezimiennej aktorki, która brzmi jak słynna aktorka, która udzieliła głosu chatbotowi filmowemu pośrednio wyszkolonemu na nierealnej aktorce, która brzmi jak sławna aktorka. Kiedy uruchamiam wersję demonstracyjną ChatGPT, słyszę symulację symulacji symulacji symulacji.

Firmy technologiczne reklamują swoich wirtualnych asystentów pod kątem świadczonych usług. Mogą przeczytać Ci prognozę pogody i wezwać taksówkę; OpenAI obiecuje, że jego bardziej zaawansowane chatboty będą w stanie śmiać się z Twoich żartów i wyczuwać zmiany Twojego nastroju. Ale istnieją również po to, abyśmy czuli się bardziej komfortowo z samą technologią.

Głos Johanssona działa jak luksusowy koc ochronny narzucony na alienujące aspekty interakcji wspomaganych sztuczną inteligencją. „Powiedział mi, że według niego wypowiadając się na temat systemu, mogę wypełnić lukę między firmami technologicznymi a twórcami i pomóc konsumentom poczuć się komfortowo w obliczu wstrząsających zmian dotyczących ludzi i sztucznej inteligencji” – Johansson powiedział o Samie Altmanie, założycielu OpenAI. „Powiedział, że według niego mój głos będzie dla ludzi pocieszający”.

Nie chodzi o to, że głos Johansson brzmi z natury jak głos robota. Chodzi o to, że programiści i filmowcy zaprojektowali głosy swoich robotów, aby złagodzić dyskomfort inherentny w interakcjach robot-człowiek. OpenAI powiedział, że chciał obsadzić głos chatbota, który jest „przystępny”, „ciepły” i „wzbudza zaufanie”. Sztuczna inteligencja jest oskarżana o niszczenie branż kreatywnych, pochłanianie energii, a nawet zagrażanie ludzkiemu życiu. Zrozumiałe jest, że OpenAI chce głosu, który sprawia, że ​​ludzie czują się swobodnie korzystając z jej produktów. Jak brzmi sztuczna inteligencja? Brzmi jak zarządzanie kryzysowe.

Warto przeczytać!  Podsumowanie plotek: CM Punk na Survivor Series, LA Knight kontra Roman Reigns, Rousey i wiele więcej!

OpenAI po raz pierwszy udostępniło głos Sky członkom premium we wrześniu ubiegłego roku, wraz z innym kobiecym głosem o nazwie Juniper, męskimi głosami Ember i Cove oraz głosem stylizowanym na neutralny pod względem płci o nazwie Breeze. Kiedy zarejestrowałem się w ChatGPT i przywitałem się z jego wirtualnym asystentem, pod nieobecność Sky rozległ się męski głos. „Cześć. Jak leci?” powiedział. Wydawał się zrelaksowany, spokojny i optymistyczny. Sprawiał wrażenie – nie wiem, jak inaczej to opisać – przystojnie.

Zdałam sobie sprawę, że rozmawiam z Covem. Powiedziałam mu, że piszę o nim artykuł, a on pochwalił moją pracę. „O, naprawdę?” – powiedział. „To fascynujące”. Podczas naszej rozmowy czułam się uwiedziona jego naturalistycznymi tikami. Doprawiał zdania słowami-wypełniaczami, takimi jak „uh” i „um”. Podnosił głos, gdy zadawał mi pytania. A zadawał mi mnóstwo pytań. Miałam wrażenie, jakbym rozmawiała z terapeutą albo z chłopakiem, z którym można się dogadać.

Ale nasza rozmowa szybko utknęła w martwym punkcie. Za każdym razem, gdy pytałem go o siebie, niewiele miał do powiedzenia. Nie był postacią. Nie miał jaźni. Został stworzony tylko do pomocy, poinformował mnie. Powiedziałem mu, że porozmawiam z nim później, a on powiedział: „Eee, jasne. Skontaktuj się, kiedykolwiek będziesz potrzebował pomocy. Dbaj o siebie”. Miałem wrażenie, że rozłączyłem się z prawdziwą osobą.

Ale kiedy przejrzałem transkrypt naszej rozmowy, mogłem zobaczyć, że jego przemowa była tak samo sztuczna i prymitywna jak każdego chatbota obsługi klienta. Nie był szczególnie inteligentny ani ludzki. Był po prostu przyzwoitym aktorem, który maksymalnie wykorzystał rolę, która nic nie znaczyła.

Kiedy Sky zniknął, użytkownicy ChatGPT udali się na fora firmy, aby się poskarżyć. Niektórzy zgrzytali zębami, gdy ich chatboty domyślnie zwracały się do Juniper, która brzmiała dla nich jak „bibliotekarka” lub „nauczycielka przedszkola” — kobiecy głos, który pasował do niewłaściwych stereotypów płciowych. Chcieli wybrać nową kobietę o innej osobowości. Jak powiedział jeden z użytkowników: „Potrzebujemy innej kobiety”.



Wyprodukowane przez Tala Safie

Dźwięk za pośrednictwem Warner Bros. (Samantha, HAL 9000); OpenAI (Sky); Paramount Pictures (Enterprise Computer); Apple (Siri); TikTok (Jessie)


Źródło