Technologia

Nadchodzą klony głosowe AI dla audiobooków Amazon, Apple, Google

  • 17 czerwca, 2023
  • 13 min read
Nadchodzą klony głosowe AI dla audiobooków Amazon, Apple, Google


Audiobooki – „mówiące książki”, jak je po raz pierwszy nazywano – są stosunkowo nowym zjawiskiem, ale sięgają znacznie dalej niż Apple i Amazon. Koncepcja książek mówionych powstała w latach trzydziestych XX wieku i istniała do użytku przez osoby niedowidzące. Dopiero w latach 70. książki nagrane na taśmę zaczęły łagodzić niepokój osób dojeżdżających do pracy. Ale dopiero gdy zostały wchłonięte przez nasze telefony, medium naprawdę się rozwinęło.

Od początku ery iPhone’a audiobooki stale się rozwijają. Branża miała dekadę dwucyfrowego wzrostu i oczekuje się, że trend przyspieszy. Według prognoz Wordsrated, organizacji badawczej branży wydawniczej, sprzedaż w sektorze audiobooków można obecnie oszacować na ponad 5 miliardów dolarów – prawie 2 miliardy dolarów z USA, największego rynku audiobooków na świecie – a przychody mają rosnąć o 26,4% każdego roku od 2022 roku do 2030 r., prowadząc sprzedaż audiobooków do 2030 r. na północ od 35 miliardów dolarów. To sprawia, że ​​audiobooki są „najszybciej rozwijającym się formatem książek na świecie z dużym marginesem”, według Wordsrated.

Sprawia to również, że audiobooki stają się jeszcze jednym rynkiem, na którym sztuczna inteligencja próbuje infiltrować, a głosy generowane przez sztuczną inteligencję wkraczają, by odebrać mikrofon aktorom głosowym. Czy konsumenci są gotowi, aby sztuczna inteligencja szeptała im do uszu? Prawda jest taka, że ​​to już się dzieje.

Google Play i Apple Books firmy Alphabet wykorzystują do pewnego stopnia głosy generowane przez sztuczną inteligencję, a trend ten prawdopodobnie się utrzyma. Google Play oferuje wydawcom możliwość tworzenia audiobooków z narracją automatyczną, o ile wydawcy posiadają prawa do audiobooków i wybierają narrację automatyczną. Żadne nie są tworzone bez zgody wydawcy, ani też nie jest to coś, co każdy konsument mógłby legalnie stworzyć samodzielnie.

„Dla wielu wydawców produkcja audiobooków może być dużą inwestycją” — powiedziała Judy Chang, dyrektor ds. zarządzania produktem w Książkach Google Play. Płacenie za aktorów głosowych jest częścią równania kosztów. „Wydawcy mogą ocenić popyt na audiobooki na swoje tytuły, zanim zainwestują w ludzką narrację” – powiedziała.

Jak ludzie słyszą książki

Ludzie kochają audiobooki. Ustępują jedynie muzyce jako najczęściej spożywany produkt audio. Ale użycie głosu AI w audiobookach wywołuje coś, co można słusznie określić jako szczególnie intymną formę wykorzystania nowej technologii. To nie jest tak, jak prosić Alexę o pogodę lub zagrać piosenkę. A to może stanowić granicę tego, jak daleko konsumenci (i firmy) mogą się posunąć lub posuną się – przynajmniej na razie – w zamianie ludzkich narratorów na głosy generowane komputerowo.

„Ludzie są bardzo wrażliwi na dźwięk” — powiedział David Ciccarelli, dyrektor generalny Voices, największego rynku usług lektorskich. Podczas gdy twoje oko może rozpoznawać ruch z szybkością 24 klatek na sekundę, ucho może to robić z dokładnością 20 000 razy na sekundę. I dodał: „Ponieważ większość ludzi słucha audiobooków przez słuchawki douszne, poczucie intymności jest jeszcze większe”.

Istotną kwestią jest również jakość narracji, która w dużej mierze zależy od poczucia łączności słuchacza z głosem. „Prawie 60% słuchaczy porzuciło audiobook, ponieważ nie podobał im się narrator… ludzie lubią słuchać innych ludzi, zwłaszcza gdy opowiadane są historie” – powiedział Ciccarelli.

Sprawienie, by głos AI nie tylko brzmiał jak człowiek, ale także łączył się ze słuchaczami, nie jest taki łatwy. Udźwignięcie głosu to w końcu aktorstwo, a jego sztuka jest trudna do odtworzenia. „To, co ludzie potrafią najlepiej, czego AI nie potrafi, to wyczucie czasu” – powiedział Ciccarelli – „czy to niezręczna pauza, czy zabawne wyczucie komediowego wyczucia czasu, głosowi AI trudno jest uzyskać to od razu po wyjęciu z pudełka. ”

Warto przeczytać!  iOS 16 vs iOS 17: przed WWDC, wiesz, co prawdopodobnie zmieni się dla użytkowników iPhone'a?

Szybkość może również stanowić problem dla sztucznej inteligencji, ponieważ tempo narracji będzie się różnić w zależności od tego, co dzieje się w treści czytanego tekstu. Czytamy niektóre części fabuły lub kłótni naturalnie z inną prędkością niż inne części, ale to dlatego, że rozumiemy, co czytamy. AI nie. „Profesjonalni narratorzy wiedzą, kiedy przyspieszyć, a następnie powrócić do normalnego tempa czytania” – powiedział Ciccarell. Wiedzą też, jak wymawiać słowa i nie mają problemu z homografami.

Głos AI będzie się poprawiał, a opór słuchacza wobec niego odpowiednio się zmniejszy. Pytanie o zmieniające gry nowe technologie nie brzmi nawet czy, ale kiedy. Ciccarelli o tym wie.

„Branża zdała sobie sprawę, że zmiana wisi w powietrzu, a sztuczna inteligencja, teraz, gdy już jest, będzie tylko lepsza” – powiedział. „Przeszło od śmiechu do znośności, a teraz cały czas jest coraz lepiej” – dodał. Klonowanie głosów profesjonalnych artystów głosowych jest przewidywalne, co podkreśla znaczenie etycznego podążania tą drogą i ochrony praw aktorów głosowych do „kredytu, zgody i odszkodowania”.

Nawet w przypadku głosu AI, gdzieś w tym procesie jest nominalnie aktor głosowy. Według Breta Kinselli, założyciela i dyrektora generalnego Voicebot.ai, systemy zamiany mowy na mowę stały się popularne w mediach, ponieważ umożliwiają jeszcze bardziej wierne wyrażanie treści emocjonalnych za pomocą syntetycznych głosów. Ale to nadal wymaga aktora głosowego, którego głos jest następnie przekształcany w inny głos.

Co mówią aktorzy głosowi

W przypadku niektórych aktorów głosowych dokonuje się wyboru, aby trzymać się z daleka. „Odmawiam pracy głosowej, która mówi, że wezmą mój głos i zrobią z niego model AI” – powiedział Brad Ziffer, aktor głosowy z 14-letnim doświadczeniem. „Najlepszym sposobem ochrony jest po prostu trzymanie się z daleka” – powiedział.

W ciągu ostatnich dwóch dekad narratorzy przeszli od czytania kserokopii drukowanych książek i edytowania dźwięków przewracania stron do czytania na tablecie; od nagrywania wyłącznie w studiach po nagrywanie wielu tytułów w domu. Edytorzy audio przeszli od łączenia taśm brzytwami do edycji plików cyfrowych poprzez wycofywanie i nagrywanie błędów. Wydawcy przeszli od dostarczania treści z kaset na płyty CD do postaci cyfrowej. „Z każdym przejściem pojawia się strach i niepewność, ale podczas każdego przejścia uczyliśmy się, rozwijaliśmy, dostosowywaliśmy i prosperowaliśmy” – powiedział Michele Cobb, dyrektor wykonawczy Audio Publishers Association.

Cobb mówi, że rozwój branży audio poszerza zakres możliwości, a nowa technologia jest tego częścią. Powiedział, że wraz ze wzrostem liczby słuchaczy i apetytu na treści audio, wydawcy publikują oryginały i utwory audio-first, które pozwalają im rozszerzyć swoje kreatywne podejście i przekonać więcej konsumentów do spróbowania audio. „Technologia sztucznej inteligencji może pomóc w przepływie pracy. Sztuczna inteligencja nie jest nowym narzędziem dla lektorów, producentów i wydawców, z których wielu używa jej do poprawy kontroli jakości w postprodukcji” — powiedział.

Warto przeczytać!  Kierownictwo giganta technologicznego mówi pracownikom

Od zeszłego tygodnia to podejście do produkcji głosu obejmuje teraz The Beatles.

Ta ewolucja nieuchronnie będzie obejmować zagrożenia stwarzane przez sztuczną inteligencję. „Niezależnie od zawodu, strach przed utratą czyjegoś źródła utrzymania przez maszynę jest realny” – powiedział Cobb. „Ale wiem, że nie jestem sam w docenianiu głębokiego, bogatego, emocjonalnie inteligentnego występu mojego ulubionego narratora, gdy wypowiada słowa w skutecznej ustnej tradycji ludzkiego opowiadania historii” – dodał.

Gdzie spotykają się ChatGPT i Alexa, Siri

Największa zmiana, która ma obecnie miejsce, koncentruje się na tekście i obrazie, a nie na głosie, a generatywne chatboty AI kierowane przez ChatGPT OpenAI przejmują więcej pisania, w tym powieści i generatywne modele graficzne AI wytwarzające obrazy. Kinsella zauważył, że głos AI odegrał fundamentalną rolę w integracji AI z codziennym życiem na wcześniejszym etapie. „Głos był właściwie poprzednią falą sztucznej inteligencji… Siri, Alexa i Asystent Google używają syntetycznych głosów” – powiedział. Dane wejściowe i wyjściowe w tych urządzeniach ewoluowały w kierunku komunikacji głosowej, a ostatecznie tekstowe formy sztucznej inteligencji mogą podążać za podobnym schematem rozwoju. „ChatGPT przywraca podejście oparte na tekście. Niektóre przypadki użycia pozostaną tekstem, podczas gdy inne naturalnie przestawią się najpierw na wprowadzanie głosu, a następnie wyjście audio (syntetyczny głos) z czasem” – powiedział Kinsella. „Aplikacja mobilna ChatGPT umożliwia dziś wprowadzanie głosowe, ale nie ma funkcji zamiany tekstu na mowę, która umożliwiałaby słuchanie odpowiedzi. Z pewnością przyda się to w niektórych przypadkach”.

Jeśli chodzi o publikowanie, audiobooki stanowią rosnącą, ale wciąż stosunkowo niewielką część ogólnego tortu wydawniczego, a dodatkowe wymagania dotyczące czasu i kosztów będą nadal wpływać na podejmowanie decyzji.

„Niektórzy wydawcy wolą nie płacić dodatkowych kosztów, a niektórzy autorzy niechętnie biorą na siebie te koszty” – powiedział Kinsella. „Jeśli autor nagra to własnym głosem, nadal jest trochę kosztów studia i edycji, a ukończenie może zająć wiele dni”.

Sztuczna inteligencja może nieco ułatwić pokonanie tych barier.

Firma Apple opracowała program, który łagodzi lub eliminuje tarcia w produkcji audiobooków w ramach starań o zwiększenie liczby audiobooków dla czytelników. Autorzy mogą tworzyć swoje audiobooki bez początkowych kosztów bezpośrednich i bez zaangażowania czasu. Firmy świadczące usługę dla autorów Apple pobierają opłatę za każdy sprzedany audiobook.

Amazon – który jest właścicielem Audible, jednego z dominujących graczy w branży – ma podobną usługę nagrywania audiobooków, ale używa profesjonalnych aktorów głosowych, a nie mowy syntetycznej. „Logiczne byłoby dodanie klonów głosowych lub syntetycznych głosów Poly do tego typu usług, ale nie jestem świadomy żadnej aktywności na tym froncie” – powiedział Kinsella.

Apple odmówił komentarza. Amazon nie odpowiedział na prośby o informacje na temat swojej oferty audiobooków.

Formaty tekstu, które najprawdopodobniej będą mówione przez AI

Ziffer jest oczywiście zaniepokojony rolą, jaką sztuczna inteligencja będzie odgrywać w jego zawodzie. „Jestem bardzo ostrożny, jeśli chodzi o świat sztucznej inteligencji. Wierzę, że ma on ogromny potencjał… ale można go łatwo nadużyć. W tej chwili nadal uważam, że prawdziwe ludzkie głosy nie mają sobie równych. Syntetyzowane algorytmy głosowe nie są jeszcze dostępne, aby być w stanie w pełni odtworzyć wszystkie niuanse ludzkiego głosu” – powiedział.

Z głosem sztucznej inteligencji, który musi przezwyciężyć naturalną modulację głosu, rozumienie/interpretację czytanego materiału oraz zdolność wywoływania emocji i zmiany emocji, zgodnie z wymaganiami materiału. Ponieważ firmy zaczynają eksperymentować z AI, Ziffer powiedział, że nie byłby zaskoczony, gdyby w jakiś sposób wpłynęło to na jego dochody. Ale dodał: „Jeszcze nie znalazłem klienta, który powiedziałby mi, że wybrał głos AI zamiast mnie zatrudnić.

Warto przeczytać!  Techno Gamerz jako grywalna postać w grze Battle Stars

Ziffer spodziewa się, że sztuczna inteligencja będzie najczęściej stosowana wśród firm o mniejszych budżetach lub tych, które koncentrują się na tekstach e-learningowych. „Ale dla tych, którzy chcą tego, co najlepsze, pracę najlepiej pozostawić ludziom” – powiedział. „Żywi, oddychający aktorzy, którzy mają prawdziwe uczucia, mózg i emocje i potrafią tchnąć życie w pracę, najlepiej pasują do dynamicznego i wiarygodnego dialogu. Może być łatwo sklonować wszystko za pomocą technologii, ale nic nie przebije prawdziwej transakcji”.

Andrea Collins, aktorka głosowa z piętnastoletnim doświadczeniem, również uważa, że ​​sztuczna inteligencja zapewni niektórym firmom niezbędne kompromisy. „Myślę, że stanie się świetnym narzędziem dla klientów, którzy szukają projektu do zrealizowania super szybko i za rozsądną cenę” – powiedziała. Teksty, w których firmy rezygnują z brzmienia prawdziwego głosu na rzecz szybkości, obejmują prezentacje i materiały dotyczące zgodności. Szybkość jest nieuniknionym czynnikiem również w przypadku ogólnej produkcji audiobooków.

„Jeśli chodzi o audiobooki, jestem pewien, że zajmie to trochę miejsca, ponieważ głos AI może poradzić sobie z 30 000 słów o wiele szybciej niż człowiek” – powiedział Collins.

Nie widziała jeszcze, aby sztuczna inteligencja miała znaczący wpływ na jej finanse, ale dodała: „Domyślam się, że ten dzień nadejdzie. Więc zamiast chować głowę w piasek, staram się to wyprzedzić”.

Collins podejmuje kroki, aby w tym roku sklonować swój głos. „Większość uznanych artystów, których znam, robi to samo. Mam nadzieję, że mój sklonowany głos stanie się kolejnym narzędziem w mojej firmie, w którym będzie mógł pasywnie pracować nad projektami, podczas gdy ja będę mógł pracować nad tymi, które potrzebują ludzkiego głosu z większy budżet – powiedziała.

John Kubin, doświadczony aktor głosowy, mówi, że koledzy z jego zawodu muszą mądrze zarządzać nową rzeczywistością sztucznej inteligencji. „Mówiłem od kilku lat, kiedy technologia dopiero się pojawiała, że ​​zabiłaby połowę pracy dla aktorów głosowych… i chociaż nadal uważam, że to prawda, może minąć jeszcze kilka lat. „

Skupia się na tym, co ma stać się nowym segmentem rynku dla długofalowych projektów, w których sztuczna inteligencja i sklonowane przez ludzi głosy mogą spotkać się w środku. „Ponad 100 000 skryptów słownych dla wielu z tych dużych projektów nigdy nie dotknąłbym 10-metrowym słupem. Ale dzięki sztucznej inteligencji z radością udzielę licencji na mój sklonowany głos AI i zbiorę darmowe pieniądze” – powiedział Kubin.

Wie, że wielu jego rówieśników może nadal nie zgadzać się co do pójścia do łóżka z maszynami. „Mogę być jednym z nielicznych twórców / aktorów głosowych, którzy uważają, że to najlepsza rzecz od czasu krojonego chleba” – powiedział Kubin. Ale z biznesowego punktu widzenia, powiedział, że wyzwaniem będzie przeciwstawienie się zmianom w skali AI. „Przez jakiś czas żartowałem, że„ Gdybym mógł po prostu zarabiać na udzielaniu głosu… bez konieczności podkładania głosu, byłoby to niesamowite! Cóż, oto jesteśmy.”


Źródło