Technologia

OpenAI debiutuje Whisper API do transkrypcji i tłumaczenia mowy na tekst

  • 1 marca, 2023
  • 4 min read
OpenAI debiutuje Whisper API do transkrypcji i tłumaczenia mowy na tekst


Kredyty obrazkowe: Nicola Katie / Getty Images

Aby zbiegło się to z wprowadzeniem ChatGPT API, OpenAI uruchomiło dziś Whisper API, hostowaną wersję otwartego modelu zamiany mowy na tekst Whisper, który firma wypuściła we wrześniu.

Wyceniony na 0,006 USD za minutę Whisper to automatyczny system rozpoznawania mowy, który według OpenAI umożliwia „solidną” transkrypcję w wielu językach, a także tłumaczenie z tych języków na angielski. Pobiera pliki w różnych formatach, w tym M4A, MP3, MP4, MPEG, MPGA, WAV i WEBM.

Niezliczone organizacje opracowały wysoce wydajne systemy rozpoznawania mowy, które stanowią rdzeń oprogramowania i usług gigantów technologicznych, takich jak Google, Amazon i Meta. Ale tym, co wyróżnia Whisper, jest to, że został przeszkolony na 680 000 godzin wielojęzycznych i „wielozadaniowych” danych zebranych z sieci, według prezesa i prezesa OpenAI Grega Brockmana, co prowadzi do lepszego rozpoznawania unikalnych akcentów, szumów w tle i technicznego żargonu.

„Wydaliśmy model, ale to w rzeczywistości nie wystarczyło, aby zbudować wokół niego cały ekosystem programistów” – powiedział Brockman w rozmowie wideo z TechCrunch wczoraj po południu. „Interfejs API Whisper to ten sam duży model, który można uzyskać na licencji open source, ale zoptymalizowaliśmy go do granic możliwości. Jest o wiele, wiele szybszy i niezwykle wygodny”.

Warto przeczytać!  Apple Music Classical jest teraz dostępny za darmo w sklepie Google Play

Według Brockmana istnieje wiele barier, jeśli chodzi o przedsiębiorstwa wdrażające technologię transkrypcji głosu. Według badania Statista z 2020 r. firmy wymieniają dokładność, problemy z rozpoznawaniem akcentu lub dialektu oraz koszty jako główne powody, dla których nie przyjęły technologii, takich jak synteza mowy.

Szept ma jednak swoje ograniczenia — szczególnie w obszarze przewidywania „następnego słowa”. Ponieważ system został przeszkolony na dużej ilości hałaśliwych danych, OpenAI ostrzega, że ​​Whisper może zawierać w swoich transkrypcjach słowa, które nie zostały faktycznie wypowiedziane — prawdopodobnie dlatego, że zarówno próbuje przewidzieć następne słowo w dźwięku, jak i dokonać transkrypcji samego nagrania dźwiękowego. Co więcej, Whisper nie radzi sobie równie dobrze w różnych językach, cierpiąc na wyższy wskaźnik błędów, jeśli chodzi o osoby mówiące językami, które nie są dobrze reprezentowane w danych szkoleniowych.

Ten ostatni fragment nie jest niestety niczym nowym w świecie rozpoznawania mowy. Uprzedzenia od dawna nękają nawet najlepsze systemy, a badanie Stanford z 2020 r. wykazało, że systemy firm Amazon, Apple, Google, IBM i Microsoft popełniały znacznie mniej błędów — około 19% — w przypadku użytkowników rasy białej niż w przypadku użytkowników rasy czarnej.

Warto przeczytać!  Microsoft udostępnia swojego nauczyciela czytania opartego na sztucznej inteligencji za darmo

Mimo to OpenAI wykorzystuje możliwości transkrypcji Whisper do ulepszania istniejących aplikacji, usług, produktów i narzędzi. Już teraz oparta na sztucznej inteligencji aplikacja do nauki języków Speak korzysta z interfejsu API Whisper do obsługi nowego wirtualnego towarzysza do mówienia w aplikacji.

Jeśli OpenAI może w znaczący sposób wejść na rynek zamiany mowy na tekst, może to być całkiem opłacalne dla firmy wspieranej przez Microsoft. Według jednego z raportów segment ten może być wart 5,4 miliarda dolarów do 2026 roku, w porównaniu z 2,2 miliarda dolarów w 2021 roku.

„Nasz obraz jest taki, że naprawdę chcemy być tą uniwersalną inteligencją” – powiedział Brockman. „WNaprawdę chcemy, bardzo elastycznie, móc pobierać wszelkie posiadane dane — niezależnie od rodzaju zadania, które chcemy wykonać — i zwielokrotniać tę uwagę”.




Źródło