Technologia

Google wkrótce umożliwi tłumaczenie tekstu za pomocą głosu

  • 26 czerwca, 2023
  • 3 min read
Google wkrótce umożliwi tłumaczenie tekstu za pomocą głosu


AudioPaLM to architektura multimodalna, która łączy w sobie zalety dwóch istniejących modeli: PaLM-2 i AudioLM i może obsługiwać i tworzyć tekst i mowę.

Opublikowano: Poniedziałek, 26 czerwca 2023 r. 11:24

Przez om.gupta

Przegląd najważniejszych wydarzeń

  • Google AudioPaLM wykorzystuje paralingwistyczne przechowywanie informacji PaLM-2 i AudioLM.
  • Google PaLM-2 to model oparty na tekście, zdolny do rozumienia wiedzy specyficznej dla tekstu.
  • Google AudioLM jest biegły w zachowywaniu informacji paralingwistycznych, takich jak ton głośnika.


Ostatnio pojawiło się wiele nowych postępów i zmian w dużych modelach językowych (LLM). Modele te są rodzajem sztucznej sieci neuronowej, która ma wiele parametrów i jest szkolona na dużej ilości danych tekstowych przy użyciu uczenia samonadzorowanego lub uczenia częściowo nadzorowanego.

Te duże modele językowe napędzają nowe generatywne narzędzia sztucznej inteligencji, takie jak Google Bard i OpenAI ChatGPT. Niedawno badacze Google zaprezentowali nowy model językowy o nazwie AudioPaLM, który może dobrze sprawdzać się w słuchaniu, mówieniu i tłumaczeniu.

Reklama

Reklama

AudioPaLM to architektura multimodalna, która łączy w sobie zalety dwóch istniejących modeli: PaLM-2 i AudioLM. System może obsługiwać i generować tekst i mowę oraz może być stosowany do rozpoznawania mowy lub tworzenia tłumaczeń z oryginalnymi głosami.

Warto przeczytać!  Samsung obniża cenę Galaxy S23 teraz, gdy pojawia się seria S24

PaLM-2 to model języka oparty na tekście, który jest w stanie zrozumieć wiedzę językową specyficzną dla tekstu. AudioLM jest biegły w zachowywaniu paralingwistycznych informacji, takich jak tożsamość mówcy i ton.

Łącząc te dwa modele, AudioPaLM wykorzystuje zdolności językowe PaLM-2 i parajęzykowe zachowanie informacji AudioLM, co skutkuje głębszym zrozumieniem i generowaniem zarówno tekstu, jak i mowy.

Model może również wykonywać natychmiastowe tłumaczenia mowy na tekst dla wielu języków, nawet dla kombinacji mowy, których nie widział podczas szkolenia. Ta funkcja może być przydatna w rzeczywistych zastosowaniach, takich jak wielojęzyczna komunikacja w czasie rzeczywistym.

AudioPaLM może również przesyłać głosy między językami na podstawie krótkich komunikatów głosowych, a także może przechwytywać i odtwarzać różne głosy w różnych językach.

AudioPaLM osiągnął najlepsze wyniki w testach porównawczych tłumaczenia mowy i wykazał się konkurencyjną wydajnością w zadaniach rozpoznawania mowy.

Filtr perspektywiczny wyszukiwarki Google

Google ogłosił nowy filtr dla wyszukiwarki Google znany jako „Perspektywy” na dorocznej konferencji programistów, Google I/O 2023, w zeszłym miesiącu. Teraz, prawie półtora miesiąca później, firma rozpoczęła wdrażanie nowego filtra perspektywy dla wszystkich użytkowników wyszukiwarki Google na całym świecie.

Warto przeczytać!  Tryb „obraz w obrazie” wreszcie pojawi się w Google TV, ale jest pewien haczyk

Google ogłosiło to za pośrednictwem postu na swoich uchwytach w mediach społecznościowych. „W zeszłym miesiącu na #GoogleIO udostępniliśmy aktualizacje, które wprowadzamy do wyszukiwarki, aby pomóc Ci znaleźć i zbadać różne perspektywy od ekspertów i zwykłych ludzi. Dziś będziesz mógł to wypróbować” – napisała firma w poście na swoim oficjalnym uchwyt na Twitterze.

Nowy filtr Perspektywy w wyszukiwarce Google zapewnia ludzki aspekt wyników wyszukiwania. Obecnie na wyniki wyszukiwania, które użytkownicy widzą na platformie, wpływa algorytm firmy oparty na kilku czynnikach, takich jak między innymi daty, autorzy, oceny i bliskość. Teraz nowa funkcja Perspective zmienia to, wprowadzając opinie i sugestie prawdziwych ludzi.


Źródło