Google wkrótce umożliwi tłumaczenie tekstu za pomocą głosu
![Google wkrótce umożliwi tłumaczenie tekstu za pomocą głosu](https://oen.pl/wp-content/uploads/2023/06/share-770x470.png)
AudioPaLM to architektura multimodalna, która łączy w sobie zalety dwóch istniejących modeli: PaLM-2 i AudioLM i może obsługiwać i tworzyć tekst i mowę.
Opublikowano: Poniedziałek, 26 czerwca 2023 r. 11:24
Przez om.gupta
Przegląd najważniejszych wydarzeń
- Google AudioPaLM wykorzystuje paralingwistyczne przechowywanie informacji PaLM-2 i AudioLM.
- Google PaLM-2 to model oparty na tekście, zdolny do rozumienia wiedzy specyficznej dla tekstu.
- Google AudioLM jest biegły w zachowywaniu informacji paralingwistycznych, takich jak ton głośnika.
Ostatnio pojawiło się wiele nowych postępów i zmian w dużych modelach językowych (LLM). Modele te są rodzajem sztucznej sieci neuronowej, która ma wiele parametrów i jest szkolona na dużej ilości danych tekstowych przy użyciu uczenia samonadzorowanego lub uczenia częściowo nadzorowanego.
Te duże modele językowe napędzają nowe generatywne narzędzia sztucznej inteligencji, takie jak Google Bard i OpenAI ChatGPT. Niedawno badacze Google zaprezentowali nowy model językowy o nazwie AudioPaLM, który może dobrze sprawdzać się w słuchaniu, mówieniu i tłumaczeniu.
Reklama
Reklama
AudioPaLM to architektura multimodalna, która łączy w sobie zalety dwóch istniejących modeli: PaLM-2 i AudioLM. System może obsługiwać i generować tekst i mowę oraz może być stosowany do rozpoznawania mowy lub tworzenia tłumaczeń z oryginalnymi głosami.
PaLM-2 to model języka oparty na tekście, który jest w stanie zrozumieć wiedzę językową specyficzną dla tekstu. AudioLM jest biegły w zachowywaniu paralingwistycznych informacji, takich jak tożsamość mówcy i ton.
Łącząc te dwa modele, AudioPaLM wykorzystuje zdolności językowe PaLM-2 i parajęzykowe zachowanie informacji AudioLM, co skutkuje głębszym zrozumieniem i generowaniem zarówno tekstu, jak i mowy.
Model może również wykonywać natychmiastowe tłumaczenia mowy na tekst dla wielu języków, nawet dla kombinacji mowy, których nie widział podczas szkolenia. Ta funkcja może być przydatna w rzeczywistych zastosowaniach, takich jak wielojęzyczna komunikacja w czasie rzeczywistym.
AudioPaLM może również przesyłać głosy między językami na podstawie krótkich komunikatów głosowych, a także może przechwytywać i odtwarzać różne głosy w różnych językach.
AudioPaLM osiągnął najlepsze wyniki w testach porównawczych tłumaczenia mowy i wykazał się konkurencyjną wydajnością w zadaniach rozpoznawania mowy.
Filtr perspektywiczny wyszukiwarki Google
Google ogłosił nowy filtr dla wyszukiwarki Google znany jako „Perspektywy” na dorocznej konferencji programistów, Google I/O 2023, w zeszłym miesiącu. Teraz, prawie półtora miesiąca później, firma rozpoczęła wdrażanie nowego filtra perspektywy dla wszystkich użytkowników wyszukiwarki Google na całym świecie.
Google ogłosiło to za pośrednictwem postu na swoich uchwytach w mediach społecznościowych. „W zeszłym miesiącu na #GoogleIO udostępniliśmy aktualizacje, które wprowadzamy do wyszukiwarki, aby pomóc Ci znaleźć i zbadać różne perspektywy od ekspertów i zwykłych ludzi. Dziś będziesz mógł to wypróbować” – napisała firma w poście na swoim oficjalnym uchwyt na Twitterze.
Nowy filtr Perspektywy w wyszukiwarce Google zapewnia ludzki aspekt wyników wyszukiwania. Obecnie na wyniki wyszukiwania, które użytkownicy widzą na platformie, wpływa algorytm firmy oparty na kilku czynnikach, takich jak między innymi daty, autorzy, oceny i bliskość. Teraz nowa funkcja Perspective zmienia to, wprowadzając opinie i sugestie prawdziwych ludzi.