Technologia

Okulary wyposażone w sztuczną inteligencję czytają cichą mowę

oen.pl

6 kwietnia, 2023
4 min read

Streszczenie: Naukowcy opracowali nadający się do noszenia interfejs o nazwie EchoSpeech, który rozpoznaje cichą mowę, śledząc ruchy warg i ust za pomocą czujników akustycznych i sztucznej inteligencji. Urządzenie wymaga minimalnego przeszkolenia użytkownika i rozpoznaje do 31 niewymówionych poleceń. System mógłby być używany do udzielania głosu tym, którzy nie są w stanie wydawać dźwięku lub komunikować się po cichu z innymi.

Źródło: Uniwersytet Cornella

Naukowcy z Cornell University opracowali interfejs rozpoznawania cichej mowy, który wykorzystuje czujniki akustyczne i sztuczną inteligencję do ciągłego rozpoznawania do 31 niewymówionych poleceń, opartych na ruchach warg i ust.

Niskoenergetyczny, nadający się do noszenia interfejs — zwany EchoSpeech — wymaga zaledwie kilku minut danych treningowych użytkownika, zanim rozpozna polecenia i będzie można go uruchomić na smartfonie.

Ruidong Zhang, doktorant informatyki, jest głównym autorem książki „EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing”, która zostanie zaprezentowana na konferencji Association for Computing Machinery on Human Factors in Computing Systems ( CHI) w tym miesiącu w Hamburgu w Niemczech.

„Dla osób, które nie potrafią wokalizować dźwięków, ta technologia cichej mowy może być doskonałym wejściem dla syntezatora mowy. Może przywrócić pacjentom głos” — powiedział Zhang o potencjalnym zastosowaniu tej technologii wraz z dalszym rozwojem.

Warto przeczytać! Gra Suicide Squad jest podobno tytułem na żywo i może spotkać się z taką samą reakcją jak Marvel’s Avengers

W obecnej formie EchoSpeech może być używany do komunikowania się z innymi za pomocą smartfona w miejscach, w których mowa jest niewygodna lub nieodpowiednia, takich jak hałaśliwa restauracja lub cicha biblioteka. Interfejs cichej mowy można również sparować z rysikiem i używać z oprogramowaniem do projektowania, takim jak CAD, prawie całkowicie eliminując potrzebę używania klawiatury i myszy.

Przedstawia mężczyznę w okularach — Niskoenergetyczny, nadający się do noszenia interfejs — zwany EchoSpeech — wymaga zaledwie kilku minut danych treningowych użytkownika, zanim rozpozna polecenia i będzie można go uruchomić na smartfonie. Obraz jest w domenie publicznej

Wyposażone w parę mikrofonów i głośniki mniejsze niż gumki do ołówków, okulary EchoSpeech stają się poręcznym systemem sonarowym zasilanym sztuczną inteligencją, wysyłającym i odbierającym fale dźwiękowe na twarzy oraz wykrywającym ruchy ust. Następnie algorytm głębokiego uczenia analizuje te profile echa w czasie rzeczywistym z dokładnością około 95%.

„Przenosimy sonar na ciało” — powiedział Cheng Zhang, adiunkt informatyki i dyrektor laboratorium Cornell’s Smart Computer Interfaces for Future Interactions (SciFi).

„Jesteśmy bardzo podekscytowani tym systemem” — powiedział — „ponieważ naprawdę popycha on do przodu dziedzinę wydajności i prywatności. Jest mały, energooszczędny i wrażliwy na prywatność, a wszystkie te cechy są ważne przy wdrażaniu nowych, przenośnych technologii w prawdziwym świecie”.

Źródło: Ruidong Zhang

Większość technologii w rozpoznawaniu cichej mowy jest ograniczona do wybranego zestawu z góry określonych poleceń i wymaga od użytkownika stania twarzą w twarz lub noszenia aparatu, co nie jest ani praktyczne, ani wykonalne, powiedział Cheng Zhang. Powiedział, że istnieją również poważne obawy dotyczące prywatności związane z aparatami do noszenia – zarówno dla użytkownika, jak i tych, z którymi użytkownik wchodzi w interakcje.

Warto przeczytać! Zwiększenie lokalnej produkcji: chipy produkowane w Indiach mogą wkrótce zasilać iPhone'y | Aktualności

Technologia wykrywania dźwięku, taka jak EchoSpeech, eliminuje potrzebę noszenia kamer wideo. A ponieważ dane audio są znacznie mniejsze niż dane obrazu lub wideo, ich przetwarzanie wymaga mniejszej przepustowości i może być przekazywane do smartfona przez Bluetooth w czasie rzeczywistym, powiedział François Guimbretière, profesor informatyki.

„A ponieważ dane są przetwarzane lokalnie na smartfonie, a nie przesyłane do chmury”, powiedział, „informacje wrażliwe na prywatność nigdy nie wymykają się spod kontroli”.

Podsumowanie napisane przy pomocy technologii ChatGPT AI.

O tych wiadomościach z badań nad sztuczną inteligencją

Autor: Becka Bowyer
Źródło: Uniwersytet Cornella
Kontakt: Becka Bowyer – Cornell University
Obraz: Obraz jest w domenie publicznej

Orginalne badania: Odkrycia zostaną zaprezentowane na konferencji Association for Computing Machinery poświęconej czynnikom ludzkim w systemach komputerowych (CHI)

Źródło