Okulary wyposażone w sztuczną inteligencję czytają cichą mowę
Streszczenie: Naukowcy opracowali nadający się do noszenia interfejs o nazwie EchoSpeech, który rozpoznaje cichą mowę, śledząc ruchy warg i ust za pomocą czujników akustycznych i sztucznej inteligencji. Urządzenie wymaga minimalnego przeszkolenia użytkownika i rozpoznaje do 31 niewymówionych poleceń. System mógłby być używany do udzielania głosu tym, którzy nie są w stanie wydawać dźwięku lub komunikować się po cichu z innymi.
Źródło: Uniwersytet Cornella
Naukowcy z Cornell University opracowali interfejs rozpoznawania cichej mowy, który wykorzystuje czujniki akustyczne i sztuczną inteligencję do ciągłego rozpoznawania do 31 niewymówionych poleceń, opartych na ruchach warg i ust.
Niskoenergetyczny, nadający się do noszenia interfejs — zwany EchoSpeech — wymaga zaledwie kilku minut danych treningowych użytkownika, zanim rozpozna polecenia i będzie można go uruchomić na smartfonie.
Ruidong Zhang, doktorant informatyki, jest głównym autorem książki „EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing”, która zostanie zaprezentowana na konferencji Association for Computing Machinery on Human Factors in Computing Systems ( CHI) w tym miesiącu w Hamburgu w Niemczech.
„Dla osób, które nie potrafią wokalizować dźwięków, ta technologia cichej mowy może być doskonałym wejściem dla syntezatora mowy. Może przywrócić pacjentom głos” — powiedział Zhang o potencjalnym zastosowaniu tej technologii wraz z dalszym rozwojem.
W obecnej formie EchoSpeech może być używany do komunikowania się z innymi za pomocą smartfona w miejscach, w których mowa jest niewygodna lub nieodpowiednia, takich jak hałaśliwa restauracja lub cicha biblioteka. Interfejs cichej mowy można również sparować z rysikiem i używać z oprogramowaniem do projektowania, takim jak CAD, prawie całkowicie eliminując potrzebę używania klawiatury i myszy.
Wyposażone w parę mikrofonów i głośniki mniejsze niż gumki do ołówków, okulary EchoSpeech stają się poręcznym systemem sonarowym zasilanym sztuczną inteligencją, wysyłającym i odbierającym fale dźwiękowe na twarzy oraz wykrywającym ruchy ust. Następnie algorytm głębokiego uczenia analizuje te profile echa w czasie rzeczywistym z dokładnością około 95%.
„Przenosimy sonar na ciało” — powiedział Cheng Zhang, adiunkt informatyki i dyrektor laboratorium Cornell’s Smart Computer Interfaces for Future Interactions (SciFi).
„Jesteśmy bardzo podekscytowani tym systemem” — powiedział — „ponieważ naprawdę popycha on do przodu dziedzinę wydajności i prywatności. Jest mały, energooszczędny i wrażliwy na prywatność, a wszystkie te cechy są ważne przy wdrażaniu nowych, przenośnych technologii w prawdziwym świecie”.
Większość technologii w rozpoznawaniu cichej mowy jest ograniczona do wybranego zestawu z góry określonych poleceń i wymaga od użytkownika stania twarzą w twarz lub noszenia aparatu, co nie jest ani praktyczne, ani wykonalne, powiedział Cheng Zhang. Powiedział, że istnieją również poważne obawy dotyczące prywatności związane z aparatami do noszenia – zarówno dla użytkownika, jak i tych, z którymi użytkownik wchodzi w interakcje.
Technologia wykrywania dźwięku, taka jak EchoSpeech, eliminuje potrzebę noszenia kamer wideo. A ponieważ dane audio są znacznie mniejsze niż dane obrazu lub wideo, ich przetwarzanie wymaga mniejszej przepustowości i może być przekazywane do smartfona przez Bluetooth w czasie rzeczywistym, powiedział François Guimbretière, profesor informatyki.
„A ponieważ dane są przetwarzane lokalnie na smartfonie, a nie przesyłane do chmury”, powiedział, „informacje wrażliwe na prywatność nigdy nie wymykają się spod kontroli”.
Podsumowanie napisane przy pomocy technologii ChatGPT AI.
O tych wiadomościach z badań nad sztuczną inteligencją
Autor: Becka Bowyer
Źródło: Uniwersytet Cornella
Kontakt: Becka Bowyer – Cornell University
Obraz: Obraz jest w domenie publicznej
Orginalne badania: Odkrycia zostaną zaprezentowane na konferencji Association for Computing Machinery poświęconej czynnikom ludzkim w systemach komputerowych (CHI)