Technologia

Słuchaj i ucz się: systemy sztucznej inteligencji przetwarzają sygnały mowy jak ludzki mózg

  • 3 maja, 2023
  • 8 min read
Słuchaj i ucz się: systemy sztucznej inteligencji przetwarzają sygnały mowy jak ludzki mózg


Streszczenie: Systemy sztucznej inteligencji (AI) mogą przetwarzać sygnały podobne do tego, jak mózg interpretuje mowę, potencjalnie pomagając wyjaśnić, jak działają systemy AI. Naukowcy użyli elektrod na głowach uczestników, aby zmierzyć fale mózgowe podczas słuchania pojedynczej sylaby i porównali aktywność mózgu z systemem sztucznej inteligencji wyszkolonym do nauki języka angielskiego, stwierdzając, że kształty były niezwykle podobne, co może pomóc w rozwoju coraz potężniejszych systemów .

Kluczowe fakty:

  1. Naukowcy odkryli, że sygnały wytwarzane przez system sztucznej inteligencji przeszkolony do nauki języka angielskiego były niezwykle podobne do fal mózgowych mierzonych, gdy uczestnicy słuchali pojedynczej sylaby „bah” w badaniu opublikowanym niedawno w czasopiśmie Scientific Reports.
  2. Zespół wykorzystał system elektrod umieszczonych na głowach uczestników do pomiaru fal mózgowych podczas słuchania dźwięku, a następnie porównał aktywność mózgu z sygnałami wytwarzanymi przez system sztucznej inteligencji.
  3. Zrozumienie, w jaki sposób i dlaczego systemy sztucznej inteligencji dostarczają informacji, które robią, staje się niezbędne, ponieważ stają się one zakorzenione w codziennym życiu w różnych dziedzinach, od opieki zdrowotnej po edukację.
  4. Badanie fal w ich surowej postaci pomoże naukowcom zrozumieć i udoskonalić sposób, w jaki te systemy się uczą i w coraz większym stopniu odzwierciedlają ludzkie poznanie.

Źródło: UC Berkeley

Nowe badania przeprowadzone na Uniwersytecie Kalifornijskim w Berkeley pokazują, że systemy sztucznej inteligencji (AI) mogą przetwarzać sygnały w sposób niezwykle podobny do tego, jak mózg interpretuje mowę, co według naukowców może pomóc wyjaśnić czarną skrzynkę działania systemów AI .

Używając systemu elektrod umieszczonych na głowach uczestników, naukowcy z Berkeley Speech and Computation Lab mierzyli fale mózgowe, gdy uczestnicy słuchali pojedynczej sylaby – „bah”. Następnie porównali tę aktywność mózgu z sygnałami wytwarzanymi przez system sztucznej inteligencji przeszkolony w nauce języka angielskiego.

„Kształty są niezwykle podobne” – powiedział Gasper Begus, adiunkt lingwistyki na Uniwersytecie Kalifornijskim w Berkeley i główny autor badania opublikowanego niedawno w czasopiśmie Raporty naukowe. „To mówi ci, że podobne rzeczy są kodowane, że przetwarzanie jest podobne. “

Wykres porównania dwóch sygnałów obok siebie wyraźnie pokazuje to podobieństwo.

Warto przeczytać!  Firma Kaspersky zajmująca się cyberbezpieczeństwem wprowadza na rynek nowe produkty zapewniające ochronę cyfrową, szczegóły tutaj

„Nie ma żadnych poprawek w danych” – dodał Begus. „To jest surowe”.

Systemy sztucznej inteligencji rozwinęły się ostatnio skokowo. Odkąd ChatGPT odbiło się rykoszetem na całym świecie w zeszłym roku, przewiduje się, że narzędzia te wywrócą do góry nogami różne sektory społeczeństwa i zrewolucjonizują sposób pracy milionów ludzi. Jednak pomimo tych imponujących postępów naukowcy mieli ograniczone pojęcie o tym, jak dokładnie narzędzia, które stworzyli, działają między wejściem a wyjściem.

Pytanie i odpowiedź w ChatGPT były punktem odniesienia do pomiaru inteligencji i uprzedzeń systemu AI. Ale to, co dzieje się między tymi krokami, było czymś w rodzaju czarnej skrzynki. Wiedza o tym, jak i dlaczego te systemy dostarczają informacji, które dostarczają — o tym, jak się uczą — staje się niezbędna, gdy stają się one zakorzenione w codziennym życiu w dziedzinach obejmujących opiekę zdrowotną i edukację.

Begus i jego współautorzy, Alan Zhou z Johns Hopkins University i T. Christina Zhao z University of Washington, należą do kadry naukowców pracujących nad otwarciem tego pudełka.

Aby to zrobić, Begus zwrócił się do swojego szkolenia językoznawczego.

Kiedy słuchamy mówionych słów, powiedział Begus, dźwięk dociera do naszych uszu i jest przetwarzany na sygnały elektryczne. Sygnały te przemieszczają się następnie przez pień mózgu i do zewnętrznych części naszego mózgu.

W eksperymencie z elektrodami naukowcy prześledzili tę ścieżkę w odpowiedzi na 3000 powtórzeń pojedynczego dźwięku i odkryli, że fale mózgowe odpowiadające za mowę ściśle podążają za rzeczywistymi dźwiękami języka.

Naukowcy przesłali to samo nagranie dźwięku „bah” przez nienadzorowaną sieć neuronową – system sztucznej inteligencji – który może interpretować dźwięk. Wykorzystując technikę opracowaną w Berkeley Speech and Computation Lab, zmierzyli zbieżne fale i udokumentowali je w miarę ich występowania.

To pokazuje mózg i fale dźwiękowe
Naukowcy przesłali to samo nagranie dźwięku „bah” przez nienadzorowaną sieć neuronową – system sztucznej inteligencji – który może interpretować dźwięk. Źródło: Wiadomości z neuronauki

Poprzednie badania wymagały dodatkowych kroków w celu porównania fal z mózgu i maszyn. Badanie fal w ich surowej postaci pomoże naukowcom zrozumieć i poprawić sposób, w jaki te systemy się uczą i coraz bardziej odzwierciedlają ludzkie poznanie, powiedział Begus.

Warto przeczytać!  Każdy przyjaciel sprayu, karty i pistoletu przybywa do gry

„Jako naukowiec jestem naprawdę zainteresowany interpretacją tych modeli” — powiedział Begus. „Są tak potężni. Wszyscy o nich mówią. I wszyscy ich używają. Ale znacznie mniej robi się, aby spróbować je zrozumieć”.

Begus uważa, że ​​to, co dzieje się między wejściem a wyjściem, nie musi pozostać czarną skrzynką. Zrozumienie, jak te sygnały porównują się z aktywnością mózgu człowieka, jest ważnym punktem odniesienia w wyścigu do budowania coraz potężniejszych systemów. Podobnie jak wiedza o tym, co dzieje się pod maską.

Na przykład posiadanie tego zrozumienia może pomóc w zabezpieczeniu coraz potężniejszych modeli sztucznej inteligencji. Może to również poprawić nasze zrozumienie, w jaki sposób błędy i uprzedzenia są zakodowane w procesach uczenia się.

Begus powiedział, że on i jego koledzy współpracują z innymi badaczami, stosując techniki obrazowania mózgu, aby zmierzyć, jak te sygnały mogą się porównywać. Badają również, jak inne języki, takie jak mandaryński, są inaczej dekodowane w mózgu i co może to wskazywać na wiedzę.

Wiele modeli jest szkolonych na podstawie wskazówek wizualnych, takich jak kolory lub tekst pisany — oba mają tysiące odmian na poziomie szczegółowości. Jednak język otwiera drzwi do bardziej solidnego zrozumienia, powiedział Begus.

Na przykład język angielski ma zaledwie kilkadziesiąt dźwięków.

„Jeśli chcesz zrozumieć te modele, musisz zacząć od prostych rzeczy. A mowa jest o wiele łatwiejsza do zrozumienia” – powiedział Begus. „Mam wielką nadzieję, że mowa pomoże nam zrozumieć, w jaki sposób te modele się uczą”.

W kognitywistyce jednym z głównych celów jest budowanie modeli matematycznych, które jak najbardziej przypominają człowieka. Nowo udokumentowane podobieństwa fal mózgowych i fal AI są punktem odniesienia dla tego, jak blisko badacze są do osiągnięcia tego celu.

„Nie mówię, że musimy budować rzeczy podobne do ludzi” – powiedział Begus. „Nie mówię, że nie. Ważne jest jednak zrozumienie, w jaki sposób różne architektury są podobne lub różne od ludzkich”.

O tych wiadomościach z badań nad sztuczną inteligencją

Autor: Jasona Pohla
Źródło: UC Berkeley
Kontakt: Jason Pohl – UC Berkeley
Obraz: Obraz jest przypisywany do Neuroscience News

Warto przeczytać!  Apple wprowadzi cieńsze modele do iPhone'a 17, cieńszy MacBook Pro i Apple Watch również mogą się pojawić: raport

Orginalne badania: Otwarty dostęp.
„Kodowanie mowy w warstwach splotowych i pniu mózgu na podstawie doświadczenia językowego” autorstwa Gaspera Begusa i in. Raporty naukowe


Abstrakcyjny

Kodowanie mowy w warstwach splotowych i pniu mózgu na podstawie doświadczeń językowych

Porównanie sztucznych sieci neuronowych z wynikami technik neuroobrazowania przyniosło ostatnio znaczne postępy w (komputerowych) wizjach i tekstowych modelach językowych. Tutaj proponujemy ramy do porównania biologicznych i sztucznych obliczeń neuronowych reprezentacji języka mówionego i proponujemy kilka nowych wyzwań dla tego paradygmatu.

Proponowana technika opiera się na podobnej zasadzie, która leży u podstaw elektroencefalografii (EEG): uśrednianiu aktywności nerwowej (sztucznej lub biologicznej) neuronów w dziedzinie czasu i pozwala porównać kodowanie dowolnej właściwości akustycznej w mózgu i w pośrednich warstwach splotowych sztuczna sieć neuronowa.

Nasze podejście pozwala na bezpośrednie porównanie odpowiedzi na właściwość fonetyczną w mózgu i głębokich sieciach neuronowych, które nie wymaga liniowych transformacji między sygnałami. Twierdzimy, że odpowiedź pnia mózgu (cABR) i reakcja w pośrednich warstwach splotowych na dokładnie ten sam bodziec są bardzo podobne bez stosowania jakichkolwiek transformacji, i określamy ilościowo tę obserwację.

Zaproponowana technika nie tylko ujawnia podobieństwa, ale także pozwala na analizę kodowania rzeczywistych właściwości akustycznych w dwóch sygnałach: porównujemy opóźnienie szczytowe (i) w cABR względem bodźca w pniu mózgu oraz w (ii) pośrednich warstwach splotowych względem wejścia/wyjścia w głębokich sieciach splotowych.

Badamy również i porównujemy wpływ wcześniejszej ekspozycji języka na maksymalne opóźnienie w cABR i pośrednich warstwach splotowych. Na podstawie wyników ośmiu wyszkolonych sieci (w tym eksperymentu replikacji) wyłaniają się istotne podobieństwa w szczytowym kodowaniu latencji między ludzkim mózgiem a pośrednimi sieciami splotowymi.

Proponowaną technikę można wykorzystać do porównania kodowania między ludzkim mózgiem a pośrednimi warstwami splotowymi pod kątem dowolnej właściwości akustycznej i innych technik neuroobrazowania.


Źródło