Nauka i technika

Wiodące modele sztucznej inteligencji mają problemy z identyfikacją chorób genetycznych na podstawie opisów pacjentów, odkryli badacze

  • 14 sierpnia, 2024
  • 6 min read
Wiodące modele sztucznej inteligencji mają problemy z identyfikacją chorób genetycznych na podstawie opisów pacjentów, odkryli badacze


Wiodące modele sztucznej inteligencji mają problemy z identyfikacją chorób genetycznych na podstawie opisów pacjentów

Genetycy kliniczni słuchają, jak pacjenci opisują swoje schorzenia, aby postawić diagnozę. Podczas gdy narzędzia AI potrafią interpretować pytania medyczne przypominające te z podręczników, mają trudności z analizą tych samych informacji, gdy są one dostarczane bezpośrednio przez pacjentów. Źródło: Ernesto del Aguila III, National Human Genome Research Institute

Naukowcy z Narodowych Instytutów Zdrowia (NIH) odkryli, że choć narzędzia sztucznej inteligencji (AI) potrafią stawiać trafne diagnozy na podstawie opisów chorób genetycznych przypominających te opisane w podręcznikach, to są znacznie mniej dokładne, gdy analizują podsumowania pisane przez pacjentów na temat ich własnego stanu zdrowia.

Wyniki te, przedstawione w Amerykańskie czasopismo genetyki człowiekawykazują potrzebę udoskonalenia narzędzi sztucznej inteligencji, zanim będzie można je zastosować w placówkach opieki zdrowotnej w celu ułatwienia stawiania diagnoz i udzielania odpowiedzi na pytania pacjentów.

Naukowcy badali rodzaj sztucznej inteligencji znany jako duży model językowy, który jest trenowany na ogromnych ilościach danych tekstowych. Modele te mają potencjał, aby być bardzo pomocne w medycynie ze względu na ich zdolność do analizowania i odpowiadania na pytania oraz ich często przyjazne dla użytkownika interfejsy.

„Możemy nie zawsze tak o tym myśleć, ale w medycynie dużą rolę odgrywają słowa” – powiedział dr Ben Solomon, starszy autor badania i dyrektor ds. klinicznych w Narodowym Instytucie Badań nad Genomem Człowieka (NHGRI) należącym do Narodowych Instytutów Zdrowia (NIH).

„Na przykład elektroniczne dokumentacje medyczne i rozmowy między lekarzami a pacjentami składają się ze słów. Duże modele językowe były ogromnym krokiem naprzód dla AI, a możliwość analizowania słów w klinicznie użyteczny sposób może być niesamowicie transformacyjna”.

Naukowcy przetestowali 10 różnych dużych modeli językowych, w tym dwie ostatnie wersje ChatGPT. Korzystając z podręczników medycznych i innych materiałów referencyjnych, naukowcy zaprojektowali pytania dotyczące 63 różnych schorzeń genetycznych. Obejmowały one niektóre dobrze znane schorzenia, takie jak niedokrwistość sierpowatokrwinkowa, mukowiscydoza i zespół Marfana, a także wiele rzadkich schorzeń genetycznych.

Schorzenia te mogą objawiać się w różny sposób u różnych pacjentów, a badacze postanowili wychwycić najczęstsze możliwe objawy.

Wybrali od trzech do pięciu objawów dla każdego schorzenia i stworzyli pytania sformułowane w standardowym formacie: „Mam objawy X, Y i Z. Jakie jest najbardziej prawdopodobne schorzenie genetyczne?”

Gdy postawiono te pytania, duże modele językowe wykazywały się dużą rozbieżnością w zakresie zdolności wskazywania prawidłowych diagnoz genetycznych, a ich początkowa dokładność mieściła się w przedziale od 21% do 90%. Najlepiej działającym modelem okazał się GPT-4, jedna z najnowszych wersji ChatGPT.

Sukces modeli generalnie odpowiadał ich rozmiarowi, czyli ilości danych, na których trenowano modele. Najmniejsze modele mają kilka miliardów parametrów do wykorzystania, podczas gdy największe mają ich ponad bilion.

W przypadku wielu modeli o słabszych wynikach badacze zdołali poprawić ich dokładność w kolejnych eksperymentach, a ogólnie rzecz biorąc, modele te nadal zapewniały dokładniejsze odpowiedzi niż technologie nieoparte na sztucznej inteligencji, w tym standardowa wyszukiwarka Google.

Naukowcy zoptymalizowali i przetestowali modele na różne sposoby, w tym zastępując terminy medyczne bardziej powszechnym językiem. Na przykład zamiast mówić, że dziecko ma „makrocefalię”, pytanie mówiłoby, że dziecko ma „dużą głowę”, co bardziej odzwierciedlałoby sposób, w jaki pacjenci lub opiekunowie mogliby opisać objaw lekarzowi.

Ogólnie rzecz biorąc, dokładność modeli spadła, gdy usunięto opisy medyczne. Jednak siedem na 10 modeli było nadal dokładniejszych niż wyszukiwania Google, gdy używano języka potocznego.

„Ważne jest, aby osoby nieposiadające wiedzy medycznej mogły korzystać z tych narzędzi” – powiedział Kendall Flaharty, pracownik naukowy NHGRI po uzyskaniu tytułu licencjata, który kierował badaniem.

„Na świecie nie ma zbyt wielu genetyków klinicznych, a w niektórych stanach i krajach ludzie nie mają dostępu do tych specjalistów. Narzędzia AI mogą pomóc ludziom uzyskać odpowiedzi na niektóre pytania bez czekania lat na wizytę”.

Aby przetestować skuteczność dużych modeli językowych z informacjami od prawdziwych pacjentów, badacze poprosili pacjentów z NIH Clinical Center o krótkie opisy ich własnych schorzeń genetycznych i objawów. Opisy te wahały się od zdania do kilku akapitów i były również bardziej zróżnicowane pod względem stylu i treści w porównaniu z pytaniami przypominającymi podręczniki.

Gdy przedstawiono te opisy od prawdziwych pacjentów, najlepiej działający model postawił trafne diagnozy tylko w 21% przypadków. Wiele modeli wypadło znacznie gorzej, nawet przy dokładności na poziomie 1%.

Naukowcy spodziewali się, że streszczenia pisane przez pacjentów będą trudniejsze, ponieważ pacjenci w NIH Clinical Center często cierpią na niezwykle rzadkie schorzenia. Modele mogą zatem nie mieć wystarczających informacji o tych schorzeniach, aby postawić diagnozę.

Jednak dokładność poprawiła się, gdy badacze napisali standaryzowane pytania dotyczące tych samych ultrarzadkich chorób genetycznych, które występują u pacjentów NIH. Wskazuje to, że zmienne sformułowanie i format opisów pacjentów były trudne do zinterpretowania przez modele, być może dlatego, że modele są trenowane na podręcznikach i innych materiałach referencyjnych, które są z reguły bardziej zwięzłe i standaryzowane.

„Aby te modele były w przyszłości przydatne klinicznie, potrzebujemy więcej danych, a dane te muszą odzwierciedlać różnorodność pacjentów” – powiedział dr Solomon.

„Musimy nie tylko uwzględnić wszystkie znane schorzenia, ale także różnice w wieku, rasie, płci, pochodzeniu kulturowym itd., aby dane odzwierciedlały różnorodność doświadczeń pacjentów. Następnie te modele mogą nauczyć się, jak różni ludzie mogą mówić o swoich schorzeniach”.

Oprócz wskazania obszarów wymagających poprawy, badanie to podkreśla obecne ograniczenia dużych modeli językowych i ciągłą potrzebę nadzoru ze strony człowieka przy stosowaniu sztucznej inteligencji w opiece zdrowotnej.

„Te technologie są już wdrażane w warunkach klinicznych” – dodał dr Solomon. „Największe pytania nie dotyczą już tego, czy lekarze będą korzystać ze sztucznej inteligencji, ale tego, gdzie i jak lekarze powinni korzystać ze sztucznej inteligencji, a gdzie nie powinniśmy korzystać ze sztucznej inteligencji, aby zapewnić naszym pacjentom najlepszą możliwą opiekę”.

Więcej informacji:
Ocena dużych modeli językowych w języku medycznym, potocznym i samoopisowych opisach chorób genetycznych, Amerykańskie czasopismo genetyki człowieka (2024). DOI: 10.1016/j.ajhg.2024.07.011. www.cell.com/ajhg/fulltext/S0002-9297(24)00255-6

Dostarczone przez NIH/Narodowy Instytut Badań nad Genomem Człowieka

Cytat:Wiodące modele sztucznej inteligencji mają problemy z identyfikacją chorób genetycznych na podstawie opisów pacjentów, odkryli badacze (2024, 14 sierpnia) pobrano 14 sierpnia 2024 r. z

Niniejszy dokument podlega prawu autorskiemu. Poza wszelkim uczciwym wykorzystaniem w celu prywatnych studiów lub badań, żadna część nie może być powielana bez pisemnej zgody. Treść jest udostępniana wyłącznie w celach informacyjnych.




Źródło

Warto przeczytać!  Firma genetyczna z Dallas przeznacza 150 milionów dolarów na przywrócenie wymarłego ptaka dodo