Nauka i technika

Skok naprzód w diagnozowaniu chorób genetycznych z ponad 98% precyzją

  • 30 kwietnia, 2024
  • 5 min read
Skok naprzód w diagnozowaniu chorób genetycznych z ponad 98% precyzją


W niedawnym badaniu opublikowanym w NEJM AI naukowcy opracowali oparty na sztucznej inteligencji (AI) model MARRVEL (Model Organism Aggregated Resources for Rare Variant ExpLoration) w celu selekcji genów przyczynowych i ich mutacji w przypadku chorób mendlowskich w oparciu o charakterystykę kliniczną i sekwencje genetyczne.

​​​​​​​​Badanie: AI-MARRVEL — oparty na wiedzy system sztucznej inteligencji do diagnozowania zaburzeń mendlowskich.  Źródło obrazu: Antiv/Shutterstock.comBadanie: AI-MARRVEL — oparty na wiedzy system sztucznej inteligencji do diagnozowania zaburzeń mendlowskich. Źródło obrazu: Antiv/Shutterstock.com

Tło

Miliony ludzi na całym świecie rodzą się z chorobami genetycznymi, zazwyczaj chorobami mendlowskimi powodowanymi mutacjami pojedynczych genów. Identyfikacja tych mutacji wymaga wysiłku i znacznej wiedzy specjalistycznej.

Kompleksowe, systematyczne i skuteczne procedury mogą zwiększyć szybkość i dokładność diagnostyki. Sztuczna inteligencja wykazała potencjał, ale odniosła jedynie mierne sukcesy w diagnostyce podstawowej.

Ponowna ocena oparta na bioinformatyce jest tańsza, ale ma ograniczoną dokładność, przez co nadawanie priorytetu zmianom niekodującym jest uciążliwe i wymaga wykorzystania danych symulacyjnych.

O badaniu

W niniejszym badaniu naukowcy wprowadzają oparty na wiedzy model MARRVEL AI (AIM) w celu identyfikacji chorób mendlowskich.

AIM to klasyfikator uczenia maszynowego, który łączy ponad 3,5 miliona odmian z tysięcy zidentyfikowanych przypadków i zmiennych opracowanych przez ekspertów w celu usprawnienia diagnostyki molekularnej. Zespół porównał AIM z pacjentami z trzech kohort i opracował wskaźnik pewności, aby znaleźć możliwe do zdiagnozowania przypadki w nierozwiązanych pulach.

Przeszkolili AIM w oparciu o wysokiej jakości próbki i fachowo opracowane funkcje. Przetestowali model na trzech zbiorach danych pacjentów pod kątem różnych zastosowań, takich jak diagnoza dominująca, recesywna, potrójna, identyfikacja nowych genów chorobowych i ponowna ocena na dużą skalę.

Warto przeczytać!  Epidemia wirusa grypy H5N1 u krów prawdopodobnie rozpoczęła się wcześniej, niż sądzono

Naukowcy zebrali słowa kluczowe i sekwencje egzomów z ontologii fenotypu człowieka (HPO) od trzech grup pacjentów: DiagLab, sieć niezdiagnozowanych chorób (UDN) i projekt Deciphering Developmental Disorders (DDD). Podzielili dane DiagLab na zbiory szkoleniowe i testowe oraz osobno przetestowali DDD i UDN.

Kierowali się projektem AIM w oparciu o inżynierię cech opartą na wiedzy, która wykorzystała wiedzę kliniczną i zasady genetyczne do wybrania 56 surowych cech, takich jak częstotliwość mniejszych alleli, baza danych chorób, ochrona ewolucyjna, wpływ wariantów, dopasowanie fenotypów, wzór dziedziczenia, wyniki szacowania patogeniczności wariantów, ograniczenia genowe , jakość sekwencjonowania i przewidywanie splicingu.

Zespół stworzył sześć modułów do podejmowania decyzji w diagnostyce genetycznej, co dało 47 dodatkowych cech. Jako podstawowy algorytm sztucznej inteligencji wykorzystali losowe klasyfikatory lasów i zapoznali się z publikacjami porównawczymi oraz najlepszymi firmami.

Wykorzystali cechy takie jak SpliceAI, aby nadać priorytet odmianom splicingu. Opracowali model AIM bez VarDB, aby zbadać wpływ błędnych danych fenotypowych.

Zastosowali podejście „wspinania się po cechach”, aby ocenić udział każdej cechy i sklasyfikować wszystkie cechy według ich znaczenia biologicznego.

Naukowcy opracowali punktację obejmującą różne próbki, aby oszacować prawdopodobieństwo pomyślnego zdiagnozowania zmiany diagnostycznej u pacjenta za pomocą AIM.

Warto przeczytać!  Narzędzie CRISPR usuwa z gryzoni receptory oksytocyny | Widmo

Podzielili pacjentów na dwie grupy w oparciu o poziom pewności: osoby z dużą pewnością zostały poddane ręcznej ocenie, natomiast osoby z niską pewnością zostały poddane ponownej analizie.

Skonstruowali cztery stopnie ufności, zastosowali je do próbek UDN i DDD i ocenili je, odróżniając pacjentów pozytywnych od pacjentów negatywnych oraz zdrowych krewnych pacjentów de novo.

Wyniki

Projekt AIM radykalnie zwiększył dokładność diagnostyki genetycznej, potrajając liczbę rozwiązanych przypadków w porównaniu z podejściami porównawczymi w trzech rzeczywistych kohortach. AIM osiągnął współczynnik dokładności na poziomie 98% i wykrył 57% możliwych do zdiagnozowania z 871.

Okazał się również obiecujący w odkrywaniu nowych genów chorobowych poprzez dokładne przewidywanie dwóch niedawno zgłoszonych genów z sieci Undiagnosed Diseases Network. AIM uzyskał lepsze wyniki niż istniejące metody w trzech oddzielnych zbiorach danych, przewyższając Genomiser w kohortach UDN i DiagLab.

Metoda AIM skutecznie rozróżniła niediagnostyczne i diagnostyczne zmiany chorobotwórcze w ClinVar. AIM-bez-VarDB odnotował niewielki spadek wydajności, ale mimo to uzyskał lepsze wyniki niż inne testowane techniki.

Rozwój funkcji eksperckich zwiększył dokładność modelu celowania, jednocześnie opóźniając nasycenie treningiem. Wykorzystując 20% danych szkoleniowych, AIM utrzymał najwyższą dokładność diagnostyczną na poziomie 54%. Przy większej liczbie próbek szkoleniowych model wytrenowany przy użyciu zmodyfikowanych zmiennych wykazał dokładność na poziomie 66%, podczas gdy model bez cech inżynieryjnych był dokładny na poziomie 58%.

Warto przeczytać!  Ponowna ocena genotypów pacjentów z polipowatością gruczolakowatą o nieznanej etiologii: badanie ogólnopolskie

Naukowcy odkryli 11% spadek dokładności diagnostycznej pierwszej 1-tki, co pokazuje, że precyzyjny opis fenotypowy ma kluczowe znaczenie. Nawet przy bezużytecznych informacjach fenotypowych AIM uzyskał 78% najwyższej 5 dokładności diagnostycznej, co podkreśla znaczenie dowodów molekularnych.

Wzrost wyniku podobieństwa fenotypowego opartego na OMIM z zera do 0,25 zwiększył wyniki przewidywań o 60,0% do 90,0%. Jednakże kolejne przyrosty powyżej 0,3 skutkowały jedynie niewielkim wzrostem, wskazując na brak wymogu dokładnego dopasowania do fenotypów OMIM.

Klasyfikator trio (AIM-Trio) uzyskał lepsze wyniki niż modele Exomiser i Genomiser Trio, jednocześnie nieznacznie przewyższając model wyłącznie probandowy (AIM). Z modelu AIM-NDG usunięto cechy powiązane z bazami danych rozpoznanych chorób.

Na podstawie wyników badania AIM to genetyczne narzędzie do diagnostyki oparte na uczeniu maszynowym, umożliwiające identyfikację nowych genów chorobowych i analizowanie tysięcy próbek w ciągu kilku dni. Jest bardzo dokładny i przydatny przy wstępnej diagnostyce, ponownej analizie nierozwiązanych przypadków i identyfikacji nowych genów chorobowych.

AIM analizuje około 3,5 miliona punktów danych dotyczących zmienności spośród tysięcy zdiagnozowanych przypadków i udostępnia użytkownikom interfejs sieciowy umożliwiający przesyłanie przypadków i sprawdzanie wyników.

Ograniczenia obejmują jednak brak oceny zmian strukturalnych lub liczby kopii i skupienie się na sytuacjach z mutacjami kodującymi. Duże modele językowe, takie jak PhenoBCBERT i PhenoGPT, wykazały wyższą wydajność.


Źródło