Nauka i technika

Dokładniejsza ocena ryzyka genetycznego osób o pozaeuropejskich przodkach dzięki nowemu modelowi uczenia maszynowego

  • 31 października, 2023
  • 6 min read
Dokładniejsza ocena ryzyka genetycznego osób o pozaeuropejskich przodkach dzięki nowemu modelowi uczenia maszynowego


Nilanjan Chatterjee, profesor biostatystyki i epidemiologii genetycznej w School of Medicine, a także uznany profesor Bloomberg Distinguished Professor, współpracował nad modelem uczenia maszynowego, który poprawiłby zdolność przewidywania ocen ryzyka poligenowego w populacjach pozaeuropejskich. Wyniki tego badania, przeprowadzone we współpracy z Harvard TH Chan School of Public Health i Haoyu Zhangiem z National Cancer Institute, zostały niedawno opublikowane w czasopiśmie: Genetyka natury.

Skala ryzyka poligenicznego (PRS), przykład precyzyjnego zdrowia, przedstawia ryzyko rozwoju choroby u danej osoby i jest obliczana na podstawie składu genetycznego danej osoby. Naukowcy rozpoczynają od zidentyfikowania wariantów genomowych powiązanych z chorobą, taką jak cukrzyca typu 1 i rak piersi, poprzez porównanie genomów osób chorych i zdrowych. Następnie stosuje się metody statystyczne w celu uzyskania PRS. Oceniając obecność lub brak pewnych wariantów genomowych w DNA danej osoby, badacze mogą ocenić prawdopodobieństwo rozwoju choroby u tej osoby.

Dane użyte do obliczenia PRS pochodzą ze podsumowanych statystyk badania asocjacyjnego całego genomu (GWAS). Możliwość uogólnienia tych danych jest jednak ograniczona, ponieważ dane są zbierane głównie od populacji europejskich; znacząca większość uczestników GWAS jest pochodzenia europejskiego. Ryzyko genetyczne choroby może być różne u osób o różnych przodkach. Na przykład niedokrwistość sierpowatokrwinkowa jest bardziej rozpowszechniona wśród osób pochodzenia afrykańskiego, a choroba Taya-Sachsa jest szczególnie rozpowszechniona wśród populacji Żydów aszkenazyjskich. Dlatego też populacje pozaeuropejskie nie czerpią korzyści z obecnych wyników prognostycznych PRS, ponieważ opierają się one głównie na osobnikach pochodzenia europejskiego.

Nowy model badaczy, metoda CT-SLEB, łączy w sobie wiele technik uczenia maszynowego i technik statystycznych, w tym metodę grupowania i progowania (CT), model superuczenia się (SL) uczenia maszynowego i empiryczne modelowanie bayesowskie (EB). Po pierwsze, metodę CT wykorzystano do identyfikacji różnic w zakresie pojedynczych nukleotydów w populacjach, które wykazują zwiększone ryzyko choroby. Następnie wykorzystano modelowanie EB do oszacowania wielkości efektu każdego zidentyfikowanego polimorfizmu pojedynczego nukleotydu. Na koniec do szkolenia modelu SL wykorzystano PRS uzyskane w pierwszych dwóch etapach. Wydajność modelu CT-SLEB oceniano przy użyciu oddzielnego zestawu danych testowych składającego się z danych pochodzących zarówno z populacji europejskiej, jak i pozaeuropejskiej.

Warto przeczytać!  Jak wiewiórki bawią się swoją genetyką

Aby ocenić model CT-SLEB, badacze określili ilościowo wydajność obliczonych PRS, korzystając z wielu wskaźników, takich jak współczynnik korelacji mierzący, jak dużą część wariancji można przewidzieć w ramach danej cechy, oraz obszar pod krzywą, aby określić, jak dobrze model CT-SLEB model mógłby rozróżniać przypadki i kontrole.

Chatterjee wyjaśnił, jak podczas procesu opracowywania modelu badacze analizowali czynniki — takie jak rasa, wielkość próby i struktura genetyczna choroby — które należało wziąć pod uwagę, aby zwiększyć zdolność predykcyjną modelu.

„Przeprowadziliśmy prace teoretyczne, które pokazały, jak wydajność tego wielowymiarowego modelu zależy od wielkości próbki zbioru danych treningowych i architektury choroby… lub od tego, ile wariantów genetycznych jest faktycznie powiązanych z chorobą” – powiedział Chatterjee w wywiadzie z The Biuletyn.

Naukowcy porównali swoją metodę z dziewięcioma istniejącymi modelami stosowanymi do obliczania PRS w celu oceny wyników w populacjach europejskich i pozaeuropejskich. Odkryli, że CT-SLEB znacznie poprawił dokładność predykcyjną w populacjach pozaeuropejskich w porównaniu z istniejącymi metodami ze względu na architekturę modelu i fakt, że był szkolony na danych GWAS pochodzących zarówno z populacji europejskich, jak i pozaeuropejskich. Model sprawdził się szczególnie dobrze w porównaniu z istniejącymi modelami w populacjach pochodzenia afrykańskiego, gdzie wyniki były wcześniej rozczarowujące ze względu na niedostateczną reprezentację.

Warto przeczytać!  wyjaśnione | Czy fonony, cząsteczki dźwięku, też są kwantami?

Jednakże pomimo tych przełomów w ramach projektu CT-SLEB w dalszym ciągu występują różnice w wydajności pomiędzy populacjami europejskimi i pozaeuropejskimi. Jedną z największych przyczyn tej luki jest prosty brak wiedzy specjalistycznej na temat uczenia modeli GWAS w populacjach pozaeuropejskich, obserwowany w całej dziedzinie medycyny genomicznej.

Chatterjee omówił obecne wysiłki mające na celu zwiększenie dostępności danych w populacjach pozaeuropejskich, w szczególności odnosząc się do programu badawczego „Wszyscy z nas” rozpoczętego przez Narodowy Instytut Zdrowia (NIH), którego celem jest zapewnienie odkryciom naukowym większej możliwości uogólniania poprzez gromadzenie większej liczby danych na temat zdrowia z różnych populacji, zwłaszcza tych, które w przeszłości były niedostatecznie reprezentowane w badaniach biomedycznych.

„NIH ma wiele inicjatyw w zakresie finansowania [that] zachęcają ludzi do gromadzenia większej ilości danych na temat zróżnicowanych populacji” – wyjaśnił Chatterjee.

Zhang, główny autor badania i badacz Earl Stadtman w oddziale biostatystyki NIH, również podkreślił znaczenie znalezienia lokalnych współpracowników w obszarach, w których dane nie są powszechnie dostępne. W wywiadzie z The Biuletyn Informacyjny, Zhang podkreślił znaczenie współpracy międzynarodowej w opracowywaniu większych próbek dla populacji o pochodzeniu pozaeuropejskim w celu szkolenia przyszłych modeli i poprawy obliczeń PRS.

„Nie chodzi tylko o fundusze… potrzebujesz także ludzi, którzy naprawdę mają doświadczenie. Próbujemy znaleźć lokalnych współpracowników, którzy posiadają wiedzę na temat społeczności lokalnej” – powiedział Zhang.

Warto przeczytać!  Badanie odkrywa rolę drobnoustrojów jelitowych w otyłości u dzieci

Modele takie jak CT-SLEB mogą ostatecznie okazać się korzystne w praktyce klinicznej. Obliczając PRS na podstawie specyficznego składu genetycznego danej osoby i umożliwiając spersonalizowaną opiekę zdrowotną, klinicyści mogą być w stanie zalecić wcześniejsze terminy badań przesiewowych w kierunku określonych chorób i zapewnić terminową opiekę profilaktyczną. Istniejące modele nie zapewniają wysokiej dokładności predykcyjnej w populacjach pozaeuropejskich. Kliniczne wdrożenie takich modeli mogłoby następnie skutkować wyższym odsetkiem błędnych diagnoz, a tym samym błędów w późniejszym leczeniu w populacjach pozaeuropejskich, pogłębiając istniejące dysproporcje w stanie zdrowia.

„Obecnie podejmuje się wiele wysiłków, aby wprowadzić te modele genetyczne w warunkach klinicznych… ale jeśli zastosuje się je bezpośrednio w populacjach pozaeuropejskich… może to spowodować pewne dysproporcje w stanie zdrowia” – powiedział Zhang. „Jednym z osiągnięć naszego modelu jest [that] możemy wykonać lepszą robotę w przewidywaniu populacji pozaeuropejskiej, więc model działa również… lepiej niż istniejące metody dotyczące zapewniania bardziej spersonalizowanych rekomendacji”.

Naukowcy mają nadzieję wykorzystać swoją pracę nad modelem CT-SLEB do ostatecznego opracowania modelu, który w warunkach klinicznych może przynieść równe korzyści ludziom wszystkich przodków.

„Moc modelu będzie rosła w miarę napływania większej ilości danych. Dojdziesz do punktu, w którym będziesz mógł dawać spersonalizowane rekomendacje, biorąc pod uwagę czynniki ryzyka każdego człowieka… genetykę każdego człowieka – i to działa powszechnie dobrze w przypadku różnych przodków. Taka jest wizja tych badań” – podsumował Zhang.




Źródło