Nauka i technika

Nowe badanie AI przeprowadzone przez Google ogłasza zakończenie pierwszego odniesienia do pangenomu człowieka

oen.pl

30 maja, 2023
6 min read

Naukowcy spędzili dziesięciolecia, tworząc mapę ludzkiego genomu, kompleksową kopię instrukcji genetycznych każdej osoby. W 2000 r. naukowcy ukończyli pierwszy szkic, ale wymagał on kluczowych elementów. Po ukończeniu genomu referencyjnego w 2022 r. wciąż mieli przed sobą długą drogę. Genomics spędził ostatnie trzy lata współpracując z Human Pangenome Research Consortium, grupą 119 naukowców z 60 instytucji na całym świecie, aby opracować nową i bardziej wszechstronną mapę ludzkiego genomu.

Pangenom jest ulepszoną reprezentacją zmienności genetycznej populacji ludzkich, ponieważ łączy w sobie sekwencje referencyjne z 47 różnych genomów. Korzystając z technologii głębokiego uczenia Google i wcześniejszych postępów w dziedzinie genomiki, naukowcy przezwyciężyli trudności w tworzeniu prawidłowych sekwencji pangenomu i stosowaniu ich do analizy genomicznej, stosując techniki oparte na splotowych sieciach neuronowych (CNN) i transformatorach. Konsorcjum było w stanie skompilować bogactwo danych dostępnych obecnie dla naukowców, lekarzy i genetyków na całym świecie.

Aplikacje

Użycie pojedynczego liniowego genomu referencyjnego, takiego jak GRCh38 lub CHM13, wprowadza błędy mapowania, które odniesienie do pangenomu ma na celu wyeliminowanie, prowadząc do znacznie ulepszonych dalszych procedur analizy.
Główną zaletą odniesienia pangenomu opartego na wykresach jest to, że może dokładnie reprezentować polimorficzne SV.
Naukowcy porównali użyteczność odniesień do pangenomu z typowymi genomami referencyjnymi, mapując symulowane dane sekwencjonowania RNA (RNA-seq) zarówno do pangenomu, jak i do genomu referencyjnego (Methods). Niższe współczynniki fałszywego mapowania zostały osiągnięte przez potok oparty na pangenomie przy użyciu vg mpmap57 w porównaniu z liniowym potokiem odniesienia przy użyciu vg mpmap lub STAR58. W rurociągu pangenomu występowało mniej odchyleń allelicznych i większy zasięg odwzorowania heterozygotycznych wariacji w rurociągu pangenomu niż w liniowych rurociągach referencyjnych, co może pomóc w badaniach nad ekspresją specyficzną dla alleli.
Naukowcy ponownie przeanalizowali dane dla H3K4me1 i H3K27ac z ChIP-seq i ATAC-seq na makrofagach pochodzących od monocytów odpowiednio od 30 osobników pochodzenia afrykańskiego i 30 osobników pochodzenia europejskiego, używając pangenomu.

? Sprawdź narzędzia sztucznej inteligencji firmy 100 w naszym klubie narzędzi sztucznej inteligencji

Pangenomy są konstruowane za pomocą grafów

Warto przeczytać! Odblokowanie związku między autoimmunizacją a infekcją

Po tym, jak sprzęt do sekwencjonowania odczyta miliony maleńkich fragmentów genomu danej osoby, program zwany mapperem lub alignerem ocenia, gdzie te fragmenty najlepiej pasują do pojedynczej, liniowej sekwencji odniesienia człowieka. Jest to standardowy przepływ pracy analitycznej dla wysokowydajnego sekwencjonowania DNA.

DNA różnych ludzi będzie miało różne sekwencje, a tych, których nie ma w genomie referencyjnym, nie można badać. Ponieważ do zbudowania pangenomu konieczne jest jednoczesne przedstawienie sekwencji wielu osobników, konsorcjum zwróciło się do struktur danych w postaci wykresów, aby rozwiązać ten problem. Węzły genomu połączonego w sieć reprezentują znany zbiór sekwencji populacji, podczas gdy ścieżki między węzłami zwięźle definiują sekwencje DNA danej osoby.

Ograniczenia i nowe technologie sekwencjonowania w celu ich przezwyciężenia

Wykresy wprowadzają szeroką gamę komplikacji. Potrzebują precyzyjnych sekwencji referencyjnych i wynalezienia nowych technik, które mogą wykorzystać ich strukturę danych. Jednak dzięki zastosowaniu nowoczesnych technologii sekwencjonowania, w tym sekwencjonowania konsensusowego i składania fazowego, dokonano ekscytujących postępów.

Większe fragmenty genomu (o długości od 10 000 do milionów znaków DNA) można łatwiej połączyć w złożone genomy, co sprawia, że technologia sekwencjonowania długiego odczytu ma kluczowe znaczenie dla generowania wysokiej jakości sekwencji referencyjnych.
Metody sekwencjonowania o wysokiej przepustowości opracowane w 2000 roku opierają się na sekwencjonowaniu z krótkim odczytem, które odczytuje fragmenty genomu o długości zaledwie od 100 do 300 znaków DNA. Pomimo korzyści płynących z sekwencjonowania długiego odczytu w tworzeniu genomu referencyjnego, wiele podejść informatycznych opracowanych dla krótkich odczytów wymagało większej liczby odpowiedników dla technologii długiego odczytu.

Warto przeczytać! Ujawniamy, jak starożytny najeźdźca genetyczny zamieszkuje nasze DNA

Używanie transformatorów do ulepszania sekwencji całego genomu

Podobnie jak postęp w technologii sekwencjonowania utorował drogę nowym metodologiom pangenomu, ostatnie postępy w informatyce pozwoliły na ulepszenie technik sekwencjonowania. Aby stworzyć DeepConsensus, Google zastosował topologie transformatorów pierwotnie opracowane do analizy ludzkiego języka w celu badania sekwencji DNA. Dało to precyzję potrzebną do nadążania za terabajtami danych wyjściowych sekwencera bez konieczności stosowania dekodera. Różniczkowalne funkcje strat, które mogą uwzględniać insercje i delecje obserwowane w danych sekwencjonowania, utorowały temu drogę.

Zarówno wyniki, jak i precyzja odczytów przyrządów są poprawiane przez DeepConsensus. Naukowcom udało się wykorzystać DeepConsensus do udoskonalenia 47 zestawów genomów, ponieważ informacje o sekwencji pierwotnej uzyskano dzięki sekwencjonowaniu PacBio. Korzystając z DeepConsensus, członkowie konsorcjum stworzyli asembler genomu z podstawową dokładnością 99,9997%.

Zdaniem autorów badania, wartość będzie wynikać z potencjału projektu w zakresie rozpowszechniania wiedzy naukowej wśród nowych grup demograficznych oraz zaangażowania naukowców w zapoznawanie się z wszystkimi punktami widzenia podczas pracy nad wzniosłym celem projektu, jakim jest stworzenie ujednoliconej globalnej referencyjnej bazy danych. Naukowcy opracowują podejścia, które powinny być przydatne do badania innych gatunków. Rzeczywiście, kilka organizacji dokonuje przełomów w tej dziedzinie. W połączeniu z wysiłkami zmierzającymi do zgromadzenia większego zestawu zróżnicowanych i dokładnych ludzkich genomów referencyjnych, naukowcy oczekują, że odniesienie do pangenomu zostanie poddane dalszej optymalizacji i szybkiemu ulepszeniu, otwierając wiele nowych możliwości dla badań i praktyki klinicznej.

Warto przeczytać! Program hodowli pszenicy OSU wprowadza nową odmianę

Sprawdź Papier I Blog. Nie zapomnij dołączyć nasz SubReddit o ponad 22 tysiącach ML, Kanał DiscordaI Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres Asif@marktechpost.com

? Sprawdź narzędzia AI 100 w AI Tools Club

Dhanshree Shenwai jest inżynierem informatyki i ma dobre doświadczenie w firmach FinTech w dziedzinie finansów, kart i płatności oraz bankowości, z dużym zainteresowaniem zastosowaniami sztucznej inteligencji. Jest entuzjastycznie nastawiona do odkrywania nowych technologii i postępów w dzisiejszym zmieniającym się świecie, ułatwiającym wszystkim życie.

➡️ Kompletny przewodnik po etykietowaniu danych w uczeniu maszynowym

Źródło