Nauka i technika

Jak sztuczna inteligencja przekształca genomikę

  • 24 lutego, 2023
  • 6 min read
Jak sztuczna inteligencja przekształca genomikę


Postępy w sekwencjonowaniu całego genomu zapoczątkowały rewolucję w biologii cyfrowej.

Programy genomiki na całym świecie nabierają rozpędu, ponieważ spadł koszt wysokowydajnego sekwencjonowania nowej generacji.

Sekwencjonowanie całego genomu, niezależnie od tego, czy jest wykorzystywane do sekwencjonowania pacjentów wymagających intensywnej opieki z rzadkimi chorobami, czy też w badaniach genetycznych na skalę populacji, staje się fundamentalnym krokiem w przebiegu pracy klinicznej i odkrywaniu leków.

Ale sekwencjonowanie genomu to dopiero pierwszy krok. Analiza danych sekwencjonowania genomu wymaga przyspieszonych obliczeń, nauki o danych i sztucznej inteligencji, aby odczytać i zrozumieć genom. Wraz z końcem prawa Moore’a, obserwacją, że co dwa lata liczba tranzystorów w układzie scalonym podwaja się, konieczne są nowe podejścia obliczeniowe, aby obniżyć koszty analizy danych, zwiększyć przepustowość i dokładność odczytów, a ostatecznie odblokować pełnego potencjału ludzkiego genomu.

Wybuch w Bioinformatyka Dane

Sekwencjonowanie całego genomu danej osoby generuje około 100 gigabajtów surowych danych. Liczba ta wzrasta ponad dwukrotnie po zsekwencjonowaniu genomu przy użyciu złożonych algorytmów i aplikacji, takich jak głębokie uczenie się i przetwarzanie języka naturalnego.

Ponieważ koszt sekwencjonowania ludzkiego genomu stale spada, ilość danych sekwencjonowania rośnie wykładniczo.

Szacuje się, że do 2025 roku do przechowywania wszystkich danych dotyczących ludzkiego genomu potrzeba będzie około 40 eksabajtów. Dla porównania, jest to 8 razy więcej miejsca, niż byłoby potrzebne do przechowywania każdego słowa wypowiedzianego w historii.

Wiele potoków analizy genomu stara się nadążyć za ekspansywnymi poziomami generowanych surowych danych.

Warto przeczytać!  Globalny rynek genomiki przestrzennej i transkryptomiki

Przyśpieszony Analiza sekwencjonowania genomu Przepływy pracy

Analiza sekwencjonowania jest skomplikowana i wymaga dużej mocy obliczeniowej, a do zidentyfikowania wariantów genetycznych w ludzkim genomie wymagane są liczne kroki.

Głębokie uczenie się staje się ważne dla połączeń bazowych bezpośrednio w instrumencie genomowym przy użyciu modeli opartych na RNN i konwolucyjnej sieci neuronowej (CNN). Sieci neuronowe interpretują dane obrazu i sygnału generowane przez instrumenty i wnioskują o 3 miliardach par nukleotydów ludzkiego genomu. Poprawia to dokładność odczytów i zapewnia, że ​​wywołanie bazy odbywa się bliżej czasu rzeczywistego, jeszcze bardziej przyspieszając cały przepływ pracy genomiki, od formatu próbki do wariantu wezwania do raportu końcowego.

W przypadku wtórnej analizy genomowej technologie dopasowywania wykorzystują genom referencyjny, aby pomóc w ponownym złożeniu genomu po zsekwencjonowaniu fragmentów DNA.

BWA-MEM, wiodący algorytm dopasowywania, pomaga naukowcom w szybkim mapowaniu odczytów sekwencji DNA do genomu referencyjnego. STAR to kolejny złoty standard algorytmu dopasowywania używany do danych seq RNA, który zapewnia dokładne, ultraszybkie dopasowanie w celu lepszego zrozumienia ekspresji genów.

Algorytm programowania dynamicznego Smith-Waterman jest również szeroko stosowany do wyrównywania, kroku przyspieszonego 35-krotnie na procesorze graficznym NVIDIA H100 Tensor Core, który zawiera akcelerator programowania dynamicznego.

Odkrywanie Warianty genetyczne

Jednym z najbardziej krytycznych etapów projektów sekwencjonowania jest wywoływanie wariantów, w ramach którego naukowcy identyfikują różnice między próbką pacjenta a genomem referencyjnym. Pomaga to klinicystom określić, jaką chorobę genetyczną może mieć krytycznie chory pacjent, lub pomaga naukowcom spojrzeć na populację w celu odkrycia nowych celów dla leków. Te warianty mogą być zmianami pojedynczych nukleotydów, małymi insercjami i delecjami lub złożonymi rearanżacjami.

Warto przeczytać!  Naukowcy opracowują nową, odporną na suszę odmianę pomidorów

Zoptymalizowane pod kątem GPU i akcelerowane programy wywołujące, takie jak GATK Broad Institute — zestaw narzędzi do analizy genomu do wywoływania wariantów linii zarodkowej — zwiększają szybkość analizy. Aby pomóc naukowcom w usuwaniu fałszywych alarmów w wynikach GATK, NVIDIA współpracowała z Broad Institute w celu wprowadzenia NVScoreVariants, narzędzia głębokiego uczenia się do filtrowania wariantów za pomocą CNN.

Warianty wywołujące oparte na głębokim uczeniu się, takie jak Google DeepVariant, zwiększają dokładność wywołań, bez potrzeby osobnego etapu filtrowania. DeepVariant używa architektury CNN do wywoływania wariantów. Można go ponownie przeszkolić, aby dostroić się w celu zwiększenia dokładności z wynikami każdej platformy genomowej.

Oprogramowanie do analizy wtórnej w pakiecie narzędzi NVIDIA Clara Parabricks przyspieszyło wywoływanie tych wariantów nawet 80-krotnie. Na przykład czas działania germline HaplotypeCaller został skrócony z 16 godzin w środowisku opartym na procesorze do mniej niż pięciu minut w akceleratorze GPU Clara Parabricks.

Przyspieszenie następnej fali genomiki

NVIDIA pomaga uruchomić kolejną falę genomiki, zasilając platformy do sekwencjonowania krótkich i długich odczytów przyspieszonymi wywołaniami podstawowymi i wariantowymi sztucznej inteligencji. Liderzy branży i start-upy współpracują z firmą NVIDIA, aby przesuwać granice sekwencjonowania całego genomu.

Na przykład firma biotechnologiczna PacBio ogłosiła niedawno system Revio, nowy system sekwencjonowania od dawna czytany, wyposażony w procesory graficzne NVIDIA Tensor Core. Dzięki 20-krotnemu wzrostowi mocy obliczeniowej w porównaniu z poprzednimi systemami Revio jest przeznaczony do sekwencjonowania ludzkich genomów z dużą dokładnością długich odczytów na dużą skalę za mniej niż 1000 USD.

Warto przeczytać!  Odkrywanie ścieżek genetycznych rzadkich chorób za pomocą globalnych biobanków

Oxford Nanopore Technologies oferuje jedyną pojedynczą technologię, która może sekwencjonować fragmenty DNA lub RNA o dowolnej długości w czasie rzeczywistym. Cechy te pozwalają na szybkie odkrycie większej zmienności genetycznej. Szpital Dziecięcy w Seattle niedawno użył wysokowydajnego instrumentu do sekwencjonowania nanoporów PromethION, aby zrozumieć zaburzenie genetyczne w pierwszych kilku godzinach życia noworodka.

Ultima Genomics oferuje wysokowydajne sekwencjonowanie całego genomu za jedyne 100 USD za próbkę, a G4 firmy Singular Genomics to najpotężniejszy system laboratoryjny.

Ucz się więcej

Podczas NVIDIA GTC, bezpłatnej konferencji AI, która odbędzie się online w dniach 20-23 marca, prelegenci z PacBio, Oxford Nanopore, Genomic England, KAUST, Stanford, Argonne National Labs i innych wiodących instytucji podzielą się najnowszymi postępami AI w sekwencjonowaniu genomu, analizie i duże modele językowe do zrozumienia ekspresji genów.

Konferencja obejmuje przemówienie założyciela i dyrektora generalnego firmy NVIDIA, Jensena Huanga, we wtorek, 21 marca, o godzinie 8:00 czasu pacyficznego.

NVIDIA Clara Parabricks jest bezpłatna dla studentów i badaczy. Zacznij już dziś lub wypróbuj bezpłatne laboratorium praktyczne, aby poznać zestaw narzędzi w działaniu.


Źródło