Nauka i technika

Wszyscy badacze argumentują za długimi odczytami w sekwencjonowaniu populacji

  • 3 lutego, 2023
  • 7 min read
Wszyscy badacze argumentują za długimi odczytami w sekwencjonowaniu populacji


NOWY JORK – Naukowcy związani z projektem badawczym All of Us National Institutes of Health wzywają do szerszego wykorzystania technologii sekwencjonowania długich odczytów w tej i innych próbach sekwencjonowania na skalę populacyjną.

Nawet korzystając z technologii dostępnych trzy lata temu, autorzy badania pilotażowego przesłali do BioRxiv w zeszłym tygodniu zalecił stosowanie długich odczytów samodzielnie i niekoniecznie jako techniki uzupełniającej sekwencjonowanie krótkich odczytów. W skład grupy weszli Fritz Sedlazeck z Baylor College of Medicine, Evan Eichler z University of Washington, Michael Schatz z Johns Hopkins University i Shawn Levy, dawniej z HudsonAlpha Institute for Biotechnology, a obecnie CSO w starcie zajmującym się sekwencjonowaniem Element Biosciences.

To badanie pokazuje dużą wartość długich odczytów dla prostych i złożonych medycznie istotnych genów i daje wyraźne wskazówki, że długie odczyty są na równi z krótkimi odczytami, jeśli nie lepsze od nich” – napisali. projekty powinny badać wykorzystanie długich odczytów na dużą skalę oraz jak wykorzystać i zrozumieć znaczenie kliniczne tak uzyskanych nowych alleli w warunkach większych kohort z krótkimi odczytami”.

Naukowcy wykorzystali długo czytane technologie firmy Pacific Biosciences (protokół HiFi w Sequel IIe) i Oxford Nanopore Technologies (pory R9 w PromethIon). Korzystając z danych porównawczych małego wariantu Genome In a Bottle v4.2.1, wykazali wyniki F (połączenie precyzji i wydajności przypominania) na poziomie 99,87 procent dla PacBio i 98,74 procent dla ONT, w porównaniu do wyniku F na poziomie 99,47 procent dla Illumina . Długie odczyty przewidywalnie przewyższały Illuminę w wywoływaniu wariantów strukturalnych, ponieważ krótkie odczyty mają trudności z identyfikacją dużych wstawek ze względu na długość odczytu, powiedzieli. Manuskrypt obejmował prace nad ulepszeniem potoków wywoływania wariantów zarówno dla małych wariantów, jak i wariantów strukturalnych dla długich odczytów.

Sedlazeck podkreślił, że badanie pokazuje, że długie odczyty mogą być szeroko przydatne w genomice klinicznej. Oprócz rozwiązania 386 „wysoce wymagających” genów, długie odczyty wykazały dobry zasięg „ogólnego zestawu” 4641 genów istotnych z medycznego punktu widzenia, a także ACMG 73, listę genów, które zaleca się analizować w celu uzyskania wtórnych odkryć przez amerykańską Wyższa Szkoła Genetyki i Genomiki Medycznej. W przypadku ACMG 73 średni wynik F HiFi wyniósł 85,24 procent, w porównaniu do 93,64 procent w przypadku Illumina. Preprint nie zapewniał wyniku F dla ONT, ale Sedlazeck powiedział, że było to 73,98 procent.

Warto przeczytać!  Badania ostrzegają, że lamparty mgliste grożą alarmującemu wyginięciu w obliczu „kryzysu genetycznego”.

Przy dostępnych obecnie jeszcze lepszych technologiach długiego odczytu, potencjalnie oferujących dane epigenetyczne bez dodatkowych kosztów, skalowalność i koszty nadal pozostają największymi przeszkodami w ich przyjęciu do genomiki klinicznej.

„Te długie odczyty poprawiają się w znacznym tempie” – powiedział Sedlazeck. „Były postrzegane jako bardzo błędne, ale to się zmieniło, masowo. Były postrzegane jako bardzo kosztowne, ale spadły do ​​​​1000 USD lub mniej” za ludzki genom przy 30-krotnym pokryciu.

Greg Elgar, dyrektor badań i rozwoju sekwencjonowania w Genomics England, zgodził się, że tempo poprawy sekwencjonowania długich odczytów było ogromne. „Co kilka miesięcy następowała taka skokowa zmiana” – powiedział. „Zanim cokolwiek opublikujesz, będziesz musiał być nieaktualny od sześciu do 12 miesięcy”. Nazwał badanie „dobrą gazetą promocyjną” do długich lektur, ale zasugerował, że było ono nieco stronnicze na korzyść sekwencjonowania HiFi firmy PacBio.

Preprint zawiera wyniki badania pilotażowego rozpoczętego trzy lata temu, kiedy HudsonAlpha wygrał 7 milionów dolarów od firmy National Center for Advancing Translational Sciences do generowania długo czytanych danych od ponad 6000 uczestników programu All Us.

Początkowo projekt miał na celu znalezienie złożonych SV lub analizę genów, które inaczej trudno byłoby zsekwencjonować za pomocą krótkich odczytów. Ale w pewnym momencie naukowcy postanowili zestawić te trzy technologie łeb w łeb. „Illumina wciąż jest koniem roboczym dla nas wszystkich, więc dobrze jest pokazać zalety i wady w porównaniu z długimi odczytami” – powiedział Sedlazeck.

Autorzy zauważyli, że długie odczyty wykazują „nieznaczne zmniejszenie dokładności w małych indelach”. Przewidywali jednak, że nowe platformy do długiego odczytu sekwencjonowania i metody analityczne wypełnią tę lukę.

Warto przeczytać!  Badania pokazują, że kształt ucha płodu może wskazywać na rzadką chorobę genetyczną

Rzeczywiście, od rozpoczęcia badań pilotażowych PacBio ogłosiło Revio, nowy, wysokowydajny instrument, który może generować 15 razy więcej danych HiFi niż jego poprzednik.

„Na podstawie naszych wewnętrznych testów porównawczych danych Revio widzimy dodatkowy wzrost dokładności indel [compared to] Sequel IIe” – powiedział Medhat Mahmoud, doktor habilitowany w Baylor i pierwszy autor przeddruku.

Obecna najnowocześniejsza technologia Oxford Nanopore obejmuje całkowicie nowy projekt porów, nową chemię i nowe wypełniacze. „Zespoły zauważą zwiększoną wydajność, przechodząc na najnowszą chemię nanoporów R10.4.1 i zestaw 14 w swoich Promethionach”, — poinformował rzecznik firmy w e-mailu.

Już teraz inne laboratoria uczestniczące w projekcie All of Us nurkują w sekwencjonowaniu długich odczytów. W październiku dyrektor Broad Institute Genomics Platform, Stacey Gabriel, udostępniła swoje laboratorium planuje zastosować sekwencjonowanie HiFi o niższym zasięgu — około 8X do 10X — na 10 000 próbek od nas wszystkich.

Podczas gdy wiele laboratoriów powiązanych z All of Us używa długich odczytów, nie wszyscy realizują strategię niskiego zasięgu. „Zdecydowaliśmy się nie stosować technik o niższym zasięgu, ponieważ chcemy uchwycić rzadkie allele” – powiedział Sedlazeck.

Ponadto, podczas gdy Levy powiedział w 2019 roku, że Wszyscy z nas mieli nadzieję skupić się na platformie sekwencjonowania programu do końca roku, jako całość grupa kopnęła puszkę w dół.

Sedlazeck uważał, że preprint nie zawiera wystarczających danych, aby ogłosić zwycięzcę, pomimo kilku obszarów, w których PacBio zdawał się przewyższać Oxford Nanopore.

„Długość odczytu nie miała tak dużego znaczenia, jak dokładność odczytów” – powiedział. „Wolę większy zasięg, dokładniejsze odczyty niż dłuższe, dłuższe i dłuższe odczyty”. PacBio również radził sobie nieco lepiej na indelach, dodał: „ale różnica jest coraz mniejsza”.

Warto przeczytać!  FDA zatwierdza leczenie ALS u pacjentów z chorobą genetyczną

Laboratorium Sedlazecka przetwarza tysiące próbek za pomocą sekwencjonowania Oxford Nanopore z pokryciem od 30X do 40X. Zauważył, że w przypadku setek tych próbek dodaje się sekwencjonowanie PacBio przy pokryciu 25X „w celu uzyskania wysokiej jakości złożeń”. W przeddruku zauważono, że Sedlazeck „otrzymał wsparcie odm Illumina, PacBio, [and] Oxford Nanopore”.

Sedlazeck nie uważał również, że warto rozważać hurtowe przejęcie długich odczytów kosztem krótkich odczytów.

„Oxford Nanopore był prawdopodobnie dalej w tyle trzy lata temu” – powiedział Elgar. Ale jego dokładność uległa poprawie, a platforma do sekwencjonowania całego genomu jest teraz „w pełni dojrzała”. Co więcej, PromethIon jest jedynym instrumentem innym niż NovaSeq firmy Illumina, który może zaoferować skalę wymaganą przez programy sekwencjonowania populacji, powiedział. PacBio jednak dogania – zwłaszcza Revio – „ale nie na tym samym boisku” – powiedział.

Elgar zasugerował, że sekwencjonowanie krótkich odczytów „po prostu nie jest przystosowane” do obsługi niektórych zastosowań, takich jak złożone rearanżacje w genomach raka.

„Myślę, że ludzie zaczną dokonywać wyborów w przyszłości” – powiedział. „Długie odczyty niekoniecznie zmniejszą rynek krótkich odczytów, po prostu poszerzą zakres zastosowań sekwencjonowania całego genomu. Wspaniałą rzeczą w Oxford Nanopore i PacBio jest to, że dostajesz to za darmo”.

Jednak „koszt nadal stanowi problem i nadal wpływa na podejmowanie wielu decyzji” – dodał.

W międzyczasie Sedlazeck powiedział, że wielkoskalowe, skoncentrowane klinicznie projekty sekwencjonowania długich odczytów będą nadal pompować dane. The Centrum NIH ds. choroby Alzheimera i pokrewnych demencji (CARD), na przykład, będzie sekwencjonować około 4000 próbek mózgu za pomocą sekwenatorów Oxford Nanopore. Ponadto konsorcjum Genomics Research to Elucidate the Genetics of Rare Diseases (GREGOR) analizuje setki nierozwiązanych przypadków chorób mendlowskich z długimi odczytami. No i oczywiście my wszyscy.

„W tym roku będzie coraz więcej długo czytanych danych pochodzących z nas wszystkich” – powiedział.


Źródło