Nauka i technika

Naukowcy ze Stanford przedstawiają HyenaDNA: model genomu dalekiego zasięgu z długością kontekstu do 1 miliona tokenów przy rozdzielczości pojedynczego nukleotydu

  • 5 lipca, 2023
  • 6 min read
Naukowcy ze Stanford przedstawiają HyenaDNA: model genomu dalekiego zasięgu z długością kontekstu do 1 miliona tokenów przy rozdzielczości pojedynczego nukleotydu


W ciągu ostatnich kilku lat nastąpił szybki postęp w dziedzinie sztucznej inteligencji (AI), który ma potencjał całkowitej transformacji branż i przesuwania granic tego, co jest możliwe. Jednym z obszarów, który wzbudził duże zainteresowanie badaczy, jest opracowanie solidniejszych i wydajniejszych modeli zadań związanych z językiem naturalnym. W tym kontekście badacze nieustannie podejmują wysiłki w celu opracowania modeli zdolnych do obsługi dłuższych tokenów, ponieważ liczba tokenów w modelu określa jego zdolność do przetwarzania i rozumienia tekstu. Co więcej, większa liczba tokenów pozwala modelowi uwzględniać szerszy kontekst, umożliwiając w ten sposób modelowi przetwarzanie obszernych sekwencji danych. Jednak jeśli chodzi o modele długiego kontekstu, większość uwagi poświęcono językowi naturalnemu, a dziedzina, która z natury zajmuje się długimi sekwencjami, miała miejsce znaczące niedopatrzenie: genomika, która pociąga za sobą badanie różnych aspektów materiału genetycznego organizmu, jak struktura, elementy ewolucyjne itp. Podobnie do podejścia przyjętego w modelach języka naturalnego, naukowcy zaproponowali wykorzystanie modeli podstawowych (FM) w genomice w celu uzyskania uogólnionych cech z nieustrukturyzowanych danych genomu. Te FM można następnie dostroić do różnych zadań, takich jak lokalizacja genów, identyfikacja elementów regulacyjnych itp.

Istniejące modele genomowe oparte na architekturze Transformera napotykają jednak na wyjątkowe wyzwania, gdy mają do czynienia z sekwencjami DNA. Jednym z takich ograniczeń jest kwadratowe skalowanie uwagi, które ogranicza modelowanie interakcji dalekiego zasięgu w DNA. Ponadto dominujące podejścia polegają na ustalonych k-merach i tokenizatorach w celu agregacji znaczących jednostek DNA, co często prowadzi do utraty indywidualnych cech DNA. Jednak w przeciwieństwie do języka naturalnego ta utrata jest kluczowa, ponieważ nawet subtelne zmiany genetyczne mogą głęboko wpłynąć na funkcje białek. Hiena, niedawno wprowadzona LLM, okazała się obiecującą alternatywą dla modeli opartych na uwadze, wykorzystując niejawne sploty. To innowacyjne podejście wykazało jakość porównywalną z modelami opartymi na uwadze, umożliwiając przetwarzanie dłuższych kontekstów przy jednoczesnym znacznym zmniejszeniu złożoności obliczeniowej. Zainspirowany tymi odkryciami, zespół naukowców z Uniwersytetu Stanforda i Harvarda rozpoczął badanie, czy możliwości Hyeny można wykorzystać do skutecznego uchwycenia zasadniczych zależności dalekiego zasięgu i indywidualnych cech DNA niezbędnych do analizy sekwencji genomowych.

Warto przeczytać!  Rejestracja i dekodowanie sygnałów neuronowych z nerwu błędnego

Doprowadziło to do opracowania HyenaDNA, genomowego FM z bezprecedensową zdolnością do przetwarzania długości kontekstu do 1 miliona tokenów na poziomie pojedynczego nukleotydu, co stanowi niezwykły 500-krotny wzrost w porównaniu z istniejącymi modelami opartymi na uwadze. Wykorzystując moc długodystansowych możliwości Hyeny, HyenaDNA wykazuje niezrównaną skalowalność, trenując do 160 razy szybciej niż Transformery wyposażone w FlashAttention. HyenaDNA wykorzystuje stos operatorów Hieny jako podstawę do modelowania DNA i jego skomplikowanych interakcji. Model wykorzystuje uczenie bez nadzoru, aby poznać rozmieszczenie sekwencji DNA i zrozumieć, w jaki sposób kodowane są geny i jak regiony niekodujące pełnią funkcje regulacyjne w ekspresji genów. Model ten wyjątkowo radzi sobie z kilkoma trudnymi zadaniami genomicznymi, takimi jak zadania klasyfikacji gatunków dalekiego zasięgu. Co więcej, osiąga najnowocześniejsze wyniki na 12 z 17 zestawów danych w porównaniu z Transformatorem Nukleotydowym, wykorzystując modele o znacznie mniejszej liczbie parametrów i danych przedtreningowych.

? Sprawdź narzędzia sztucznej inteligencji firmy 100 w naszym klubie narzędzi sztucznej inteligencji

Jak wspomniano wcześniej, podczas wstępnego szkolenia HyenaDNA osiąga imponującą długość kontekstu do 1 miliona tokenów, umożliwiając modelowi skuteczne uchwycenie zależności dalekiego zasięgu w sekwencjach genomowych. Co więcej, możliwości modelu są dodatkowo zwiększane przez wykorzystanie rozdzielczości pojedynczych nukleotydów i tokenizacji z globalnym kontekstem dostępnym w każdej warstwie. Aby rozwiązać problem niestabilności treningu i jeszcze bardziej przyspieszyć proces, naukowcy przemyślnie wprowadzili również harmonogram rozgrzewki długości sekwencji, co skutkowało 40-procentową redukcją czasu szkolenia zadań związanych z klasyfikacją gatunków. Kolejną istotną zaletą HyenaDNA jest efektywność parametrów. Naukowcy dokonują również przełomowej obserwacji dotyczącej związku między rozmiarem modelu a jakością, wskazując, że przy dłuższych sekwencjach i mniejszym słownictwie HyenaDNA wykazuje lepszą wydajność pomimo znacznie zmniejszonego rozmiaru w porównaniu z poprzednimi genomowymi FM.

Warto przeczytać!  Leki genetyczne Biotech Dyne zbiera 345 mln dolarów na badania kliniczne leków na mięśnie

Naukowcy ocenili wydajność HyenaDNA w kilku dalszych zadaniach. W zbiorze danych GenomicBenchmarks wstępnie wytrenowane modele osiągnęły najnowocześniejszą wydajność (SOTA) we wszystkich ośmiu zestawach danych, znacznie przewyższając poprzednie podejścia. Dodatkowo, w testach porównawczych z Nucleotide Transformer, HyenaDNA uzyskała wyniki SOTA na 12 z 17 zestawów danych przy znacznie mniejszej liczbie parametrów i mniejszej ilości danych przedtreningowych. Aby zbadać potencjał uczenia się w kontekście (ICL) w genomice, naukowcy przeprowadzili także serię eksperymentów. Wprowadzili koncepcję miękkich tokenów monitów, dzięki czemu dane wejściowe kierowały danymi wyjściowymi zamrożonego, wstępnie wytrenowanego modelu HyenaDNA bez konieczności aktualizowania wag modeli lub podłączania głowicy dekodera. Zwiększenie liczby miękkich tokenów podpowiedzi znacznie poprawiło dokładność zestawów danych GenomicBenchmarks. Model wykazał się również niezwykłą wydajnością w zadaniach o bardzo dużym zasięgu. HyenaDNA skutecznie konkurował z BigBird, rzadkim modelem transformatora SOTA, w trudnym zadaniu dotyczącym profilu chromatyny. Co więcej, w zadaniu klasyfikacji gatunków o bardzo dużym zasięgu model udowodnił swoją skuteczność, osiągając pomyślne wyniki, gdy długość kontekstu została zwiększona do 450 K i 1 M tokenów.

Wyniki te podkreślają niezwykłe możliwości HyenaDNA w radzeniu sobie ze złożonymi zadaniami genomicznymi i jego potencjał w zakresie rozwiązywania zależności dalekiego zasięgu i różnicowania gatunków. Przewidują, że postęp ten będzie miał kluczowe znaczenie dla napędzania wspomaganego sztuczną inteligencją odkrywania leków i innowacji terapeutycznych. Co więcej, ma potencjał, aby umożliwić genomicznym modelom podstawowym naukę i analizę kompletnych genomów pacjentów w spersonalizowany sposób, jeszcze bardziej poprawiając zrozumienie i zastosowanie genomiki.

Warto przeczytać!  Departament Zdrowia dzieli się wczesnymi wynikami genetycznych testów na raka w południowym Illinois | Aktualności

Sprawdź Papier I Blog. Nie zapomnij dołączyć nasz SubReddit o ponad 25 000 ML, Kanał DiscordaI Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres Asif@marktechpost.com

? Sprawdź narzędzia AI 100 w AI Tools Club

Khushboo Gupta jest stażystą konsultantem w MarktechPost. Obecnie kontynuuje naukę na B.Tech w Indyjskim Instytucie Technologii (IIT) w Goa. Pasjonuje się dziedzinami uczenia maszynowego, przetwarzania języka naturalnego i tworzenia stron internetowych. Lubi uczyć się więcej o dziedzinie technicznej, biorąc udział w kilku wyzwaniach.

? StoryBird.ai właśnie upuścił kilka niesamowitych funkcji. Wygeneruj ilustrowaną historię z monitu. Sprawdź to tutaj. (sponsorowane)


Źródło