Nauka i technika

Od 24 godzin do 7 minut, Huawei OceanStor Pacific przyspiesza sekwencjonowanie genomu — analiza wiadomości o obliczeniach o wysokiej wydajności

  • 19 maja, 2023
  • 4 min read
Od 24 godzin do 7 minut, Huawei OceanStor Pacific przyspiesza sekwencjonowanie genomu — analiza wiadomości o obliczeniach o wysokiej wydajności


Wyzwania i wymagania

International Supercomputing Conference (ISC) to coroczna konferencja prezentująca kluczowe technologie w dziedzinie superkomputerów. Skupia ekspertów z wielu specjalistycznych dziedzin, w tym badań z zakresu nauk przyrodniczych i genetyki, aby rzucić światło na pochodzenie i tajemnice naszego życia. HPC, czyli obliczenia o wysokiej wydajności, dokonuje przełomów w technologiach superkomputerowych i katalizuje badania nad sekwencjonowaniem genomu.

Szybki rozwój technologii superkomputerowych powoduje wzrost liczby odkrywanych sekwencji genomu, co stawia nowe wyzwania. Intensywne przetwarzanie danych i obliczenia równoległe są niezbędne do procesów wyszukiwania homologii, dopasowywania i wykrywania mutacji, co stawia surowe wymagania dotyczące infrastruktury danych platformy analizy danych genomicznych.

Sekwencjonowanie genomu to proces analizy i określenia pełnej sekwencji genów z krwi lub śliny. Jego główne fazy obejmują ekstrakcję, analizę i interpretację. W szczególności faza analizy obejmuje konwersję formatu pliku, dekompresję, składanie genów, dopasowanie, sekwencjonowanie, deduplikację, wykrywanie mutacji i wspólne genotypowanie. Jej zależność od wydajności systemu analizy bioinformatycznej sprawia, że ​​koncentruje się ona głównie na rozwiązaniach HPC (ang. High-Performance Computing) do sekwencjonowania genomu.

Technologie sekwencjonowania całego genomu drugiej generacji (WGS) są powszechnie stosowane w połączeniu z zestawem narzędzi do analizy genomu (GATK) do analizy bioinformatycznej. Wymagane są dostosowania w oparciu o różne usługi, takie jak dodanie procesów kontroli jakości i filtrowania wykrywanie mutacji. Narzędzie Burrows-Wheeler Alignment (BWA) jest wykorzystywane do budowania indeksów i przeprowadzania dopasowania sekwencji, Samtools służy do sortowania dopasowania, a GATK służy do usuwania zduplikowanych sekwencji, ponownej kalibracji podstawowych ocen jakości i wykrywania mutacji.

Warto przeczytać!  Zidentyfikowano nowe powiązania między IBD i EIM

Wspólne innowacje w celu rozwiązania problemów branżowych

Ponieważ sekwencjonowanie genomu stawia wysokie wymagania w stosunku do infrastruktury danych, rozwiązania HPC muszą zapewniać wysoką moc obliczeniową i wydajną pamięć masową do obsługi danych masowych. W tym celu West China Hospital (WCH) wykorzystał przewagę konkurencyjną Sailegene i Huawei, aby rozwiązać te problemy.

WCH jest wiodącym organem zajmującym się analizą danych multi-omicznych i zastosowaniem genomu. Wykorzystuje wysokowydajne algorytmy oprogramowania do analizowania bieżących danych, identyfikowania wąskich gardeł wydajności, projektowania architektury najwyższego poziomu i budowania platformy analizy przyspieszenia dla danych multiomicznych. Sailegene wykorzystuje swoje wieloletnie doświadczenie w akcelerowanej przez GPU analizie danych bioinformacyjnych oraz heterogenicznych obliczeniach równoległych GPU/CPU, aby przyspieszyć analizę danych genetycznych.

Skalowalna pamięć masowa Huawei OceanStor Pacific obsługuje zaawansowane systemy zarządzania danymi genetycznymi, tworząc podstawę pamięci masowej o wysokiej wydajności. Jego kluczowe cechy i technologie są następujące:

  1. Wysoka wydajność: przepustowość pojedynczego wątku klientów prywatnych wynosi 6 GB/s. BWA implementuje szybki odczyt i liniowy wzrost zagregowanej przepustowości.
  2. Obciążenie hybrydowe: obsługiwane są różne modele we/wy HPC.
  3. Elastyczna rozbudowa: system można rozbudować, aby sprostać wymaganiom platformy badawczej genomu w skali EB.
Warto przeczytać!  Spożycie białka w czasie ciąży wpływa na rysy twarzy potomstwa

Dzięki ultrawysokiej przepustowości zapisu jednowątkowego, Huawei OceanStor Pacific może ładować dane masowe do pamięci i przetwarzać je podczas dopasowywania sekwencji. W porównaniu ze starszą pamięcią masową szpitala, OceanStor Pacific oferuje dwukrotnie większą przepustowość jednowątkowego odczytu i czterokrotnie większą przepustowość jednowątkowego zapisu. Dzięki zaledwie czterem węzłom zapewnia łączną przepustowość 30 GB/s przy odczycie i 25 GB/s przy zapisie, znacznie zwiększając wydajność wspólnej platformy innowacji multi-omics. Huawei OceanStor Pacific dalej analizuje przepływy usług i strumienie we/wy w różnych omikach na podstawie danych testowych w celu optymalizacji przetwarzania usług.

Od 24 godzin do 7 minut — nowy punkt odniesienia dla sekwencjonowania genomu

Trzy strony wprowadziły innowacje, aby stworzyć platformę do analizy akceleracji danych multi-omicznych, która obejmuje nowe architektury, obliczenia i pamięć masową. Skraca czas analizy 30-krotnej mutacji ludzkiej linii zarodkowej WGS do zaledwie 7 minut (z 24 godzin), spełniając szeroki zakres potrzeb medycyny precyzyjnej i dużych zbiorów danych w opiece zdrowotnej oraz stanowiąc znaczący przełom w badaniach medycznych. Huawei OceanStor Pacific ma doskonałą pozycję, aby wprowadzać innowacje w całej branży medycznej i pomagać organizacjom w ich podróży ku inteligentnej przyszłości.

Warto przeczytać!  Zmiany klimatyczne: ostatnie osiem lat było ośmioma najcieplejszymi w historii planety




Źródło