Przełomowa mapa „Gnocchi” odkrywa ukryte tajemnice ludzkiego genomu
![Przełomowa mapa „Gnocchi” odkrywa ukryte tajemnice ludzkiego genomu](https://oen.pl/wp-content/uploads/2023/12/Przelomowa-mapa-„Gnocchi-odkrywa-ukryte-tajemnice-ludzkiego-genomu-770x470.jpg)
W niedawnym badaniu opublikowanym w Naturabadacze ze Stanów Zjednoczonych zgromadzili i przetworzyli 76 156 ludzkich genomów w celu skonstruowania mapy ograniczeń genomowych o nazwie „genomowe niekodujące ograniczenie zmienności haploinsuficient” (Gnocchi) dla całego genomu. Odkryli, że niekodujące ograniczone regiony genomu są bogate w znane elementy regulacyjne i warianty powiązane z ludzkimi cechami i chorobami. Mapa może być pomocna w lepszym zrozumieniu funkcjonalnej zmienności genetycznej ludzkiego genomu.
Badanie: Genomowa mapa ograniczeń mutacyjnych wykorzystująca zmienność 76 156 ludzkich genomów. Źródło obrazu: Gio.tto / Shutterstock
Tło
Postępy w sekwencjonowaniu ludzkiego genomu zapewniają wgląd we wzorce zmienności genów, umożliwiając bezpośrednią ocenę selekcji negatywnej pod kątem zmienności zmiany sensu i utraty funkcji (LOF) poprzez modelowanie ograniczeń. W tym przypadku ograniczenie definiuje się jako zmniejszenie zmienności genu w stosunku do oczekiwań opartych na zmienności genu. Poprzednie wysiłki skupiały się na kodowaniu regionów reprezentujących mniej niż 2% genomu. W rezultacie rozległy, niekodujący genom pozostaje mniej zbadany pomimo jego uznanego znaczenia w złożonych chorobach człowieka. Zastosowanie modelu ograniczeń genowych do regionów niekodujących wiąże się z wyzwaniami ze względu na ograniczone dane dotyczące całego genomu, brak modeli specyficznych dla nukleotydów, nadreprezentację regionów kodujących w analizach mutacji oraz złożony, heterogeniczny współczynnik mutacji, na który wpływa lokalna genomika na większą skalę cechy.
Obecne metody oceny ograniczeń regionu niekodującego obejmują zależne od kontekstu modele mutacyjne, klasyfikatory uczenia maszynowego i wyniki ochrony filogenetycznej. Mają jednak ograniczenia — przeoczenie regionalnych cech genomicznych, zależność od dobrze scharakteryzowanych mutacji i zmniejszoną moc wykrywania niedawno wybranych regionów z funkcjonalnym wpływem na choroby lub cechy specyficzne dla człowieka. Wychodząc naprzeciw tej potrzebie, badacze biorący udział w niniejszym badaniu opracowali mapę ograniczeń obejmującą cały genom, aby zidentyfikować funkcjonalne elementy genomu (szczególnie w przestrzeni niekodującej), które prawdopodobnie kumulują zmienność i mają potencjalne implikacje kliniczne. Mapa oferuje również wgląd w wpływ doboru naturalnego na zmienność genetyczną człowieka.
O badaniu
W niniejszym badaniu zagregowano i ponownie przetworzono 153 030 całych genomów z bazy danych agregacji genomu (gnomAD) i dostosowano je do kompilacji referencyjnej ludzkiego genomu GRCh38. Ostatecznie pobrano 76 156 wysokiej jakości próbek od zdrowych, niespokrewnionych osób o zróżnicowanych przodkach. W badaniu zidentyfikowano i wykorzystano 390 393 900 wysokiej jakości wariantów pojedynczych nukleotydów o niskiej częstotliwości do skonstruowania mapy ograniczeń obejmującej cały genom. Genom podzielono na ciągłe, niezachodzące na siebie okna o wielkości 1 kb. Ograniczenie określono ilościowo dla każdego okna poprzez porównanie zaobserwowanej i oczekiwanej zmienności. Zastosowano udoskonalony model mutacji, który łączył kontekst sekwencji trójnukleotydowej, regionalne cechy genomowe i metylację na poziomie podstawowym, aby przewidzieć oczekiwane poziomy zmienności w warunkach neutralności. Odchylenie pomiędzy oczekiwaną a zaobserwowaną zmiennością określono ilościowo za pomocą „wyniku Gnocchi”. W celu walidacji określono korelację pomiędzy metryką Gnocchiego i różnymi adnotacjami funkcjonalnych sekwencji niekodujących. Zdolność wyniku Gnocchi do ustalania priorytetów wariantów niekodujących porównano z innymi metrykami opartymi na genetyce populacji, w tym Orionem, CDTS (skrót od kontekstowego wyniku tolerancji), gwRVIS (skrót od wyniku nietolerancji zmienności resztkowej całego genomu) i stopień uszczuplenia poprzez pomiar pola pod statystyką krzywej. Ponadto przeanalizowano ograniczenia dotyczące wzmacniaczy powiązanych z określonymi genami.
Wyniki i dyskusja
Stwierdzono, że wynik Gnocchi jest bliski zeru dla regionów niekodujących i znacznie wyższy dla okien zawierających sekwencje kodujące. Około 3,12% i 0,05% okien niekodujących wykazało ograniczenie tak silne, jak 50t i 90t odpowiednio percentyl regionów egzonicznych. Stwierdzono istotną dodatnią korelację między ograniczeniami i funkcjonalnymi adnotacjami niekodującymi, co pokazuje użyteczność wyniku Gnocchi w charakteryzowaniu regionów niekodujących i zapewnianiu dodatkowych spostrzeżeń. Stwierdzono, że wynik Gnocchi dobrze radzi sobie z innymi metrykami niekodującymi, skutecznie identyfikując warianty funkcjonalne w niekodującym genomie. Naukowcy sugerują jednak, że do ustalenia priorytetów zmienności funkcjonalnej idealna byłaby kombinacja wskaźników. Stwierdzono również, że metryka Gnocchiego jest przydatna w ustalaniu priorytetów wariantów liczby kopii (CNV), pomagając w interpretacji niekodujących czynników ryzyka w badaniach łączących CNV z chorobami. Jak wynika z badania, wzmacniacze powiązane z genami podlegającymi ograniczeniom okazały się znacznie bardziej ograniczone niż te powiązane z genami, które prawdopodobnie były mniej ograniczone. Ponadto badanie podkreśla wartość ograniczeń niekodujących jako miernika uzupełniającego ograniczenia genowe w celu identyfikacji genów ważnych funkcjonalnie.
Chociaż biologiczny wpływ mutacji we wzmacniaczach jest mniej poznany, badacze sugerują, że istnieje potencjał rozszerzonego modelu, który umożliwiłby uzyskanie wiedzy biologicznej na temat zmienności niekodującej i molekularnych mechanizmów selekcji. Chociaż w badaniu do analizy ograniczeń niekodujących wykorzystano jeden z najobszerniejszych zbiorów danych dotyczących ludzkich genomów, moc i rozdzielczość tego podejścia mogą znacząco wzrosnąć wraz ze wzrostem wielkości próbki.
Wniosek
Podsumowując, niniejsze badanie podkreśla znaczenie mapy ograniczeń obejmującej cały genom w analizie regionów niekodujących i genów kodujących białka. Oznacza to istotny postęp w opracowaniu kompleksowego katalogu elementów funkcjonalnych ludzkiego genomu, stanowiący zachętę do dalszych badań w tej dziedzinie.