Zdrowie

Nowa technika obliczeniowa może ułatwić projektowanie użytecznych białek | Wiadomości MIT

  • 3 kwietnia, 2024
  • 7 min read
Nowa technika obliczeniowa może ułatwić projektowanie użytecznych białek |  Wiadomości MIT


Konstruując białka o przydatnych funkcjach, badacze zwykle zaczynają od naturalnego białka, które ma pożądaną funkcję, taką jak emitowanie światła fluorescencyjnego, i poddają je wielu rundom losowych mutacji, które ostatecznie generują zoptymalizowaną wersję białka.

W procesie tym uzyskano zoptymalizowane wersje wielu ważnych białek, w tym białka zielonej fluorescencji (GFP). Jednakże w przypadku innych białek wygenerowanie zoptymalizowanej wersji okazało się trudne. Naukowcy z MIT opracowali obecnie podejście obliczeniowe, które ułatwia przewidywanie mutacji prowadzących do powstania lepszych białek na podstawie stosunkowo niewielkiej ilości danych.

Korzystając z tego modelu, badacze wygenerowali białka z mutacjami, które, jak przewidywano, doprowadzą do ulepszonych wersji GFP oraz białko wirusa związanego z adenowirusem (AAV), które jest wykorzystywane do dostarczania DNA do terapii genowej. Mają nadzieję, że można go również wykorzystać do opracowania dodatkowych narzędzi do badań neurologicznych i zastosowań medycznych.

„Projektowanie białek to trudny problem, ponieważ mapowanie sekwencji DNA na strukturę i funkcję białka jest naprawdę złożone. W sekwencji mogą występować duże zmiany białka oddalone o 10, ale każda zmiana pośrednia może odpowiadać całkowicie niefunkcjonalnemu białku. To jakby próbować znaleźć drogę do dorzecza w paśmie górskim, gdy po drodze stoją skaliste szczyty, które zasłaniają widok. Obecne prace mają na celu ułatwienie znalezienia koryta rzeki” – mówi Ila Fiete, profesor nauk o mózgu i naukach kognitywnych w MIT, członek McGovern Institute for Brain Research na MIT, dyrektor Integrative Computational Neuroscience Center im. K. Lisy Yang oraz jeden z głównych autorów badania.

Regina Barzilay, wybitny profesor sztucznej inteligencji i zdrowia na MIT w School of Engineering oraz Tommi Jaakkola, profesor inżynierii elektrycznej i informatyki na MIT Thomasa Siebela, są także starszymi autorami ogólnodostępnego artykułu na temat tej pracy, który zostanie opublikowany zaprezentowane na Międzynarodowej Konferencji na temat reprezentacji uczenia się w maju. Głównymi autorami badania są absolwenci MIT Andrew Kirjner i Jason Yim. Inni autorzy to Shahar Bracha, postdoc z MIT i Raman Samusevich, absolwent Politechniki Czeskiej.

Warto przeczytać!  Trener odchudzania ujawnia 5 nawyków fitness, które wyrządzają więcej szkody niż pożytku

Optymalizacja białek

Wiele naturalnie występujących białek ma funkcje, dzięki którym mogą być przydatne w badaniach lub zastosowaniach medycznych, ale do ich optymalizacji potrzebne są dodatkowe prace inżynieryjne. W tym badaniu naukowcy byli pierwotnie zainteresowani opracowaniem białek, które można by wykorzystać w żywych komórkach jako wskaźniki napięcia. Białka te, wytwarzane przez niektóre bakterie i glony, emitują światło fluorescencyjne po wykryciu potencjału elektrycznego. Jeśli białka takie zostaną zaprojektowane do stosowania w komórkach ssaków, umożliwią naukowcom pomiar aktywności neuronów bez użycia elektrod.

Chociaż dziesięciolecia badań trwały nad inżynierią tych białek w celu wytworzenia silniejszego sygnału fluorescencyjnego w krótszym czasie, nie stały się one wystarczająco skuteczne, aby można je było powszechnie stosować. Bracha, który pracuje w laboratorium Edwarda Boydena w Instytucie McGovern, skontaktował się z laboratorium Fiete, aby sprawdzić, czy mogliby wspólnie opracować podejście obliczeniowe, które mogłoby przyspieszyć proces optymalizacji białek.

„Ta praca stanowi przykład ludzkiego zbiegu okoliczności, który charakteryzuje tak wiele odkryć naukowych” – mówi Fiete. „Wyrosło z rekolekcji Yang Tan Collective, naukowego spotkania badaczy z wielu ośrodków MIT, których misje były połączone wspólnym wsparciem K. Lisy Yang. Dowiedzieliśmy się, że niektóre z naszych zainteresowań i narzędzi modelowania sposobu uczenia się i optymalizacji mózgu można zastosować w zupełnie innej dziedzinie projektowania białek, jak to jest praktykowane w laboratorium Boydena”.

Dla każdego białka, które badacze mogą chcieć zoptymalizować, istnieje niemal nieskończona liczba możliwych sekwencji, które można wygenerować poprzez zamianę różnych aminokwasów w każdym punkcie sekwencji. Przy tak dużej liczbie możliwych wariantów niemożliwe jest przetestowanie ich wszystkich eksperymentalnie, dlatego badacze zwrócili się do modelowania obliczeniowego, aby spróbować przewidzieć, które z nich będą działać najlepiej.

Warto przeczytać!  Dzieci chore na anemię sierpowatokrwinkową doświadczają ciężkiej infekcji COVID-19

W tym badaniu naukowcy postanowili pokonać te wyzwania, wykorzystując dane z GFP do opracowania i przetestowania modelu obliczeniowego, który mógłby przewidzieć lepsze wersje białka.

Zaczęli od wytrenowania modelu znanego jako splotowa sieć neuronowa (CNN) na danych eksperymentalnych składających się z sekwencji GFP i ich jasności — czyli cechy, którą chcieli zoptymalizować.

Model był w stanie stworzyć „krajobraz fitness” — trójwymiarową mapę przedstawiającą przydatność danego białka oraz to, jak bardzo różni się ono od sekwencji pierwotnej — w oparciu o stosunkowo niewielką ilość danych eksperymentalnych (z około 1000 wariantów GFP).

Krajobrazy te zawierają szczyty reprezentujące białka lepiej przystosowane i doliny reprezentujące białka mniej sprawne. Przewidywanie ścieżki, jaką musi podążać białko, aby osiągnąć szczyt sprawności, może być trudne, ponieważ często białko będzie musiało przejść mutację, która powoduje, że jest mniej sprawne, zanim osiągnie pobliski szczyt wyższej sprawności. Aby przezwyciężyć ten problem, badacze wykorzystali istniejącą technikę obliczeniową w celu „wygładzenia” krajobrazu fitness.

Po wygładzeniu tych niewielkich nierówności w krajobrazie naukowcy przekwalifikowali model CNN i odkryli, że łatwiej jest mu osiągać większe szczyty sprawności. Model był w stanie przewidzieć zoptymalizowane sekwencje GFP, które zawierały aż siedem różnych aminokwasów w stosunku do sekwencji białka, od której rozpoczęły się, a oszacowano, że najlepsze z tych białek są około 2,5 razy sprawniejsze niż oryginał.

„Kiedy już mamy krajobraz reprezentujący to, co według modelu znajduje się w pobliżu, wygładzamy go, a następnie ponownie szkolimy model na gładszej wersji krajobrazu” – mówi Kirjner. „Teraz istnieje gładka ścieżka od punktu początkowego do szczytu, do którego model może teraz dotrzeć, iteracyjnie wprowadzając drobne ulepszenia. To samo jest często niemożliwe w przypadku niewygładzonych krajobrazów.

Warto przeczytać!  Sadhguru dzieli się 4 technikami usuwania flegmy; czy oni pracują? | Wiadomości zdrowotne

Dowód koncepcji

Naukowcy wykazali również, że podejście to sprawdziło się w identyfikowaniu nowych sekwencji wirusowego kapsydu wirusa towarzyszącego adenowirusowi (AAV), wektora wirusowego powszechnie stosowanego do dostarczania DNA. W tym przypadku zoptymalizowali kapsyd pod kątem jego zdolności do pakowania ładunku DNA.

„Wykorzystaliśmy GFP i AAV jako dowód słuszności koncepcji, aby pokazać, że jest to metoda, która działa na bardzo dobrze scharakteryzowanych zbiorach danych i z tego powodu powinna mieć zastosowanie do innych problemów związanych z inżynierią białek” – mówi Bracha .

Naukowcy planują teraz zastosować tę technikę obliczeniową na danych generowanych przez Bracha na temat białek wskaźnikowych napięcia.

„Dziesiątki laboratoriów pracowało nad tym od dwudziestu lat, a mimo to nie ma nic lepszego” – mówi. „Mamy nadzieję, że teraz, dzięki wygenerowaniu mniejszego zestawu danych, będziemy mogli wytrenować model in silico i dokonać prognoz, które będą lepsze niż ręczne testy prowadzone przez ostatnie dwie dekady”.

Badania zostały częściowo sfinansowane przez amerykańską Narodową Fundację Naukową, konsorcjum Machine Learning for Pharmaceutical Discovery and Synthesis, Klinikę uczenia maszynowego Abdula Latifa Jameela w dziedzinie zdrowia, program DTRA Discovery of Medical Countermeasures Against New and Emerging zagrożeniom, Program DARPA Accelerated Molecular Discovery, grant Sanofi Computational Antibody Design, Amerykańskie Biuro Badań Marynarki Wojennej, Instytut Medyczny Howarda Hughesa, Narodowe Instytuty Zdrowia, Centrum ICoN im. K. Lisy Yang oraz Instytut K. Lisy Yang i Hock E. Tan Centrum Terapii Molekularnej na MIT.


Źródło