Wraz z nowym dyrektorem ds. nauki o danych firma Jackson Lab przygląda się nadrzędnej strategii
CHICAGO – Po spędzeniu pół dekady i prawie 10 milionach dolarów na uaktualnić i ponownie skonfigurować przechowywanie danychJackson Laboratory podejmuje nowy wysiłek w celu opracowania strategii zarządzania wszystkimi działaniami związanymi z nauką o danych.
Aby poprowadzić tę inicjatywę, Jackson Laboratory, czyli Jax, zatrudnił Paula Flicka jako pierwszego w historii dyrektora ds. nauki o danych. Flicek dołączy do Jax w lipcu, aby tworzyć i realizować strategię nauki o danych w całej organizacji, a także prowadzić i zarządzać relacjami z partnerami Jax w zakresie danych i analiz.
Bioinformatyka nie jest tam nowa, ale została chaotyczna. Jax z siedzibą w Bar Harbor w stanie Maine istnieje od 1929 r., ale otwarcie w 2014 r. Jackson Laboratory for Genomic Medicine na kampusie University of Connecticut Health Center przyspieszyło produkcję danych.
Bar Harbor historycznie koncentrował się na modelach myszy, w tym na genetyce. Lokalizacja w Farmington w stanie Connecticut jest poświęcona genetyce człowieka.
„Ambicje tutaj są większe niż to, co mogą zrobić dwa ośrodki w Jackson Laboratory” – powiedział Flicek. „Chodzi o tworzenie powiązań między modelami ssaków a danymi, które istnieją dla tych i [for] choroby ludzkie i inne aspekty translacyjne”.
Flicek był ostatnio zastępcą dyrektora Europejskiego Instytutu Bioinformatyki Europejskiego Laboratorium Biologii Molekularnej (EMBL-EBI), organizacji, z którą jest powiązany. Jest znany z kierowania rozwojem przeglądarki genomu Ensembl, a także z zaangażowania w projekty, w tym Encyklopedia elementów DNA (ENCODE), projekt 1000 genomów oraz międzynarodowe konsorcjum ludzkiego epigenomu.
„Z naukowego punktu widzenia jest to dla mnie naprawdę dobre rozwiązanie” – powiedział Flicek o nowej pracy. „Pracowałem z danymi na dużą skalę i prowadziłem badania nad wzajemnymi powiązaniami między gatunkami, aby pomóc nam dowiedzieć się, jak funkcjonuje biologia w zasadzie przez całą moją karierę. To naprawdę dobry sposób na połączenie wszystkiego”.
Flicek w swojej karierze pracował z wieloma gatunkami, w tym z myszami, a genomiką zajmuje się od przełomu wieków. W ostatnich latach widział, jak dane o dużej przepustowości stały się centralnym aspektem całej biologii, w tym genomiki, więc posiadanie strategii danych na dużą skalę jest teraz koniecznością.
„Myślę, że to właściwy czas, aby Jax dokonał tej inwestycji” – powiedział.
Materiał prasowy Jaxa na temat zatrudnienia Flicka odnosił się zarówno do „globalnej inicjatywy nauki o danych”, jak i „kompleksowej strategii nauki o danych”. Flicek powiedział, że jednym z jego pierwszych zadań będzie współpraca z innymi liderami Jax w celu opracowania „nadrzędnej strategii, do której pasują różne inicjatywy”.
Powiedział, że w toku jest kilka projektów pilotażowych, które chciałby przekształcić w inicjatywy na pełną skalę, gdy rozpocznie się praca. Flicek powiedział, że jest za wcześnie, aby omawiać szczegóły, chociaż przedstawił kilka ogólnych celów.
„Chodzi o wykorzystanie danych zebranych przez mysz Jax, które są naprawdę wyjątkowe na świecie, i uczynienie ich jak najbardziej połączonymi i zintegrowanymi z odpowiednimi danymi ludzkimi, aby ułatwić badania translacyjne” – powiedział Flicek. „Chcemy, aby analityka danych w Jax umożliwiła i przyspieszyła odkrycia biologiczne dla naukowców”.
Kiedy Flicek przybywa do Jax w połowie roku, chce najpierw zbadać tamtejszy krajobraz bioinformatyczny i określić, w jaki sposób program nauki o danych, którym będzie kierował, może lepiej rozpowszechniać wiedzę wśród społeczności naukowej.
Flicek powiedział, że praca „daje [me] okazja do zbudowania rzeczy od samego początku… i ma potencjał wywarcia wpływu na dużą skalę” na badania genomiczne.
„Oczywistym sposobem na to jest uczynienie danych myszy tak dostępnymi i spójnymi, jak to tylko możliwe, oraz zintegrowanie ich z danymi ludzkimi, aby umożliwić ludziom zadawanie pytań” na temat danych, powiedział Flicek.
Flicek widzi podobieństwa między EMBL-EBI i Jax w tym, że oba opracowały publicznie dostępne narzędzia informatyczne. Jax jest szczególnie znany Informatyka genomu myszy (MGI).
Obie instytucje prowadzą również to, co Flicek nazwał „badaniami eksploracji kosmosu” w bioinformatyce, prace eksperymentalne, które mogą, ale nie muszą, znaleźć się w publicznym oprogramowaniu i narzędziach baz danych. „Ta wymiana między informatyką opartą na usługach a informatyką badawczą jest czymś, co moim zdaniem jest również podobne” – powiedział.
Jednak Flicek będzie odpowiedzialny za szerszy zakres danych w Jax niż w EMBL-EBI, w tym za obrazowanie i powiązane metadane. „Nowe technologie będą również wprowadzać nowe typy danych” – powiedział. „To dziedzina, której nie mogę się doczekać”.
Flicek zachwycał się możliwościami pojawiającymi się wraz ze spadkiem kosztów sekwencjonowania całego genomu. „Wysoce dokładne sekwencje całego genomu z prawie każdego gatunku przy niskich kosztach są niezwykle ekscytujące i pozwalają jednocześnie na sekwencjonowanie setek tysięcy lub milionów ludzi, ale także innych gatunków” – powiedział.
Flicek powiedział również, że jest podekscytowany możliwościami wprowadzania innowacji w zakresie uczenia maszynowego i sztucznej inteligencji w bioinformatyce. Nazwał oprogramowanie do przewidywania struktury białek AlphaFold 2 firmy DeepMind Technologies powiązanej z Google jako przykład tego, jak sztuczna inteligencja służy obecnie badaniom translacyjnym.
Wyraził frustrację z powodu wyzwań związanych z integracją pracy naukowców zajmujących się obliczeniami i eksperymentami. „Musi istnieć komunikacja, ponieważ więcej informatyków potencjalnie wchodzi do biologii z niestandardowego lub niebiologicznego szkolenia podstawowego”, takiego jak fizyka i matematyka, według Flicek.
Standardy danych są ważne dla każdego programu interoperacyjności i tak jest często bardzo brakuje w bioinformatyce. „Standardy danych są kluczowymi aspektami odtwarzalności w biologii i ogólnych spostrzeżeń” – powiedział Flicek.
Ale Flick był optymistą, że można znaleźć konsensus.
Pracował już z Jaxem, ponieważ zarówno amerykańskie laboratorium, jak i EMBL-EBI są członkami Międzynarodowego Konsorcjum Fenotypowania Myszy. Jax zarządza również szeroko stosowaną Ontologią Fenotypu Człowieka, ponieważ współtwórca Peter Robinson jest teraz wykładowcą na kampusie Farmington.
Zarówno EMBL-EBI, jak i Jax wyznają zasady FAIR, zgodnie z którymi dane powinny być możliwe do znalezienia, dostępne, interoperacyjne i nadające się do ponownego wykorzystania. Obie instytucje są również zaangażowane w Global Alliance for Genomics and Health (GA4GH), koalicję, która oferuje plan, ponieważ lubi rozpoczynać „projekty napędowe” w celu testowania i zatwierdzania standardów.
Flicek powiedział, że możliwe jest, że Jax prowadzi projekty „podobne do sterowników” dla nowych standardów, które wspierają misję organizacji.
„Efektywne wykorzystywanie danych to rodzaj daru, który wciąż daje” – powiedział. „Często używane zestawy danych mogą być niezwykle cenne dla społeczności w sposób, który czasami jest zaskakujący dla ludzi, którzy je pierwotnie wygenerowali”.