Uczenie maszynowe w badaniach biomolekuł

Kierownik zespołu: dr hab. Dominik Gront, prof. ucz.

Adres e-mail Kierownika: dgront@chem.uw.edu.pl

Krótki opis tematyki badawczej:

Pojedyncze cząsteczki biomakromolekuł mogą składać się z dziesiątków tysięcy atomów. Modelowanie ich struktury i dynamiki od zawsze było wyzwaniem, wymagającym opracowywania nowych algorytmów. W Pracowni Teorii Biopolimerów od lat rozwijano metody modelowania gruboziarnistego, które poprzez uproszczenie opisu cząsteczek pozwalały na przyspieszenie obliczeń i analizę dużych układów.

W ostatnich latach rozwój metod uczenia maszynowego zmienił podejście do modelowania biomolekuł. Choć techniki te były obecne w bioinformatyce już od lat 90., to dopiero niedawno ich skuteczność znacząco wzrosła. Nowoczesne algorytmy trenowania oraz nowe architektury sieci neuronowych pozwalają na przewidywanie struktur białek i analizę ich właściwości z dokładnością przekraczającą klasyczne metody chemii obliczeniowej.

Tematyka badawcza mojego zespołu koncentruje się aktualnie na dwóch projektach:

1) klasyfikacja enzymów z nadrodziny P450.

Efektem prac prowadzonych przez ostatnie kilka lat jest P450 Atlas (https://p450atlas.org/): portal zbierający informacje o znanych sekwencjach białek z tej nadrodziny. Zebrane dane umożliwiły opracowanie predyktora (algorytmu), który klasyfikuje zadaną sekwencję do jednej z ponad 10 000 znanych rodzin.

Narzędzie to zostało udostępnione jako usługa internetowa (web serwer). Jego popularność stale rośnie; w kwietniu P450Atlas sklasyfikował prawie 1000 sekwencji nadesłanych przez anonimowych użytkowników. Model ten jest obecnie wykorzystywany do przeszukiwania baz danych w celu zidentyfikowania kolejnych enzymów P450. Następnym krokiem będzie wykorzystanie tych danych do wytrenowania modelu językowego. Innym zadaniem badawczym, które zostanie podjęte w niedalekiej przyszłości, jest opracowanie modelu przewidującego funkcję (substrat i produkt) dla zadanej sekwencji aminokwasowej P450.

2) Metody maszynowe w modelowaniu struktur białek.

Od kilku lat opracowujemy metody maszynowe, wspomagające lub zastępujące narzędzia klasycznego modelowania molekularnego. Dla przykładu, jednym z takich zadań jest odtworzenie reprezentacji pełnoatomowej białka z jego reprezentacji gruboziarnistej. Problem ten poruszony został w dwóch publikacjach, opisujących modele maszynowe HECA oraz deepBBQ. Aktualnie prowadzone są prace nad modelem generatywnym (Generative AI), który będzie w stanie generować losowe łańcuchy polipeptydowe o konformacjach zbliżonych do białek naturalnych.