Przełom w uczeniu ze wzmocnieniem. Polacy współautorami rewolucyjnego modelu CRL

Zaledwie kilka warstw neuronowych wystarczało, by modele uczenia ze wzmocnieniem (RL) uczyły się chodzić, wygrywać w Go i szukać leków. A jednak przez lata nie udawało się ich pogłębić. Teraz zespół z Princeton i Politechniki Warszawskiej przełamał ten impas, podnosząc poprzeczkę z kilku do ponad tysiąca warstw — i to bez kosztów energetycznych.

W gronie autorów nagrodzonej na prestiżowej konferencji NeurIPS pracy znalazło się dwóch Polaków: Michał Bortkiewicz i prof. Tomasz Trzciński, współtwórcy metody CRL (Contrastive Reinforcement Learning), która może odmienić przyszłość systemów opartych na RL.

Zwiększanie głębokości? Już nie problem

Dotąd próby pogłębiania sieci RL kończyły się fiaskiem — więcej warstw oznaczało zaburzenia procesu uczenia. Nowa metoda pozwala zwiększyć liczbę warstw do 1024, tworząc z „minimózgu” pełnoprawny „makromózg”. Efekt? Modele nie tylko szybciej uczą się poruszać, ale wręcz odkrywają nieoczywiste strategie — jak skakanie nad ścianą labiryntu, by skrócić drogę do nagrody.

Kluczem okazało się połączenie RL z elementami samonadzorowanego uczenia (SSL). Zamiast klasycznego schematu bodziec–reakcja, model uczy się rozumieć strukturę danych, zanim rozpocznie naukę właściwego zadania. To podejście — choć proste w założeniu — daje efekt, który prof. Trzciński określił jako przełomowy.

Polska nauka na światowej scenie

CRL pokazuje, że także w Polsce można współtworzyć fundamentalne zmiany w światowej nauce. Zastosowania nowych modeli obejmują nie tylko gry i symulacje, ale też projektowanie leków czy personalizację terapii. Prof. Trzciński nie kryje ambicji: chciałby, aby CRL doprowadziło do powstania systemów AI, które same będą się udoskonalać i proponować nowe kierunki badań.

Choć wszystko zaczęło się od ludzika uczącego się chodzić, dziś wnioski z jego kroków mogą poprowadzić naukę dużo dalej — poza granice algorytmu i wyobraźni.