Filozofia inżynierska: Demis Hassabis, rozwiązać inteligencję, by rozwiązać wszystko

Demis Hassabis, współzałożyciel DeepMind i noblista z 2024 roku

Najważniejsze wnioski

Plan składał się z dwóch kroków: rozwiązać inteligencję, a potem użyć jej do rozwiązania wszystkiego innego. To zdanie – faktyczny założycielski manifest Hassabisa dla DeepMind – stanowi całą strategię. Zbudować ogólny system uczący się, a nie wąsko wyspecjalizowany, a następnie skierować go na najtrudniejsze problemy nauki. Brzmi to jak pycha, dopóki nie zobaczy się, jak realizuje to po kolei.¹⁷
Gry były poligonem doświadczalnym, a nie celem. AlphaGo pokonało Lee Sedola 4-1 w marcu 2016 roku – dekadę wcześniej, niż przewidywali eksperci – a w drugiej partii „Ruch 37”, zagranie, które człowiek wybrałby z prawdopodobieństwem mniej więcej jednego na dziesięć tysięcy, pokazało, że system tworzy, a nie naśladuje.⁵ Hassabis wybrał gry, ponieważ są zamknięte w sobie, mają jasne cele i stanowią idealne środowisko testowe dla uczenia przez wzmacnianie.⁷
Następnie skierował tę inteligencję na biologię i zdobył Nagrodę Nobla. AlphaFold2 rozwiązało liczący pół wieku problem przewidywania struktury białek podczas CASP14 w 2020 roku; baza danych AlphaFold zawiera dziś struktury około 200 milionów białek, z których korzysta ponad dwa miliony badaczy.⁸⁹ W 2024 roku Hassabis podzielił się Nagrodą Nobla w dziedzinie chemii z Johnem Jumperem (oraz Davidem Bakerem) – krok drugi zrealizowany.¹⁰¹¹
Od szachowego cudownego dziecka, przez projektanta gier i neuronaukowca, po założyciela firmy. Urodzony w Londynie w 1976 roku, w wieku trzynastu lat osiągnął mistrzowski poziom w szachach, w wieku siedemnastu lat był współprojektantem Theme Park, ukończył Cambridge z najwyższym wyróżnieniem, a następnie obronił doktorat z neuronauki poznawczej na UCL, badając pamięć i wyobraźnię – każdy rozdział zasilał kolejny.¹²³⁴

Zasada

„Krok pierwszy: rozwiązać inteligencję; krok drugi: użyć jej do rozwiązania wszystkiego innego.” – Demis Hassabis o założycielskim planie DeepMind⁷

Większość ambitnych technologii buduje się w odwrotnej kolejności. Wybiera się problem – wyszukiwanie, rekomendacje, wykrywanie oszustw – i buduje najwęższy, najbardziej niezawodny system, który rozwiązuje właśnie to. Ogólność traktuje się jak luksus, na który zasłuży się później, jeśli w ogóle. Hassabis odwrócił tę kolejność. Postawił na to, że właściwym pierwszym ruchem jest nie rozwiązanie jakiegoś konkretnego problemu, lecz rozwiązanie ogólnej zdolności do rozwiązywania problemów – zbudowanie systemu uczącego się, który potrafi opanować dziedziny, pod które nigdy nie był specjalnie projektowany – a dopiero potem skierowanie go na cele, które liczą się najbardziej.⁷

Dlatego kolejność w tym zdaniu jest nośna. „Rozwiązać inteligencję” pojawia się jako pierwsze nie dlatego, że zastosowania nie mają znaczenia, lecz dlatego, że – jego zdaniem – dostatecznie ogólna inteligencja to narzędzie o największej dźwigni, jakie można zbudować: rozwiąż je raz, a otrzymasz klucz otwierający wiele zamków, zamiast narzędzia dopasowanego do jednego. Sformułowanie może brzmieć górnolotnie i takie by było – gdyby później nie spędził piętnastu lat, krocząc oba te kroki po kolei, publicznie, i nie dotarł do Nagrody Nobla za ten drugi.¹⁰

Metoda kryjąca się pod tym hasłem ma dwa nietypowe składniki. Pierwszym jest neuronauka jako inspiracja: Hassabis studiował mózg właśnie po to, by wydobyć z niego pomysły algorytmiczne, wychodząc z założenia, że jedyną znaną nam ogólną inteligencję warto zrozumieć, zanim spróbuje się zbudować kolejną.⁷ Drugim są gry jako poligon doświadczalny: zamknięte w sobie światy z jasnymi funkcjami celu, w których system uczący się można trenować, mierzyć i doprowadzać do gry przewyższającej ludzką, zanim w ogóle powierzy mu się coś rzeczywistego.⁷ Gry, dalej ogólne uczenie się, a stamtąd odkrycia naukowe – oto cały łuk i zarazem zasada w jednym zdaniu: rozwiązać inteligencję, a potem użyć jej do rozwiązania wszystkiego innego.

Kontekst

Demis Hassabis urodził się w Londynie 27 lipca 1976 roku, jako syn Greka cypryjskiego pochodzenia i Chinki z Singapuru.¹ Był szachowym cudownym dzieckiem od czwartego roku życia; w wieku trzynastu lat osiągnął poziom mistrzowski z rankingiem Elo około 2300 i kapitanował juniorskim reprezentacjom Anglii.¹ Szachy nie są tu przypisem – są źródłem całego światopoglądu. Dziecko, które przez lata oblicza warianty, ocenia pozycje i wybiera najlepszą kontynuację, zinternalizowało jeszcze przed okresem dojrzewania dokładnie tę pętlę, która miała później leżeć u podstaw AlphaGo: spójrz w przód, oceń, wybierz.

Kolejnym rozdziałem były gry – ich tworzenie. Po wygraniu konkursu na posadę w Bullfrog Productions Hassabis w wieku siedemnastu lat współprojektował i był głównym programistą klasyka gatunku symulacji Theme Park, pracując u boku Petera Molyneux; gra sprzedała się w milionach egzemplarzy i pomogła stworzyć gatunek symulatorów zarządzania.² Następnie był głównym programistą AI w Black & White w studiu Lionhead, a potem założył własne studio, Elixir Studios, wydając Republic: The Revolution oraz Evil Genius.¹ Dekadę swojego życia poświęcił tworzeniu oprogramowania, które symulowało inteligentne zachowanie – tłumy, stworzenia, przeciwników – czyli dokładnie taką praktykę, jaką zaprojektowałoby się dla kogoś, kto za chwilę spróbuje zbudować to naprawdę.

Potem wrócił do pierwszych zasad. W 1997 roku ukończył informatykę w Cambridge z najwyższym wyróżnieniem, a następnie wrócił na uczelnię, by obronić doktorat z neuronauki poznawczej na UCL (2009), pracując nad pamięcią epizodyczną i wyobraźnią – wykazując, że pacjenci z uszkodzeniem hipokampa mają trudność nie tylko z pamiętaniem przeszłości, lecz także z wyobrażaniem sobie nowych przyszłych scen.¹³⁴ To głębokie odkrycie dla konstruktora AI: mechanizm pamięci i mechanizm wyobraźni to ten sam mechanizm. Odbył staż podoktorski w Gatsby Computational Neuroscience Unit, a w 2010 roku współzałożył DeepMind wraz z Shane’em Leggiem i Mustafą Suleymanem; Google przejęło firmę w 2014 roku.¹ Szachy nauczyły go przeszukiwania; gry nauczyły go symulacji; neuronauka pokazała mu, jak ogólna inteligencja wygląda od środka. DeepMind to miejsce, w którym te trzy nurty się zbiegają.

Dzieło

Gry jako poligon doświadczalny: AlphaGo i Ruch 37

Zacznijmy od samego silnika, w miniaturze. Na długo przed sieciami neuronowymi główną ideą maszyny grającej była antycypacja: zanim zdecydujesz się na ruch, wyobraź sobie odpowiedzi przeciwnika, swoje odpowiedzi na nie i tak dalej w głąb drzewa możliwości, oceń, gdzie kończy się każdy wariant, i wybierz ruch prowadzący do najlepszego wyniku, zakładając, że obie strony grają dobrze. Widget poniżej to ta idea sprowadzona do najmniejszej postaci – kółko i krzyżyk przeciwko przeciwnikowi, który przed każdym ruchem przeszukuje wszystkie kontynuacje, więc nie da się go pokonać. Zagraj, a zagrasz z praprzodkiem AlphaGo.

Interaktywna demonstracja antycypacji (wymaga JavaScript). Silnik leżący u podstaw AlphaGo, w miniaturze: zagraj w kółko i krzyżyk przeciwko przeciwnikowi, który przed każdym ruchem przegląda wszystkie możliwe kontynuacje, ocenia każdą jako wygraną, remis lub przegraną i wybiera najlepszą -- dzięki czemu nigdy nie przegrywa. Go ma więcej pozycji na planszy niż jest atomów we wszechświecie, zdecydowanie zbyt wiele, by przeszukać je wyczerpująco, dlatego AlphaGo dodało do tego przeszukiwania wyuczoną sieć wartości (do oceny pozycji) i wyuczoną sieć strategii (do proponowania ruchów). Zasada jest ta sama: spójrz w przód, oceń, wybierz.

Kółko i krzyżyk jest na tyle małe, że można je przeszukać do końca. Go już nie. Plansza Go ma więcej legalnych pozycji niż jest atomów w obserwowalnym wszechświecie, dlatego antycypacja typu brute force – technika, która rozłożyła szachy – przez dziesięciolecia zawodziła w Go.⁵ Posunięcie DeepMind polegało na zachowaniu przeszukiwania, ale uczynieniu go inteligentnym: AlphaGo połączyło przeszukiwanie drzewa metodą Monte Carlo z dwiema głębokimi sieciami neuronowymi – siecią strategii, która proponuje obiecujące ruchy (by nie marnować przeszukiwania na złe), oraz siecią wartości, która ocenia, jak dobra jest pozycja (by nie trzeba było czytać każdego wariantu do końca). Sieci trenowano najpierw na partiach ludzkich ekspertów, a potem doostrzano przez uczenie przez wzmacnianie, rozgrywając miliony partii z własnymi wersjami.⁵

W marcu 2016 roku w Seulu AlphaGo pokonało Lee Sedola – jednego z największych żyjących graczy – 4-1, przed widownią liczącą ponad 200 milionów osób, mniej więcej dekadę wcześniej, niż przewidywali eksperci.⁵ Momentem, który to definiuje, jest Ruch 37 z drugiej partii: zagranie, które sam system oszacował, że człowiek wybrałby z prawdopodobieństwem około jednego na dziesięć tysięcy, początkowo odczytane przez komentatorów jako błąd, a później zrozumiane jako genialne. Po raz pierwszy świat patrzył, jak maszyna tworzy – w dziedzinie, którą ludzie doskonalili przez tysiąclecia – nie naśladownictwo ludzkiego geniuszu, lecz coś autentycznie nowego.⁵ Na tym właśnie polega cały sens fazy gier: nie na tym, by wygrać, lecz by pokazać, że system uczący się potrafi dokonywać odkryć.

Demis Hassabis podczas wystąpienia

AlphaZero: uczenie się wyłącznie z reguł

AlphaGo wciąż opierało się na pewnej podpórce: rozpoczynało od bazy ludzkich partii. Kolejny krok usunął nawet to. AlphaZero (zaprezentowane w 2017 roku, pełne wyniki w Science w 2018) otrzymało jedynie reguły gry, a następnie nauczyło się całkowicie samodzielnie przez grę z samym sobą, startując od losowych ruchów – bez ludzkich partii, bez podręczników debiutów, bez ręcznie tworzonych heurystyk.⁶ Tabula rasa. Z tego pustego startu opanowało Go, szachy i shogi na poziomie przewyższającym ludzki, ogrywając najsilniejsze wyspecjalizowane silniki – i dokonało tego za pomocą jednego, ogólnego algorytmu zastosowanego do trzech bardzo różnych gier, co stanowi najwyraźniejszy jak dotąd dowód na „ogólną” w ogólnej inteligencji.⁶

Szczegół, który uważam za najbardziej pouczający, to sposób, w jaki wygrało. AlphaZero przeszukiwało w szachach zaledwie około 60 000 pozycji na sekundę, wobec 60 milionów tradycyjnego silnika Stockfish – tysiąckrotnie mniej – a mimo to wyszło na prowadzenie, ponieważ jego wyuczona intuicja podpowiadała, które warianty w ogóle warto czytać.⁶ Grało również w obcym, ofiarnym, głęboko pozycyjnym stylu, który zaskoczył arcymistrzów. To ta sama lekcja co Ruch 37, uogólniona: kiedy przestaje się zmuszać system do naśladowania ludzkiej wiedzy i pozwala mu nauczyć się struktury problemu od zera, nie tylko nam dorównuje – znajduje rzeczy, które przeoczyliśmy. To pomost od „rozwiązać inteligencję” do kroku drugiego, ponieważ większość trudnych problemów nauki nie ma na początek żadnego ludzkiego podręcznika gry do skopiowania.

AlphaFold: skierowanie inteligencji na naukę (Nobel 2024)

Potem Hassabis wydał ów klucz. Przez pięćdziesiąt lat wielkim wyzwaniem biologii był problem zwijania białek: białko to łańcuch aminokwasów, który zwija się w precyzyjny kształt 3D, ten kształt decyduje o tym, co białko robi, a przewidywanie kształtu na podstawie sekwencji opierało się każdemu podejściu. Metody eksperymentalne pozwalające ustalić jedną strukturę mogły zająć lata i kosztować fortunę.⁸⁹

Podczas CASP14 w 2020 roku – prowadzonej w tej dziedzinie co dwa lata oceny w ciemno – AlphaFold2 od DeepMind przewidziało struktury z dokładnością mniej więcej do szerokości atomu względem odpowiedzi eksperymentalnej, około trzy razy dokładniej niż następny najlepszy system i, w przypadku większości białek, porównywalnie z laboratorium.⁸ Organizatorzy CASP ogłosili, że pięćdziesięcioletni problem został w istocie rozwiązany.⁸ DeepMind zrobiło następnie to, co zamienia wynik w infrastrukturę: udostępniło bazę danych struktur białek AlphaFold, rozrastającą się od proteomu człowieka do około 200 milionów struktur – niemal każdego skatalogowanego białka znanego nauce, dostępnych bezpłatnie, z których korzysta dziś ponad dwa miliony badaczy w 190 krajach.⁹¹¹

W październiku 2024 roku Komitet Noblowski przyznał Hassabisowi i jego współpracownikowi Johnowi Jumperowi połowę Nagrody Nobla w dziedzinie chemii „za przewidywanie struktury białek”, dzieląc nagrodę z Davidem Bakerem, uhonorowanym „za obliczeniowe projektowanie białek”.¹⁰¹¹ W tym samym roku Hassabis został pasowany na rycerza za zasługi dla sztucznej inteligencji.¹ To, przy czym warto się zatrzymać, to kolejność: nie chodzi tu o odrębny zwrot w karierze, z gier ku biologii. To krok drugi pierwotnego zdania. Zbuduj ogólny system uczący się, sprawdź go tam, gdzie cel jest czysty (w grze), a następnie skieruj go na problem o tym samym kształcie celu – ogromna przestrzeń przeszukiwania, jasna funkcja oceniająca – ale gdzie nagrodą jest narzędzie dla całej biologii.

Demis Hassabis

Misja i Isomorphic: co dalej

Jeśli AlphaFold udowodniło tezę, to Isomorphic Labs – które Hassabis założył i którym kieruje, wydzielone z DeepMind w 2021 roku – jest próbą uprzemysłowienia jej: wykorzystaniem AI do wymyślenia na nowo procesu odkrywania leków, potraktowaniem całego potoku, od celu po cząsteczkę, jako problemu, który może zaatakować system w stylu AlphaFold.¹ To znów krok drugi, na większym celu: od przewidywania kształtu białka po zaprojektowanie cząsteczki, która się z nim wiąże. Tymczasem deklarowana misja DeepMind poszerzyła się do odpowiedzialnego budowania AI z pożytkiem dla ludzkości, a Hassabis stał się jednym z bardziej ostrożnych ważnych głosów w sprawie AGI – nawołując do rozwagi właśnie dlatego, że dosłownie traktuje połowę o „rozwiązaniu wszystkiego innego”.⁷ Wzorzec utrzymuje się w obie strony: ambicja jest ogromna, a dyscyplina co do tego, jak tam dotrzeć, jest równie poważna.

Metoda

Metoda Hassabisa jest niezwykle czytelna, ponieważ sam ją opowiedział. Zdejmij z niej nalot prasy, a okaże się powtarzalnym przepisem.

Celuj w ogólną zdolność, nie w konkretne zadanie. Decydującym wyborem było „rozwiązać inteligencję” najpierw, a zastosowania potem – zbudować system uczący się, który uogólnia, a nie najwęższą rzecz, którą da się wydać. Większość zespołów nie może sobie na to pozwolić. Dyscyplina polega na rozpoznaniu, kiedy ogólność jest rzeczywistą dźwignią, a kiedy zwlekaniem.⁷

Wydobywaj z jedynego działającego przykładu. Istnieje dokładnie jedna ogólna inteligencja – mózg – dlatego Hassabis studiował neuronaukę, by podkraść jej pomysły. Gdy problem ma jedno znane rozwiązanie w naturze, głębokie zrozumienie go bije wymyślanie od zera. Ten sam instynkt przewija się przez całą serię: zakoduj strukturę, która już działa, zamiast wymyślać ją na nowo, jak u LeCuna, wpisującego niezmienniczość względem przesunięcia w splot.⁷

Zbuduj poligon doświadczalny, zanim zbudujesz produkt. Gry dały mu zamknięte w sobie światy z jasnymi funkcjami celu, w których system można było trenować i mierzyć uczciwie, zanim dotknął czegokolwiek, co miało znaczenie. Lekcja ogólna: zainwestuj w środowisko, w którym uzyskasz czysty, szybki sygnał, czy rzecz działa. Wskaźnik, któremu ufasz, jest wart więcej niż opinia, której nie ufasz – bramka dowodu zastosowana do całego programu badawczego.⁷

Usuń ludzką podpórkę, gdy tylko możesz. AlphaGo uczyło się z ludzkich partii; AlphaZero nie uczyło się z żadnej, a wyszło lepiej. Gdy system dojrzeje na tyle, by nauczyć się struktury problemu bezpośrednio, dostarczone przez człowieka rusztowanie może stać się sufitem. Wiedza o tym, kiedy je odkopnąć, jest umiejętnością samą w sobie.⁵⁶

Potem spożytkuj tę zdolność na coś, co ma znaczenie. Dyscypliną, która sprawia, że całość staje się czymś więcej niż popisem, jest faktyczne wydarzenie się kroku drugiego. Granie nigdy nie było celem; celem był AlphaFold. Zdolność bez godnego celu jest niepełna – test Steve’a na to, czy dzieło zasługuje na istnienie, zastosowany do samej inteligencji.⁸¹⁰

Łańcuch wpływów

Kto go ukształtował

Szachy. Przed informatyką, przed neuronauką była szachownica. Pętla antycypacji, oceny i wyboru, którą internalizuje mistrz, to ta sama pętla, która leży u podstaw AlphaGo i AlphaZero. Hassabis nauczył się algorytmu jako dziecko, żyjąc nim. (Wpływ formacyjny)

Mózg, badany celowo. Hassabis obronił doktorat z neuronauki poznawczej wprost po to, by uczyć się od jedynej ogólnej inteligencji, jaką znamy, pracując nad wspólnym mechanizmem pamięci i wyobraźni. Założenie, że AI powinna czerpać inspirację z mózgu, nie jest dla niego metaforą; było planem badawczym. (Wpływ bezpośredni)

Rewolucja głębokiego uczenia. AlphaGo i AlphaFold to w swej istocie głębokie sieci neuronowe, a ta linia rodowa biegnie prosto przez Geoffreya Hintona, którego praca uczyniła sieci trenowalnymi, oraz Yanna LeCuna, którego architektury splotowe nauczyły sieci dostrzegać strukturę. Hassabis zbudował przeszukiwanie i system; oni zbudowali podłoże, na którym się uczy. (Wpływ bezpośredni)

Kogo ukształtował

AI dla nauki. AlphaFold nie tylko rozwiązało jeden problem; ustanowiło wzorzec – że ogólny system uczący się, skierowany na trudne pytanie naukowe o czystym celu, może wyprzedzić dziesięciolecia wyspecjalizowanego wysiłku. Każdy projekt „AlphaFold dla X” jest pochodną tej demonstracji.

Uczenie przez wzmacnianie na dużą skalę. AlphaGo i AlphaZero to kanoniczny dowód, że głębokie uczenie przez wzmacnianie z grą z samym sobą może osiągnąć i przewyższyć ludzką biegłość w ogromnych przestrzeniach przeszukiwania, przekształcając to, co cała poddziedzina uważała za możliwe.

Społeczna wyobraźnia o AI. Ruch 37 i mecz z Lee Sedolem były dla setek milionów ludzi chwilą, w której maszyna przestała naśladować, a zaczęła tworzyć. Ten kulturowy znacznik także jest częścią jego wpływu.

Nić przewodnia

Hassabis to miejsce, w którym gałąź głębokiego uczenia tej serii skręca od percepcji ku działaniu i odkryciu. Fei-Fei Li dostarczyła danych, które nauczyły sieci widzieć; Geoffrey Hinton sprawił, że maszyna ucząca się rzeczywiście zadziałała; Yann LeCun dał jej architekturę do znajdowania struktury. Hassabis bierze te same sieci i otacza je przeszukiwaniem i grą z samym sobą – systemem, który nie tylko klasyfikuje świat, lecz działa w nim, planuje i dokonuje odkryć. Linia naprzód biegnie naturalnie do „Software 2.0” Andreja Karpathy’ego, idei programu skompilowanego z danych, a nie napisanego ręcznie, czyli dokładnie tym, czym jest AlphaZero: żadnych zaprogramowanych reguł strategii, tylko reguły gry i nagroda, a cała reszta wyuczona. LeCun mówi: naucz się widzieć; Hinton mówi: uczenie działa; Li mówi: oto świat, z którego masz się uczyć; Hassabis mówi: a teraz użyj tego, by coś zrobić – i kieruje to na pięćdziesięcioletni problem w biologii. (Pomost serii)

Co z tego biorę dla siebie

Lekcja, którą zachowuję od Hassabisa, dotyczy sekwencjonowania ambicji. Zdanie „rozwiązać inteligencję, a potem rozwiązać wszystko inne” łatwo wyśmiać jako górnolotność założyciela i takie by było – gdyby nie potraktował go jako dosłownego dwuetapowego planu i nie zrealizował obu kroków po kolei, publicznie, przez piętnaście lat, z Nagrodą Nobla na końcu kroku drugiego. Dyscypliną nie jest rozmiar ambicji; jest nią odmowa pominięcia poligonu doświadczalnego. Nie ogłosił, że wyleczy choroby pierwszego dnia. Zbudował system, sprawdził go w sposób przewyższający ludzki tam, gdzie wynik był jednoznaczny, i dopiero potem skierował go na cel, który miał znaczenie. To zmienia kolejność w moim myśleniu o wielkich celach: nazwij zuchwały koniec, ale najpierw wywalcz sobie do niego prawo na czystym wskaźniku. To jakość jest jedyną zmienną zastosowane do planu działania – pytaniem jest „czy zdolność jest realna?”, zanim padnie „czy zastosowanie robi wrażenie?”.

Druga lekcja jest cichsza i przewija się przez cały łuk: najlepsze pomysły często biorą się z badania tego jednego przykładu, który już działa. Hassabis nie teoretyzował o inteligencji w abstrakcji; poszedł i zbadał mózg, bo to dowód istnienia. Gdy utknę, posunięciem rzadko jest wymyślanie od pierwszych zasad w próżni – jest nim odnalezienie systemu, który już rozwiązał jakąś wersję tego problemu, i zrozumienie, dlaczego działa, na tyle dobrze, by ukraść pomysł. Szachy dały mu przeszukiwanie, mózg dał mu architekturę, gry dały mu piaskownicę, a biologia dała mu godny cel. Nic się nie zmarnowało, bo każdy rozdział był wydobywaniem przez niego działającego przykładu na potrzeby kolejnego. Rozwiąż inteligencję, a potem jej użyj – ale najpierw idź uczyć się od tego, co już ją ma.

FAQ

Na czym polega filozofia inżynierska Demisa Hassabisa?

Najpierw rozwiązać inteligencję, a potem użyć jej do rozwiązania wszystkiego innego. Zamiast budować najwęższy system rozwiązujący konkretne zadanie, Hassabis postawił na zbudowanie ogólnego systemu uczącego się – inspirowanego działaniem mózgu, sprawdzonego w grach, gdzie cel jest czysty – a następnie skierowanie tej ogólnej zdolności na najtrudniejsze problemy nauki.⁷ Strategia jest czytelna, bo zrealizował ją po kolei: AlphaGo i AlphaZero udowodniły, że inteligencja jest realna i ogólna, a AlphaFold spożytkowało ją na biologicznym problemie zwijania białek, zdobywając Nagrodę Nobla.⁵⁶⁸¹⁰

Jak działa AlphaGo i czym był Ruch 37?

AlphaGo połączyło przeszukiwanie drzewa metodą Monte Carlo z dwiema głębokimi sieciami neuronowymi: siecią strategii, która proponuje obiecujące ruchy, oraz siecią wartości, która ocenia, jak dobra jest pozycja, trenowanymi najpierw na ludzkich partiach, a potem doostrzanymi przez uczenie przez wzmacnianie w grze z samym sobą.⁵ Ponieważ Go ma więcej legalnych pozycji niż jest atomów we wszechświecie, wyczerpujące przeszukiwanie jest niemożliwe – sieci pozwalają systemowi przeszukiwać zamiast tego inteligentnie. W marcu 2016 roku AlphaGo pokonało Lee Sedola 4-1 w Seulu, a „Ruch 37” z drugiej partii – zagranie, które człowiek wybrałby z prawdopodobieństwem mniej więcej jednego na dziesięć tysięcy – był chwilą, w której maszyna stworzyła autentycznie nowatorski pomysł w grze, którą ludzie doskonalili przez tysiąclecia.⁵

Jaka jest różnica między AlphaGo a AlphaZero?

AlphaGo uczyło się częściowo z bazy partii ludzkich ekspertów, zanim doskonaliło się przez grę z samym sobą. AlphaZero (2017) usunęło ludzkie dane całkowicie: mając jedynie reguły gry, nauczyło się samo z losowej gry, przez czyste uczenie przez wzmacnianie w grze z samym sobą – tabula rasa.⁶ Z tego pustego startu jeden ogólny algorytm opanował Go, szachy i shogi na poziomie przewyższającym ludzki, pokonując najsilniejsze wyspecjalizowane silniki, przeszukując przy tym znacznie mniej pozycji, ponieważ jego wyuczona intuicja podpowiadała, które warianty warto czytać.⁶ AlphaZero stanowi silniejszy dowód na „ogólną” inteligencję, ponieważ ta sama metoda zadziałała w trzech różnych grach bez żadnego dostrajania pod konkretną dziedzinę.

Czym jest AlphaFold i dlaczego zdobyło Nagrodę Nobla?

AlphaFold to system AI od DeepMind, który przewiduje strukturę 3D białka na podstawie jego sekwencji aminokwasów – „problem zwijania białek”, który opierał się rozwiązaniu przez około pięćdziesiąt lat.⁸⁹ Podczas oceny CASP14 w 2020 roku AlphaFold2 przewidziało struktury z dokładnością mniej więcej atomową, porównywalną z metodami eksperymentalnymi, a organizatorzy ogłosili problem w istocie rozwiązanym.⁸ DeepMind udostępniło około 200 milionów przewidzianych struktur – niemal każde znane białko – bezpłatnie dla badaczy.⁹ W 2024 roku Hassabis i John Jumper otrzymali połowę Nagrody Nobla w dziedzinie chemii „za przewidywanie struktury białek”, dzieląc się nią z Davidem Bakerem, uhonorowanym „za obliczeniowe projektowanie białek”.¹⁰¹¹

Źródła

“Demis Hassabis,” Wikipedia. Urodzony 27 lipca 1976 roku w Londynie, jako syn Greka cypryjskiego pochodzenia i Chinki z Singapuru; szachowe cudowne dziecko od czwartego roku życia, osiągnął poziom mistrzowski około trzynastego roku życia z rankingiem Elo bliskim 2300 i kapitanował juniorskim reprezentacjom Anglii; główny programista AI w Black & White w studiu Lionhead; założył Elixir Studios (1998), wydając Republic: The Revolution oraz Evil Genius; najwyższe wyróżnienie z informatyki w Cambridge (1997); doktorat z neuronauki poznawczej na UCL (2009); staż podoktorski w Gatsby Computational Neuroscience Unit; współzałożył DeepMind w 2010 roku wraz z Shane’em Leggiem i Mustafą Suleymanem; przejęcie przez Google (2014); współzałożył Isomorphic Labs (2021); pasowany na rycerza w 2024 roku za zasługi dla sztucznej inteligencji. ↩↩↩↩↩↩↩↩↩
Lewis Packwood, “The Co-Creator Of Theme Park Just Won A Nobel Prize,” Time Extension, październik 2024, oraz raport GameSpot “Nobel Prize For Chemistry Awarded To This Former Game Designer Demis Hassabis,” o tym, jak Hassabis współprojektował i był głównym programistą Theme Park (1994) w Bullfrog Productions u boku Petera Molyneux w wieku 17 lat, po wygraniu konkursu na tę posadę; gra sprzedała się w milionach egzemplarzy i pomogła zdefiniować gatunek symulatorów zarządzania. ↩↩
“Theme Park (video game),” Wikipedia, o Theme Park (1994, Bullfrog Productions), jego komercyjnym sukcesie i wpływie na gatunek symulatorów/symulatorów zarządzania. ↩↩
“Demis Hassabis: From chess prodigy to AI leader,” AI Magazine, o jego drodze od szachów i projektowania gier, przez doktorat z neuronauki poznawczej na UCL (praca nad pamięcią i wyobraźnią pod opieką Eleanor Maguire), po założenie DeepMind. ↩↩
“AlphaGo,” Google DeepMind. AlphaGo połączyło głębokie sieci neuronowe (sieć strategii proponującą ruchy i sieć wartości oceniającą pozycje) z przeszukiwaniem drzewa metodą Monte Carlo, trenowane na partiach ludzkich ekspertów, a następnie przez uczenie przez wzmacnianie w grze z samym sobą; pokonało Lee Sedola 4-1 w Seulu w marcu 2016 roku przed widownią liczącą ponad 200 milionów osób, mniej więcej dekadę wcześniej, niż przewidywali eksperci. Oszacowano, że „Ruch 37” z drugiej partii miał jedynie około jeden na dziesięć tysięcy szans na wybór przez ludzkiego gracza i jest szeroko cytowany jako moment autentycznej kreatywności maszyny. ↩↩↩↩↩↩↩↩↩
“AlphaZero: Shedding new light on chess, shogi, and Go,” Google DeepMind, grudzień 2018. AlphaZero (zaprezentowane w 2017 roku; pełne wyniki opublikowane w Science, 2018) nauczyło się Go, szachów i shogi na poziomie przewyższającym ludzki wyłącznie z gry z samym sobą, startując od losowej gry z samymi tylko regułami – bez ludzkich danych z partii – za pomocą jednego ogólnego algorytmu. W szachach ograło Stockfisha, przeszukując zaledwie około 60 000 pozycji na sekundę wobec około 60 milionów Stockfisha, opierając się na wyuczonym prowadzeniu przez sieć neuronową, a nie na ręcznie tworzonych heurystykach. ↩↩↩↩↩↩↩
“A Conversation with Demis Hassabis, CEO of Google DeepMind” (transcript),” Stanford GSB / Singju Post. Hassabis opisuje pierwotny plan DeepMind jako „krok pierwszy: rozwiązać inteligencję; krok drugi: użyć jej do rozwiązania wszystkiego innego”; wyjaśnia, że studiował neuronaukę, by „uczyć się z tego, co rozumiemy na temat mózgu”, jako inspiracji dla pomysłów algorytmicznych; i zauważa, że DeepMind „zaczęło od gier, ponieważ są zamknięte w sobie”, z „jasnymi funkcjami celu”, co czyni je „poligonem doświadczalnym do testowania pomysłów algorytmicznych”. Dwuetapowe ujęcie potwierdza “Solve Intelligence; Use That to Solve Everything Else,” oraz deklaracja misji DeepMind na stronie deepmind.google. ↩↩↩↩↩↩↩↩↩↩↩
“AlphaFold,” Google DeepMind. Podczas oceny CASP14 w 2020 roku AlphaFold2 przewidziało struktury białek z dokładnością mniej więcej jednego angstrema (około szerokości atomu) względem wyników eksperymentalnych – około trzy razy dokładniej niż następna najlepsza metoda i porównywalnie z technikami eksperymentalnymi – a organizatorzy CASP uznali to za rozwiązanie liczącego około 50 lat problemu zwijania białek. ↩↩↩↩↩↩↩↩
“AlphaFold,” Google DeepMind, oraz “AlphaFold Protein Structure Database,” o bazie danych uruchomionej w lipcu 2021 roku (początkowo proteom człowieka i organizmy modelowe), rozszerzonej do lipca 2022 roku do ponad 200 milionów struktur – niemal wszystkich skatalogowanych białek znanych nauce – udostępnionej bezpłatnie badaczom na całym świecie. ↩↩↩↩↩
“The Nobel Prize in Chemistry 2024,” NobelPrize.org. Nagrodę podzielono: jedną połowę dla Davida Bakera „za obliczeniowe projektowanie białek”, a drugą połowę wspólnie dla Demisa Hassabisa i Johna M. Jumpera „za przewidywanie struktury białek” (udziały: Baker 1/2, Hassabis 1/4, Jumper 1/4). ↩↩↩↩↩↩
“Press release: The Nobel Prize in Chemistry 2024,” NobelPrize.org, 9 października 2024. W 2020 roku Hassabis i Jumper opracowali AlphaFold2, które przewidziało struktury praktycznie wszystkich około 200 milionów zidentyfikowanych białek, spełniając pięćdziesięcioletnie marzenie o przewidywaniu struktur białek na podstawie sekwencji aminokwasów; z modelu skorzystało od tamtej pory ponad dwa miliony badaczy w 190 krajach. Przewodniczący komitetu Heiner Linke: „To drugie dotyczy spełnienia pięćdziesięcioletniego marzenia: przewidywania struktur białek na podstawie ich sekwencji aminokwasów”. ↩↩↩↩