Umělá inteligence se za tři dny sama naučila go, pak porazila nejlepšího hráče světa

09.12.2017 13:43

 

Vloni v březnu porazil program AlphaGo nejlepšího světového hráče ve hře go. Zaskočilo to tehdy všechny, jak hráče Go, tak programátory – ukázalo to, jak rychlý je pokrok v tomto oboru a jak rychle stroje člověka dohánějí a nyní už i překonávají. Nyní vědci přišli s novou verzí programu AlphaGo, která tu starší porazila 100:0. A to přesto, že hru go znala pouhé tři dny.


Nová verze programu, kterou vyvinula také společnost Google, dostala jméno AlphaGo Zero (dále AGZ) podle toho, že s učením se hře začíná od začátku, od nuly (zero = nula). Přestože stará verze porazila jihokorejského velmistra Lee-Sedola i čínského velmistra Fan Chueje zcela přesvědčivě, proti nové verzi neměla šanci. V sérii 100 her neuhrála ani jedinou výhru.

Umělá inteligence, která porazila člověka v GO, se učí v počítačové strategické hře, jak zničit lidstvo.

Ale to ještě není ani zdaleka všechno. Na rozdíl od ostatních podobných „umělých inteligencí“, kde s tréninkem pomáhá člověk, se tentokrát stroj naučil strategii zcela sám, jediné, co mu dodali lidé, byla pravidla stolní hry go. Během tří dnů ji dokonale pochopil a získal obdobu tisíciletí lidských znalostí hry. Tento úspěch popsali autoři programu v časopise Nature.
Nejdůležitější je podle expertů, kteří se k tématu vyjádřili, i podle autorů programu to, jak rozdílné jsou obě verze umělé inteligence. Původní program měl obrovskou výhodu a náskok v tom, že se mohl učit z tisícovek her, které mu lidé předložili ke studiu. Mohl se tedy učit od lidských velmistrů, využíval jejich nejlepší tahy a měl obrovské množství materiálů, na nichž hru „studoval“. AGZ od lidí žádnou pomoc nedostal a neměl přístup k ničemu jinému než k pravidlům.


Odkdy počítače poráží člověka
1997: Program Deep Blue porazil velmistra Garryho Kasparova v šachu.
2011: Program IBM Watson porazil světové šampiony ve hře Jeopardy (česká verze se jmenovala Risk).
2016: Umělá inteligence AlphaGo porazila velmistra Lee-Sedola ve hře Go.
2016: Umělá inteligence Libratus z Carnegie Meloon University porazila čtyři přední hráče pokeru.
2017: Program DeepStack, na němž pracovali i čeští vědci, rozdrtil 33 hráčů v pokeru – a to i pomocí intuice.

Nový program mohl dělat jediné, hrál jen sám proti sobě. Zpočátku se choval zcela náhodně, později své postupy vylepšoval. Stroj se učil metodou takzvaného Reinforcement learning (RL), která umožnila jeho digitálnímu mozku učit se ze zkušeností – autoři to shrnují metaforou, že program byl sám sobě učitelem. V tiskové zprávě autorský tým vyzdvihuje, že „tato technika je mnohem silnější než starší verze, protože již není omezena limity lidských znalostí. Místo toho se začíná učit jako tabula rasa od nejlepšího hráče go na světě – od sebe samé“.

Když hraje go, program zvažuje nejpravděpodobnější tahy a na tomto základě odhaduje pravděpodobnost vítězství. Aby dospěl podle těchto dvou parametrů k rozhodnutí, stačí AGZ pouhé 0,4 sekundy. Původní verze na to potřebovala dvě spolupracující neurální sítě, ale nová verze je má spojené do jedné, díky tomu je mnohem efektivnější. Dokazuje to i fakt, že AGZ běží na čtyřech specializovaných čipech TPU, zatímco stará verze jich potřebovala 48.
Během tří dnů tréninku program odehrál proti sobě 4,9 milionu her, tedy výrazně větší množství, než stihne během svého života jakýkoliv člověk. To mu stačilo k tomu, aby porazil originální verzi AlphGo – ta přitom potřebovala odehrát 30 milionů partií, než si její tvůrci troufli nasadit ji proti lidskému hráči. Po dalších 37 dnech tréninku byl AGZ schopen postavit se nejmodernější verzi AlphaGo zvané „Master“, která na začátku letošního roku porazila 60 nejlepších lidských hráčů.

Pro celý obor umělých inteligencí jde o obrovský pokrok. Případ ukazuje, jak je rychlý: systém dokázal během pár dní dohnat a předehnat lidskou znalost, která vznikala několik tisíc let. Přitom umělá inteligence přišla na zcela originální řešení a kreativní přístupy – lidští hráči se z nich mohou další stovky let učit.

Na webu Nature News and Views komentovali dva členové Americké asociace go styl hry, který počítač použil. „V každém stadiu hry se zdálo, že občas trošku vyhrává, jindy něco ztrácel, ale nějak vždycky skončil výhrou – jako by to byla kouzla.“