Umělá inteligence | Strojové učení | Neuronová síť

AlphaStar hrál 200 let Starcraft 2, aby porazil člověka. Skutečným cílem je ale něco úplně jiného

  • Program studoval 200 let lidských her
  • Pak začal soupeřit sám se sebou a člověkem
  • Vědce ale zajímá především to, na co sám přišel

Britská laboratoř pro umělou inteligenci DeepMind si to v minulosti rozdala s těmi nejlepšími hráči v go, šachu, šógi, a když program všechny rozdrtil, bylo třeba se poohlédnout po nějaké mnohem komplikovanější a barevnější virtuální realitě.

A tak se v hlavách vědců z DeepMindu před pár lety zrodil nápad, že vycvičí softwarového bota, který si to rozdá s těmi nejlepšími profesionálními hráči v legendárním Starcraftu 2. V týdnu se laboratoř pochlubila, jak dopadlo celkem deset (a jedenácté s upravenými pravidly) utkání z konce loňského roku a letošního ledna se dvěma z nich.

Program AlphaStar – nesporně jedna z nejkomplikovanějších neuronových sítí, která se kdy střetla s člověkem – je bez milosti rozdrtil.

Tříhodinový záznam ze hry a představení AlphaStar na YouTube:

Hlavním přínosem celého experimentu však nebyly mediálně vděčné protáhlé obličeje progamerů Daria Wünsche (TLO) a Grzegorze Komincze (MaNa), kteří alespoň na kameru ohromeně sdělovali světu, že ani ve snu netušili, že je porazí jakási hromada algoritmů, ale samotný vývoj těchto algoritmů.

Stručně řečeno, AlphaStar je úspěchem už jen proto, že existuje, protože zdaleka nejzajímavější epizodou nebylo deset rychlých bojůvek, ale ty tisíce a tisíce, které jim předcházely.

Nejprve se neuronová síť učila prostým opakováním lidských her

AlphaStar se jako drtivá většina jiných programů pro machine learning začal učit sledováním starších nahraných soubojů. Aby to bylo vůbec možné, DeepMind se již před lety dohodl s Blizzardem, autorem Starcaftu, a vznikla tak databáze jen těžko uvěřitelných 200 let lidského hraní.

929673d5-5759-4694-99e1-d7ca5c2dbd36
Na základnu AlphaStaru právě útočí lidský hráč TLO. Počítačový program ale nakonec zvítězí. Dva hráče zničil dohromady desetkrát.

Dále bylo třeba vyvinout zcela nové aplikační rozhraní, aby mohl program strojově číst data o aktuálním dění ve hře, analyzovat je a zasahovat do ní, neboť k dispozici neměl ruce a oči, aby mohl ohromnou rychlostí herního profíka bušit do klávesnice a sledovat dění na obrazovce.

Když bylo veškeré zázemí připravené, mohl se konečně program začít učit. Stále dokola si tedy ohromnou rychlostí přehrával záznamy skutečných her a na surové úrovni si vytvářel statistický model toho, jaký sled operací v čase vede k úspěchu – k vítězství ve hře.

V nitru AlphaStaru aneb jak vidí hru a reaguje:


Výsledkem této první úrovně vývoje AlphaStaru byl program, který dokázal podle svého naučeného modelu hrát tak dobře, jak dobrá byla studijní data – jako průměrný hráč Starcraftu.

Občasného uživatele, který v souboji s počítačem vždy vybírá nejslabší úroveň, by podobný automat nejspíše porazil, profíka ale nikoliv. A ještě jeden faktor je třeba podtrhnout. AlphaStar v této fázi zatím nebyl nikterak originální. Jednoduše reprodukoval stejné herní strategie, které používali lidé v záznamech, podle kterých se učil.

Poté začaly boti objevovat unikátní herní postupy

Mnohem zajímavější byla další fáze učení, kdy DeepMind vytvořil pro AlphaStar vlastní ligu, ve které mezi sebou soupeřily jeho kopie, přičemž měly jediný cíl – zvítězit.

Toto tzv. zpětnovazební učení (reinforcement learning) už umožňovalo mnohem vyšší míru autonomie. Boti, kteří své vlastní kopie porazili, se opět nakopírovali a znovu bojovali se svými zdatnějšími . A takhle stále dál a dál, až se konečně začalo dít to, co je na celém fenoménu neuronových sítí a strojového učení nejatraktivnější a co je dnes opravdovým přínosem celé oblasti A.I.

Od určité úrovně, kdy si boti v rámci učení otestovali všechny známé herní mikrostrategie a spočítali si jejich úspěšnost, začali experimentovat se zcela novými, které doposud nepoužívali ani profesionální hráči z masa a kostí. Boti tedy začali vytvářet třeba atypické dílčí útoky na základnu protivníka, trošku jinak řešili ekonomii zdrojů, odlišným způsobem začali stavět základny a to celé vedlo k úspěchu.

d3cba28f-c900-434a-bc4e-79b0f116dae9
V druhé úrovni mezi sebou soupeřili kopie AlphaStaru ve virtuální lize. S každým postupem tedy mezi sebou soupeřily úspěšnější kopie.

Čili zpět k tomu smyslu dnešní A.I. Co jím je? Hledání nových postupů a nových cest, které člověka svázaného určitým způsobem myšlení a tradičním vzděláním jednoduše nenapadnou.

Dlouhodobým cílem DeepMindu totiž pochopitelně není porážet asijské mistry v go nebo evropské špičkové progamery ve Starcraftu, ale pomocí neuronových sítí a strojového učení objevovat nové a efektivnější technologické postupy použitelné v poněkud praktičtějších a lidstvu přínosných aplikacích. Třeba v efektivnější energetice a medicíně, což jsou jedny z aktuálních projektů DeepMindu.

200 let hraní

Celý proces učení AlphaStaru trval vlastně jen relativně krátkou dobu, potřeboval k tomu ale ohromný balík základních studijních dat – oněch 200 let nahraných lidských her mnoha tisíců hráčů z celého světa. A to je právě to, kde zatím selhává i ten sebepokročilejší program – trpí absencí vyššího abstraktního myšlení.

Když před vaši babičku, která v životě nehrála jakoukoliv počítačovou hru, položíte laptop s nainstalovaným Starcraftem, základní ovládání myši a klávesnice pochopí relativně brzy na základě zažitých analogií (abstrakce) a počítačového protivníka nižší úrovně snadno porazí.

Program naopak vidí jen pole měnících se pixelů a stavové informace. Oněch 200 let dat potřebuje k tomu, aby si vytvořil model toho, k čemu vede každá proměna pixelu, respektive jakýkoliv zásah do hry, přičemž na konci sice zvládne rozdrtit lidského protivníka, ale tuto znalost nedokáže přenést a aplikovat na něco jiného.

da528587-6d25-4eed-b5d7-a8625639837a
Proč vlastně Starcraft? Protože je to oproti předchozím hrám s člověkem virtuální svět s mnohem vyšším počtem stupňů volnosti, s mnohem větším počtem proměnných, které je třeba sledovat k porážce soupeře.

Jinými slovy, kdybychom před AlphaStar položili laptop s odlišnou hrou, bude se ji muset naučit zase celou znovu – nedokáže využít předchozí znalosti dvousetletého hraní.

Anebo ještě jedna analogie. Autonomní vozy Wayma, které stejně jako DeepMind patří pod křídla Alphabetu (Googlu), nacestovaly už miliony kilometrů po skutečných komunikacích i v simulacích. A přesto nedosahují kvalit mladého řidiče, který během několika týdnů v autoškole najezdí zpravidla stovky kilometrů.

Autopilot Wayma bude stejně dobrý jako zkušený řidič až v okamžiku, kdy zažije (namodeluje) všechny myslitelné dopravní situace, všechny typy počasí, vozovek (včetně D1) a všechny kulturní odlišnosti v řízení u ostatních účastníků provozu. Člověk nic takového nepotřebuje. Zvládne jízdu za běžného deště, i když během autoškoly řídil jen za pěkného počasí.

AlphaStar nebyl rychlejší než člověk, ale efektivnější

V každém případě, když konečně došlo k osudné hře s člověkem, vyznamenal se AlphaStar ještě v jedné věci – mnohem nižším APM (actions per minute). Profesionální hráč dosáhne několika set APM a v případě našich hráčů s přezdívkami TLO a MaNa to bylo v průměru 678 a 390 akcí za minutu.

Jen si to představte. Jedna ruka ohromnou rychlostí buší klávesové zkratky do klávesnice a ta druhá neméně epilepticky přejíždí sem a tam kurzorem po herním poli. A přitom to vše dává smysl a člověk, skoro jako stroj, poráží jednoho protihráče za druhým.

c86d4dd5-b5a6-4243-8702-3fa0ad7c95ad
AlphaStar nebyl ve hře rychlejší než profesionální hrač, Vyhrál díky tomu, že jeho herní akce byly efektivnější – podložené ohromným množstvím simulací, na kterých se učil.

Na to „jako stroj“ ale pozor. Ano, síla každého automatického stroje spočívá v tom, že vykonává hromadu primitivních operací za jednotku času – třeba automatická balící linka na žvýkačky. Hlavní devízou chytrého stroje je ale efektivita, nikoliv rychlost.

Slovy čísel, průměrné APM AlphaStaru dosahovalo při souboji s člověkem pouze 277. AlphaStar tedy neporazil hráče TLO a MaNu proto, že by byl rychlý, ale prostě proto, že byl dokonale efektivní a každý krok měl lépe promyšlený, protože, jak už víme, jeho boti zažili mnohem více her než TLO a MaNa dohromady.

Počítačoví experti z DeepMindu nyní budou data nasbíraná během klání jistě dlouhé měsíce studovat a dočkáme se hromady publikací na Arxivu, ve kterých se pochlubí některými novátorskými postupy. Jak už jsem totiž napsal výše, o ty zde jde v prvé řadě. Samotné vítězství programu nad člověkem bylo přes veškerou PR dramatizaci jasné už na počátku toho všeho.

Diskuze (48) Další článek: Čistý Android už nebude ani v autech, Volvo ukázalo svou předělanou verzi Android Auto

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , , ,