Učiaca sa umelá inteligencia pre piškvorky - Excel@FIT 2018excel.fit.vutbr.cz/submissions/2017/058/58.pdf · xbakom01@stud.ﬁt.vutbr.cz, Fakulta informačných technológií,

http://excel.fit.vutbr.cz

Učiaca sa umelá inteligencia pre piškvorkyMatúš Bako

AbstraktV mojej práci sa zaoberám vytvorením umelej inteligencie, ktorá dokáže hrať hru gomoku, ktorámá veľmi podobné pravidlá ako hra Piškvorky. Narozdiel od konvenčných metód prehľadávaniastavového priestoru a ručně definovaných pravidiel kombinujem stochastické prehľadávanie s kon-volučnými neurónovými sietami. Strategická neurónová sieť určuje najpravdepodobnejší ťah pridanej konfigurácii a ohodnocovacia sieť určuje pravdepodobnosť výhry. Vyhodnotil som rôznearchitektúry sietí a rôzne zpôsoby trénovania. Z experimentov vyplinulo, že bez použitia ohodno-covacej siete je problematické zakončiť hru. Napriek relatívne malej množine trénovacích dát jemnou vytvorená umelá inteligencia schopná konkurovať nižšie umiestneným umelým inteligenciámzo súťaže Gomocup.

Kľúčové slová: Gomoku — Neurónové siete — Umelá inteligencia

Priložené materiály: Gomocup — Zdrojový kód

[email protected], Fakulta informačných technológií, Vysoké učení technické v Brne

1. Úvod

Stolné hry sú niekoľko desaťročí terčom strojovéhoučenia, pretože majú jasne definované pravidlá a kri-tériá výhry. Napriek tomu mnoho z nich poskytujeveľký počet dosiahnutelných konfigurácii, čo vytvárapriestor pre súťaživosť a zdokonaľovanie. Pre hľadaniesprávneho ťahu sú používané rôzne metódy, napríkadprehľadávanie stavového priestoru, prípadne rôzne dru-hy učení. Líšia sa hlavne časovou a priestorovou zloži-tosťou.

V mojej práci sa snažím demonštrovať použiteľnostkonvolučných neurónových sietí pri hraní hry gomoku.Konvolučné neurónové siete už boli použíté na vytvore-nie umelej inteligencie pre hranie hier, medzi ktorépatria šach, Go, Backgammon a iné. Narozdiel odtradičných programov, ktoré majú natvrdo naprogra-

mované isté pravidlá a heuristiky, používam na výbernasledujúceho ťahu neurónové siete.

Piškvorky je veľmi jednoduchá stolná hra s jasnedefinovanými pravidlami a podmienkou výhry. Jeto hra s nulovým súčtom, úplnými informáciami, jeurčená pre dvoch hráčov a nie je založená na náhode.Jej nevýhodou ale je malý stavový priestor. Preto sompre experimentovanie zvolil inú, ale zároveň veľmipodobnú, hru gomoku. Jediný rozdiel v základnýchpravidlách je vo veľkosti hracej plochy. Niektoré vari-anty počítajú s pätnástimi riadkami a stĺpcami, avšakja som zvolil variantu, kde ich je devätnásť. Hráčvyhráva, ak má na hracej ploche v rade päť kameňovjeho farby v ortogonálnom alebo diagonálnom smere.

Problémom, ktorý je podobný rozoberanému prob-lému v tejto práci, sa zaoberala spoločnosť Deep-Mind. Ich cieľom bolo vytvoriť umelú inteligenciu

http://excel.fit.vutbr.cz

gomocup.org

https://github.com/Hacky-MB/destruCtioNN

mailto:[email protected]

Typ siete Okolie Konvolučné vrstvy

L2 7 5 3256 1

L3 7 3 3 364 128 1

L4 13 3 5 5 364 64 32 1

L5 15 3 5 5 3 332 64 64 32 1

L6 13 3 3 3 3 3 332 64 64 32 32 1

Tabuľka 1. Popis architektúr jednotlivýchstrategických sietí. Druhý stĺpec reprezentuje rozmerplochy, ktorá ovplyvňuje každé políčko hracej plochy.Horný riadok pravej časti tabuľky obsahuje veľkosťkonvolučného jadra a spodný počet výstupov vrstvy.

hrajúcu hru Go. Táto hra sa hrá na rovnako veľkejhracej ploche ako Gomoku, avšak pravidlá sú kom-plexnejšie a zakladajú sa na ohraničovaní plochy po-mocou kameňov. Nakoniec sa im podarilo vytvoriťumelú inteligenciu zvanú AlphaGo [1], ktorá porazilaeurópskeho šampióna so skóre 5:0. Bolo to prvýkrát, kedy umelá inteligencia porazila profesionálnehohráča Go. Ich riešenie si zakladá na použití dvochneurónových sietí a ich zakomponovaní do vyhľadáva-cieho algoritmu. Jedna z neurónových sietí, zvaná akostrategická sieť, dostane na vstup aktuálnu konfigurá-ciu hracej plochy a jej výstupom sú pravdepodobnostihrania na danú pozíciu priradené prislúchajúcim pozí-ciám na hracej ploche. Druhá neurónová sieť dostávana vstup konfiguráciu hracej plochy a jej výstupom jepravdepodobnosť výhry pri danej konfigurácii. Obeneurónové siete sú využívané pri stochastickom pre-hľadávaní stavového priestoru. Medzi metódy, ktorévyužili pri trénovaní, taktiež patrí posilňované uče-nie [2]. Tým sa umelá inteligencia naučila hrať samaproti svojím starším verziám, čo zlepšilo celkovú kval-itu hrania.

Moje riešenie se inšpiruje z AlphaGo a tiež pou-žíva dve neurónové siete. Rozdiel je ale v prehľadá-vaní stavového priestoru. AlphaGo využíva vyhľadá-vací algoritmus založený na metóde stromového pre-hľadávania Monte Carlo. Ja som sa ním inšpiroval aprispôsobil som si ho využítím strategickej a ohod-nocovacej siete. Pomocou nej z prvotnej konfigurá-cie hracej plochy generujem nasledujúce prvotné ťahy,čím vytváram nasledujúce konfigurácie. Ohodnocova-cia sieť potom priraďuje pravdepodobnosť výhry kon-covým konfiguráciám. Priemerom všetkých pravde-podobností je pravdepodobnosť výhry pri zvolení po-

program : sieť L2 L3 L4 L5 L6

Imro 96:4 94:6 50:50 63:37 50:5060:20 8515 58:42 58:42 50:50

Mentat 93:7 87:12 55:45 47:53 30:7094:6 88:11 50:50 49:51 45:55

Gmotor 98:2 95:5 93:7 88:12 90:1098:2 96:4 91:9 91:9 93:7

Tabuľka 2. Výsledky hier stiahnutých programovproti strategickej sieti. Na hornom riadku z dvojice jevýsledok so sieťou natrénovanou na všetkých ťahocha na spodnom výsledok siete trénovenanej iba naťahoch, ktoré viedli k výhre. Imro je v tabuľke súťažeGomocup na 32. , Mentat na 27. a Gmotor na 12.mieste.

čiatočného ťahu.Narozdiel od konvenčných programov, ktoré použí-

vajú ručne definované pravidlá, sme dokázali natréno-vať strategickú sieť, ktorá sama o sebe dokáže poraziťnižšie umiestnené programy zo súťaže Gomocup. Sieťje možné pretrénovať aj na iné varianty, ako naprík-lad Renju. Jedinou podmienkou je získať dostatočnýpočet unikátnych hier.

2. Metodológia

2.1 Vyhodnocovanie ťahuPre určenie nasledujúceho ťahu strategická sieť dostanena vstup konfiguráciu hracej plochy a jej výstupom je

Obrázok 1. Prehľadávací algoritmus ktorý využívastrategickú a ohodnocovaciu sieť pre určenienasledujúceho ťahu.

Obrázok 2. Architektúra strategickej siete s tromi konvolučnými vrstvami. Vstupná hracia plocha jeohraničená výplňou pre vyznačenie hranice plochy a zachovanie rozmerov. Rovnako je výplň použitá naohraničenie plochy aj v každej konvolučnej vrstve. Výstupom je pravdepodobnosť ťahu pre všetky políčkailustrovaná teplotnou mapou. Pôvodné žetóny sú na mape ponechané iba kvôli ilustrácii hodnôt okolitýchpolíčok.

pravdepodobnostné rozloženie pre všetky pozície naploche. Ohodnocovacia sieť dostane na vstup konfi-guráciu hracej plochy a výstupom je pravdepodobnosťvýhry pri danej konfigurácii.

Vstupom oboch sietí je pole s dvomi kanálmi,pričom prvý kanál reprezentuje vlastnú hraciu plochu adruhý kanál hraciu plochu protihráča. Zabrané miestov poli má hodnotu 1 a voľné políčka sú označené hod-notou 0. Jednotlivé kanály reprezentujú pole o veľkosti19x19 ohraničené výplňou s hodnotou -1. Šírka vý-plne je vypočítaná pomocou vzorca bk/2c, kde k jeveľkosť konvolučného jadra prvej konvolučnej vrstvy.

2.2 Vyhľadávací algoritmusPri vyhľadávaní sú použité dva algoritmy, ktoré sa in-špirujú algoritmami použitými v AlphaGo. Oba začí-najú tým, že vezmú prvotnú konfiguráciu hracej plochya pomocou strategickej siete vygenerujú prvotný ťah.V prípade, že si to predstavíme ako strom, konfigurá-cie hracej plochy predstavujú uzly a jednotlivé ťahy,z ktorých vznikajú ďalšie konfigurácie, predstavujúhrany.

Prvá metóda využíva iba strategickú sieť. Z vy-braného počtu prvotných ťahov prevedie simuláciu aždo ukončenia všetkých simulovaných hier. Z každéhovybraného prvotného ťahu vytvorí novú konfigurá-

ciu nastavením hodnoty políčka podľa súradníc ťahu.Vytvorenú konfiguráciu nakopíruje toľko krát, aký jeparameter šírky vyhľadávania. Konfigurácia je ďalejvstupom strategickej siete, ktorá ďalej generuje ťahya vybraný ťah aplikuje na príslušnú hraciu plochu.Každý ťah je vybraný s pravdepodobnosťou určenoustrategickou sieťou. Simulácia končí, keď je na všetkýchkonfiguráciách splnená podmienka ukončenia hry. Výs-ledné hodnotenie prvotného ťahu je pomer výhier aprehier. Druhá metóda sa od predošlej líši tým, žesimulácia prebieha do určenej hĺbky a aproxmáciahodnotenia je určená pomocou ohodnocovacej siete.Narozdiel od AlphaGo, tieto metódy nepoužívajú zľa-vový parameter, ktorý zvyšuje kvalitu hier ukončenýchskôr.

2.3 Architektúry sietíStrategická sieť z obrázku 2, ktorá vyberá ťahy podľapravdepodobností, má päť rôznych architektúr, ktorémajú od dvoch po šesť konvolučných vrstiev. Každá znich, okrem poslednej, je nasledovaná ReLU vrstvoua vrstvou pre normalizácu dávky (batch normaliza-tion). Pretože zároveň je vstupom Softmax vrstvy [3].Strategické siete sú navrhnuté tak, aby okolie, o ktorommala informácia každá pozícia, boli minimálne dvepolíčka z každej strany. Toto je nutné, pretože kľúčovou

Obrázok 3. Architektúra ohodnocovacej siete s tromi konvolučnými vrstvami. Vstupná hracia plocha jeohraničená výplňou pre označenie okraja plochy. Výstupom sú dve hodnoty určujúce pravdepodobnosť výhry.

100 101 102

po et opakovaní

100

101

102

103

104po

et o

pako

vaný

ch h

ier

1 2 3 4 5 6 7 8po et opakovaní

100

101

102

103

104

105

poet

opa

kova

ných

hie

r

Obrázok 4. Histogram hier a ich opakovaní v starej(hore) a novej (dole) vygenerovanej dátovej sade. Prigenerovaní novej dátovej sady boli začiatky hiernáhodné, čo zabezpečilo minimalizáciu opakovaniajednotlivých hier.

úlohou je vyhľadávanie pätice kameňov v rade. Ideálneje, aby okolie bolo ešte väčšie, pretože aj políčka vokolí plochy so stranou o veľkosti päť políčok môžurozhodovať o kvalite danej konfigurácie.

Strategické siete, ktoré sa líšia počtom konvoluč-ných vrstiev, boli navrhnuté tak, aby jedna iteráciatrvala približne 30 až 50 milisekúnd. Ich architektúrysú podrobne popísané v tabuľke 1. Čas bol zmeranýpri počítaní na grafickej karte a veľkosti dávky o 512hracích plochách. Približne rovnaká dĺžka iteráciebola dosiahnutá zväčšovaním a zmenšovaním počtu

20 40 60 80 100 120 140po et ahov

100

101

102

103

104

poet

hie

r50 100 150 200 250

po et ahov

100

101

102

103

poet

hie

r

Obrázok 5. Histogram hier a ich dĺžky v starej(hore) a novej (dole) vygenerovanej dátovej sade.Najviac vygenerovaných hier malo v oboch dátovýchsadách dĺžku približne 30 ťahov.

výstupov jednotlivých konvolučných vrstiev.Zatial nie je zistené, či je pre ohodnocovaciu sieť

vhodné sledovať okolie 7x7, alebo väčšie, pretozedoteraz navrhnuté neurónové siete neurčovali zmyslu-plné pravdepodobnosti výhry. Celková architektúra jepodobná ako pri ohodnocovacej sieti. Rozdiel medzistrategickou a ohodnocovacou sieťou je v použití združo-vacej (pooling) vrstvy po každej druhej konvolúcii. Toumožnuje zväčšiť sledované okolie, a hodnotenie týmzahrnúť viacero políčok. Celkovo je použitých šesťkonvolučných vrstiev nasledovaných Softmax vrstvou.Na obrázku 3 je zobrazená ohodnocovacia sieť s tromi

2 3 4 5 6po et konvolu ných vrstiev

0.0

0.2

0.4

0.6

0.8

1.0

pres

nos

trénovanie na v etkých ahoch

testovacie dátatrénovacie dáta

2 3 4 5 6po et konvolu ných vrstiev

0.0

0.2

0.4

0.6

0.8

1.0

pres

nos

trénovanie na výherných ahoch

testovacie dátatrénovacie dáta

Obrázok 6. Úspešnosť jednotlivých strategických sietí na testovacej a trénovacej dátovej sade. Plná čiarareprezentuje uhádnutie ťahu a prerušovaná, že hľadaný ťah bol medzi piatimi najpravdepodobnejšími. Kvôlirelatívne malej trénovacej dátovej sade sú niektoré neurónové siete mierne pretrénované.

konvolučnými vrstvami.

3. Experimenty

Pre prácu s neurónovými sieťami je použitá knižnicacaffe a jej nadstavba v jazyku Python. Vďaka tomubolo možné vytvoriť jednoduché skripty pre trénovaniea takziež vyhodnocovanie sietí pri samotnom hraní.Pre porovnanie schopností umelej inteligencie s dos-tupnými programami je vhodný herný klient Piskvork.S ním je možné používať programy pre hranie gomoku,ktoré sú zverejnené na rovnakej stránke. Všetky pro-gramy sú zoradené podľa skóre, ktoré určuje ich schop-nosti. Niektoré majú taktiež zverejnený zdrojový kód.

Dáta pre trénovanie neurónových sietí boli získanéukladaním hier hraných medzi stiahnutými progra-mami. Vybrané programy boli umiestnené v rebríčkuna prvom až dvadsiatom mieste. Pri generovaní dá-tovej sady boli súperiace programy rôzne kombino-vané kvôli zvýšeniu variability hier, avšak to nes-tačilo. Pôvodne bolo vygenerovaných 19 753 hier aiba 3 953 bolo unikátnych. Problém bol, že všetkyhry začínali na prázdnej hracej doske, a preto vzniklomálo unikátnych hier. Situáciu vyriešila možnosť za-čať hru z uloženej konfigurácie a náhodne ju otáčať.To umožnilo zaznamenať 16 831 hier, z ktorých bolo16 379 unikátnych. Porovnanie dĺžky a opakovaníjednotlivých hier pôvodnej a novej dátovej sady jepopísané na obrázkoch 4 a 5.

Z experimentov, zaznamenaných v tabuľke 2, vy-plynulo, že strategická sieť dokáže konkurovať nižšieumiestneným programom zo súťaže Gomocup, aleproti vyššie umiestneným už nie je schopná vyhrať.Pozorovaním priebehu hier sa zistilo, že strategickásieť hrá zo začiatku defenzívne, ale má problém za-končiť hru. To môže byť ovplyvnené pretrénovanímvzhľadom na začiatočné pozície.

Pre ohodnocovaciu sieť zatiaľ nebola nájdená vhodnáarchitektúra, preto nebolo možné zaznamenať žiadneexperimenty. Doteraz natrénované architektúry neurčo-vali zmysluplné pravdepodobnosti výhry.

4. ZáverTáto práca sa zaoberala vytvorením umelej inteligen-cie, ktorá dokáže konkurovať programom, ktoré použí-vajú predom definované pravidlá a heuristiky pre urče-nie ťahu. Pre trénovanie je použitá sada hier vytvorenáhraním programov zúčastnených v súťaži Gomocup.Týmto postupom sa podarilo vytvoriť trénovaciu atestovaciu sadu s približne 20000 unikátnymi hrami.Natrénovaná strategická sieť dokázala poraziť nižšieumiestnené programy v súťaži Gomocup.

Vytvorená umelá inteligencia môže byť stále vy-lepšená. Je možné zdokonaliť prehľadávanie stavo-vého priestoru, prípadne experimentovať s väčšímiarchitektúrami strategickej a aj ohodnocovacej siete.Taktiež sa dá experimentovať s parametrami jednotli-vých vrstiev, prípade s parametrami trénovania a sle-dovať vplyv na výsledok trénovania.

PoďakovanieChcel by som poďakovať vedúcemu mojej bakalárskejpráce, Ing. Michalovi Hradišovi, Ph.D. za pomoc aodborný dohľad. Taktiež by som chcel poďakovať zaprístup ku výpočtovým a úložným zariadeniam pa-triacim skupinám, ktoré prispievajú k Národnej in-fraštruktúrnej sieti MetaCentrum poskytovanej podprogramom ”Projekty veľkého výskumu, vývoja a in-ovácii infraštruktúr” (CESNET LM2015042).

Literatúra[1] David. Silver et al. Mastering the game of go with

deep neural networks and tree search. Nature,529(7587):484–489, Jan 2016. Article.

[2] Yuxi Li. Deep reinforcement learning: Anoverview. CoRR, abs/1701.07274, 2017.

[3] W. Liu, Y. Wen, Z. Yu, and M. Yang. Large-Margin Softmax Loss for Convolutional NeuralNetworks. ArXiv e-prints, December 2016.

http://gomocup.org/download-gomocup-manager/

Documents

Učiaca sa umelá inteligencia pre piškvorky - Excel@FIT 2018excel.fit.vutbr.cz/submissions/2017/058/58.pdf · xbakom01@stud.ﬁt.vutbr.cz, Fakulta informačných technológií,