Emergencia strat é gie hry

1

Emergencia stratégie hry

Peter LackoFakulta informatiky a informačných technológií

2

Emergencia stratégie hry

vznik stratégie hry bez znalosti expertaNeurónové sieteEvolučné algoritmyPoužitá hra

Dáma (Zjednodušená dáma) Othello (CEC 2006 Othello competition) Go (patter recognition)

Analýza siete

3

Neurónová sieť

Predspracovanie vstupov

Skryté vrstvy

4

Učenie s trestom a odmenou

Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie).

Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

5

Mixture of Experts

Mixture of experts Hybrid Mixture of

Experts Meta PI

Iná štruktúra Rôzne topológie

expertov Evolučný princíp

6

Ciele

Vznik stratégie hry bez znalosti experta experta

Neurónové siete Mixture of experts Reinforcement learning

Použitá hra Dáma (Zjednodušená dáma) Othello (CEC 2006 Othello competition)

Analýza siete

7

Pravidlá zjedodušenej dámy

Hra ako vhodný problém pre umelú inteligenciu hra je štruktúrovaný dobre definovaný problém ľubovoľný stav hry má presnú reprezentáciu úspešnosť riešenia sa dá dobre merať

Zjednodušená dáma vyhráva hráč ktorý si vytvorí dámu

8

Model hry dáma

model hry je pokrytý algoritmom MiniMax do hĺbky 3

1

232

1

3

9

Formalizácia hry

diskrétna množina stavov diskrétna množina akcií množina ohodnotení

P

G = G 1

G = G 2

G = G 1

P= P i

P= P j

..............

..............

.........................

........

P1

P1

P1

z1

z1

z1

P2

P2

P2

z2

z2

z2

P i

P j

P j

zi

zj

zk

Pn

Pm

Pp

zn

zm

zp

10


Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie).

Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

11


dvojvrstvová dopredná neurónová sieť sieť si upravuje svoje váhy až po odohraní partie

pomocou TD() pravidla na učenie nepotrebujeme učitela, stačí nám, ak

vieme rozhodnúť či sieť vyhrala alebo prehrala

j

1

J

1r

y1

yj

yJ

w1

wj

wJ

x1

xi

xI

v11

v1i

v1I

vJ1v

Ji

vJI

...

... ...

...

12

Evolučný prístup

populácia neurónových sietí hrá megaturnaj z ktorého výsledku získajú fitness

fitness ovplyvňuje pravdepodobnosť repredukcie

reprodukcia je spojená s mutáciou (pripočítanie náhodného čísla k váhe neurónovej siete)

13

Dosiahnuté výsledky

Výsledok učenia neurónovej siete s učiteľom (MiniMax) 64 skrytých neurónv rýchlosťou učenia 0,01 koeficientom =0,9

MiniMax hĺbky 1 MiniMax hĺbky 3

14


Priemerný výsledok adaptácie populácie 20 neurónových sietí učeným metódou trestu a odmenu, testovaných na algoritme MiniMax hĺbky 3

64 skrytých neurónov rýchlosťou učenia 0,01 koeficientom =0,9

15


Priemerný výsledok evolučnej adaptácie populácie neurónových sietí testovaných proti algoritmu MiniMax hĺbky 3

Megaturnaj s MiniMax-om Megaturnaj bez MiniMax-u

16

Analýza siete

sieť sa snaží dostať svoje figúrky na víťazné políčka

figúrky z 2 rady by mali čo najskôr opustiť svoje pozície a ísť do útoky

figúrky z prvého radu by tam mali zostať.

sieť sa bude snažiť zabrániť preniku súpera k jeho víťaznej pozícií.

súperove figúrky stojace na políčkach ktoré znamenajú víťazstvo sa bude sieť snažiť z tejto pozície vylákať

17

Odozva siete na figúrku

1

2

3

4

56

78

A

B

C

D

E

F

G

H

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0,9-1

0,8-0,9

0,7-0,8

0,6-0,7

0,5-0,6

0,4-0,5

0,3-0,4

0,2-0,3

0,1-0,2

0-0,1

1

2

3

45

67

8

A

B

C

D

E

F

G

H

0

0,1

0,2

0,3

0,4

0,5

0,6

0,5-0,6

0,4-0,5

0,3-0,4

0,2-0,3

0,1-0,2

0-0,1

Odozva na hráčovu figúrku Odozva na súperovu figúrku

18

Paralelné spracovanie

megaturnaj 100 agentov je 9900 hierpoužité rozhranie zasielania správ MPIpri našich pokusoch sme používali 12

počítačov (Intel P4 2,6GHz) spojených 100Mbit prepínanou sieťou

zrýchlenie oproti jednému počítaču dosahovalo hodnotu 8,5-10x

19

Zhodnotenie

neurónová sieť bola schopná naučiť sa hrať hru a vytvoriť si stratégiu ktorou bola schopná poraziť svojho súpera

algoritmus MiniMax od určitej hĺbky generovania stromu neurónovú sieť porážal

rýchlosť generovania odpovede bola pri neurónovej sieti neporovnateľne rýchlejšia a taktiež pamäťové nároky neurónovej siete sú minimálne

nevýhodou neurónovej siete je potreba učenia, ktoré môže byť zdĺhavé

neurónová sieť si dokáže pri hre so slabším protivníkom vytvoriť stratégiu, ktorá je vhodná aj proti silnejším protivníkom.

20

Ďakujem za Vašu pozornosť

21

Sekvecia pozícií s ich ohodnotením

Kde ohodnotenie je

Potom sa snažíme minimalizovať funkciu

TD() pravidlo na zmenu váh neurónovej siete

Neurónová sieť

j

1

J

1r

y1

yj

yJ

w1

wj

wJ

x1

xi

xI

v11

v1i

v1I

vJ1v

Ji

vJI

...

... ...

...

P P P zm reward1 2, ,..., ,

1

1rewardsekvencia pozícií je vítazná

sekvencia pozícií je prehranáz

2

1

12

m

reward tt

E w z G ;w

x

11

tt k k

t t tk

rw r r

w

22

0

10

20

30

40

50

60

70

80

90

100

0 1 2 3 4 5 6

hĺbka MiniMax-u

% v

yhra

ných

par

tií

TD(lambda)

random

Documents

Emergencia strat é gie hry