22
1 Emergencia stratégie hry Peter Lacko Fakulta informatiky a informačných technológií

Emergencia strat é gie hry

  • Upload
    abedi

  • View
    49

  • Download
    0

Embed Size (px)

DESCRIPTION

Emergencia strat é gie hry. Peter Lacko Fakulta informatiky a informa čných technológií. Emergencia stratégie hry. vznik stratégie hry bez znalosti experta Neurónové siete Evolučné algoritmy Použitá hra D áma (Zjednodu šená dáma ) Othello (CEC 2006 Othello competition) - PowerPoint PPT Presentation

Citation preview

Page 1: Emergencia strat é gie hry

1

Emergencia stratégie hry

Peter LackoFakulta informatiky a informačných technológií

Page 2: Emergencia strat é gie hry

2

Emergencia stratégie hry

vznik stratégie hry bez znalosti expertaNeurónové sieteEvolučné algoritmyPoužitá hra

Dáma (Zjednodušená dáma) Othello (CEC 2006 Othello competition) Go (patter recognition)

Analýza siete

Page 3: Emergencia strat é gie hry

3

Neurónová sieť

Predspracovanie vstupov

Skryté vrstvy

Page 4: Emergencia strat é gie hry

4

Učenie s trestom a odmenou

Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie).

Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

Page 5: Emergencia strat é gie hry

5

Mixture of Experts

Mixture of experts Hybrid Mixture of

Experts Meta PI

Iná štruktúra Rôzne topológie

expertov Evolučný princíp

Page 6: Emergencia strat é gie hry

6

Ciele

Vznik stratégie hry bez znalosti experta experta

Neurónové siete Mixture of experts Reinforcement learning

Použitá hra Dáma (Zjednodušená dáma) Othello (CEC 2006 Othello competition)

Analýza siete

Page 7: Emergencia strat é gie hry

7

Pravidlá zjedodušenej dámy

Hra ako vhodný problém pre umelú inteligenciu hra je štruktúrovaný dobre definovaný problém ľubovoľný stav hry má presnú reprezentáciu úspešnosť riešenia sa dá dobre merať

Zjednodušená dáma vyhráva hráč ktorý si vytvorí dámu

Page 8: Emergencia strat é gie hry

8

Model hry dáma

model hry je pokrytý algoritmom MiniMax do hĺbky 3

1

232

1

3

Page 9: Emergencia strat é gie hry

9

Formalizácia hry

diskrétna množina stavov diskrétna množina akcií množina ohodnotení

P

G = G 1

G = G 2

G = G 1

P= P i

P= P j

..............

..............

.........................

........

P1

P1

P1

z1

z1

z1

P2

P2

P2

z2

z2

z2

P i

P j

P j

zi

zj

zk

Pn

Pm

Pp

zn

zm

zp

Page 10: Emergencia strat é gie hry

10

Učenie s trestom a odmenou

Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie).

Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

Page 11: Emergencia strat é gie hry

11

Učenie s trestom a odmenou

dvojvrstvová dopredná neurónová sieť sieť si upravuje svoje váhy až po odohraní partie

pomocou TD() pravidla na učenie nepotrebujeme učitela, stačí nám, ak

vieme rozhodnúť či sieť vyhrala alebo prehrala

j

1

J

1r

y1

yj

yJ

w1

wj

wJ

x1

xi

xI

v11

v1i

v1I

vJ1v

Ji

vJI

...

... ...

...

Page 12: Emergencia strat é gie hry

12

Evolučný prístup

populácia neurónových sietí hrá megaturnaj z ktorého výsledku získajú fitness

fitness ovplyvňuje pravdepodobnosť repredukcie

reprodukcia je spojená s mutáciou (pripočítanie náhodného čísla k váhe neurónovej siete)

Page 13: Emergencia strat é gie hry

13

Dosiahnuté výsledky

Výsledok učenia neurónovej siete s učiteľom (MiniMax) 64 skrytých neurónv rýchlosťou učenia 0,01 koeficientom =0,9

MiniMax hĺbky 1 MiniMax hĺbky 3

Page 14: Emergencia strat é gie hry

14

Dosiahnuté výsledky

Priemerný výsledok adaptácie populácie 20 neurónových sietí učeným metódou trestu a odmenu, testovaných na algoritme MiniMax hĺbky 3

64 skrytých neurónov rýchlosťou učenia 0,01 koeficientom =0,9

Page 15: Emergencia strat é gie hry

15

Dosiahnuté výsledky

Priemerný výsledok evolučnej adaptácie populácie neurónových sietí testovaných proti algoritmu MiniMax hĺbky 3

Megaturnaj s MiniMax-om Megaturnaj bez MiniMax-u

Page 16: Emergencia strat é gie hry

16

Analýza siete

sieť sa snaží dostať svoje figúrky na víťazné políčka

figúrky z 2 rady by mali čo najskôr opustiť svoje pozície a ísť do útoky

figúrky z prvého radu by tam mali zostať.

sieť sa bude snažiť zabrániť preniku súpera k jeho víťaznej pozícií.

súperove figúrky stojace na políčkach ktoré znamenajú víťazstvo sa bude sieť snažiť z tejto pozície vylákať

Page 17: Emergencia strat é gie hry

17

Odozva siete na figúrku

1

2

3

4

56

78

A

B

C

D

E

F

G

H

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0,9-1

0,8-0,9

0,7-0,8

0,6-0,7

0,5-0,6

0,4-0,5

0,3-0,4

0,2-0,3

0,1-0,2

0-0,1

1

2

3

45

67

8

A

B

C

D

E

F

G

H

0

0,1

0,2

0,3

0,4

0,5

0,6

0,5-0,6

0,4-0,5

0,3-0,4

0,2-0,3

0,1-0,2

0-0,1

Odozva na hráčovu figúrku Odozva na súperovu figúrku

Page 18: Emergencia strat é gie hry

18

Paralelné spracovanie

megaturnaj 100 agentov je 9900 hierpoužité rozhranie zasielania správ MPIpri našich pokusoch sme používali 12

počítačov (Intel P4 2,6GHz) spojených 100Mbit prepínanou sieťou

zrýchlenie oproti jednému počítaču dosahovalo hodnotu 8,5-10x

Page 19: Emergencia strat é gie hry

19

Zhodnotenie

neurónová sieť bola schopná naučiť sa hrať hru a vytvoriť si stratégiu ktorou bola schopná poraziť svojho súpera

algoritmus MiniMax od určitej hĺbky generovania stromu neurónovú sieť porážal

rýchlosť generovania odpovede bola pri neurónovej sieti neporovnateľne rýchlejšia a taktiež pamäťové nároky neurónovej siete sú minimálne

nevýhodou neurónovej siete je potreba učenia, ktoré môže byť zdĺhavé

neurónová sieť si dokáže pri hre so slabším protivníkom vytvoriť stratégiu, ktorá je vhodná aj proti silnejším protivníkom.

Page 20: Emergencia strat é gie hry

20

Ďakujem za Vašu pozornosť

Page 21: Emergencia strat é gie hry

21

Sekvecia pozícií s ich ohodnotením

Kde ohodnotenie je

Potom sa snažíme minimalizovať funkciu

TD() pravidlo na zmenu váh neurónovej siete

Neurónová sieť

j

1

J

1r

y1

yj

yJ

w1

wj

wJ

x1

xi

xI

v11

v1i

v1I

vJ1v

Ji

vJI

...

... ...

...

P P P zm reward1 2, ,..., ,

1

1rewardsekvencia pozícií je vítazná

sekvencia pozícií je prehranáz

2

1

12

m

reward tt

E w z G ;w

x

11

tt k k

t t tk

rw r r

w

Page 22: Emergencia strat é gie hry

22

0

10

20

30

40

50

60

70

80

90

100

0 1 2 3 4 5 6

hĺbka MiniMax-u

% v

yhra

ných

par

tií

TD(lambda)

random