Upload
abedi
View
49
Download
0
Embed Size (px)
DESCRIPTION
Emergencia strat é gie hry. Peter Lacko Fakulta informatiky a informa čných technológií. Emergencia stratégie hry. vznik stratégie hry bez znalosti experta Neurónové siete Evolučné algoritmy Použitá hra D áma (Zjednodu šená dáma ) Othello (CEC 2006 Othello competition) - PowerPoint PPT Presentation
Citation preview
1
Emergencia stratégie hry
Peter LackoFakulta informatiky a informačných technológií
2
Emergencia stratégie hry
vznik stratégie hry bez znalosti expertaNeurónové sieteEvolučné algoritmyPoužitá hra
Dáma (Zjednodušená dáma) Othello (CEC 2006 Othello competition) Go (patter recognition)
Analýza siete
3
Neurónová sieť
Predspracovanie vstupov
Skryté vrstvy
4
Učenie s trestom a odmenou
Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie).
Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.
5
Mixture of Experts
Mixture of experts Hybrid Mixture of
Experts Meta PI
Iná štruktúra Rôzne topológie
expertov Evolučný princíp
6
Ciele
Vznik stratégie hry bez znalosti experta experta
Neurónové siete Mixture of experts Reinforcement learning
Použitá hra Dáma (Zjednodušená dáma) Othello (CEC 2006 Othello competition)
Analýza siete
7
Pravidlá zjedodušenej dámy
Hra ako vhodný problém pre umelú inteligenciu hra je štruktúrovaný dobre definovaný problém ľubovoľný stav hry má presnú reprezentáciu úspešnosť riešenia sa dá dobre merať
Zjednodušená dáma vyhráva hráč ktorý si vytvorí dámu
8
Model hry dáma
model hry je pokrytý algoritmom MiniMax do hĺbky 3
1
232
1
3
9
Formalizácia hry
diskrétna množina stavov diskrétna množina akcií množina ohodnotení
P
G = G 1
G = G 2
G = G 1
P= P i
P= P j
..............
..............
.........................
........
P1
P1
P1
z1
z1
z1
P2
P2
P2
z2
z2
z2
P i
P j
P j
zi
zj
zk
Pn
Pm
Pp
zn
zm
zp
10
Učenie s trestom a odmenou
Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie).
Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.
11
Učenie s trestom a odmenou
dvojvrstvová dopredná neurónová sieť sieť si upravuje svoje váhy až po odohraní partie
pomocou TD() pravidla na učenie nepotrebujeme učitela, stačí nám, ak
vieme rozhodnúť či sieť vyhrala alebo prehrala
j
1
J
1r
y1
yj
yJ
w1
wj
wJ
x1
xi
xI
v11
v1i
v1I
vJ1v
Ji
vJI
...
... ...
...
12
Evolučný prístup
populácia neurónových sietí hrá megaturnaj z ktorého výsledku získajú fitness
fitness ovplyvňuje pravdepodobnosť repredukcie
reprodukcia je spojená s mutáciou (pripočítanie náhodného čísla k váhe neurónovej siete)
13
Dosiahnuté výsledky
Výsledok učenia neurónovej siete s učiteľom (MiniMax) 64 skrytých neurónv rýchlosťou učenia 0,01 koeficientom =0,9
MiniMax hĺbky 1 MiniMax hĺbky 3
14
Dosiahnuté výsledky
Priemerný výsledok adaptácie populácie 20 neurónových sietí učeným metódou trestu a odmenu, testovaných na algoritme MiniMax hĺbky 3
64 skrytých neurónov rýchlosťou učenia 0,01 koeficientom =0,9
15
Dosiahnuté výsledky
Priemerný výsledok evolučnej adaptácie populácie neurónových sietí testovaných proti algoritmu MiniMax hĺbky 3
Megaturnaj s MiniMax-om Megaturnaj bez MiniMax-u
16
Analýza siete
sieť sa snaží dostať svoje figúrky na víťazné políčka
figúrky z 2 rady by mali čo najskôr opustiť svoje pozície a ísť do útoky
figúrky z prvého radu by tam mali zostať.
sieť sa bude snažiť zabrániť preniku súpera k jeho víťaznej pozícií.
súperove figúrky stojace na políčkach ktoré znamenajú víťazstvo sa bude sieť snažiť z tejto pozície vylákať
17
Odozva siete na figúrku
1
2
3
4
56
78
A
B
C
D
E
F
G
H
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0,9-1
0,8-0,9
0,7-0,8
0,6-0,7
0,5-0,6
0,4-0,5
0,3-0,4
0,2-0,3
0,1-0,2
0-0,1
1
2
3
45
67
8
A
B
C
D
E
F
G
H
0
0,1
0,2
0,3
0,4
0,5
0,6
0,5-0,6
0,4-0,5
0,3-0,4
0,2-0,3
0,1-0,2
0-0,1
Odozva na hráčovu figúrku Odozva na súperovu figúrku
18
Paralelné spracovanie
megaturnaj 100 agentov je 9900 hierpoužité rozhranie zasielania správ MPIpri našich pokusoch sme používali 12
počítačov (Intel P4 2,6GHz) spojených 100Mbit prepínanou sieťou
zrýchlenie oproti jednému počítaču dosahovalo hodnotu 8,5-10x
19
Zhodnotenie
neurónová sieť bola schopná naučiť sa hrať hru a vytvoriť si stratégiu ktorou bola schopná poraziť svojho súpera
algoritmus MiniMax od určitej hĺbky generovania stromu neurónovú sieť porážal
rýchlosť generovania odpovede bola pri neurónovej sieti neporovnateľne rýchlejšia a taktiež pamäťové nároky neurónovej siete sú minimálne
nevýhodou neurónovej siete je potreba učenia, ktoré môže byť zdĺhavé
neurónová sieť si dokáže pri hre so slabším protivníkom vytvoriť stratégiu, ktorá je vhodná aj proti silnejším protivníkom.
20
Ďakujem za Vašu pozornosť
21
Sekvecia pozícií s ich ohodnotením
Kde ohodnotenie je
Potom sa snažíme minimalizovať funkciu
TD() pravidlo na zmenu váh neurónovej siete
Neurónová sieť
j
1
J
1r
y1
yj
yJ
w1
wj
wJ
x1
xi
xI
v11
v1i
v1I
vJ1v
Ji
vJI
...
... ...
...
P P P zm reward1 2, ,..., ,
1
1rewardsekvencia pozícií je vítazná
sekvencia pozícií je prehranáz
2
1
12
m
reward tt
E w z G ;w
x
11
tt k k
t t tk
rw r r
w
22
0
10
20
30
40
50
60
70
80
90
100
0 1 2 3 4 5 6
hĺbka MiniMax-u
% v
yhra
ných
par
tií
TD(lambda)
random