Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Tanulás elosztott
rendszerekben
(Egyedi ágens) tanulásáról röviden
Célja: javulás (feladavégzésben), adaptalódás, robusztusság
(környezet), kompenzálás, hibatürés (ismerethiány, meghibasodás).
Miből: példák (forrásuk a környezet), háttértudás (forrása a fejlesztő),
példák minősítése (kritikus, tanár).
Megközelítések: felügyelt, megerősítéses, felügyelet nélküli.
Tipikus tanulási absztrakció: induktív függvénytanulás (példák alapján),
ami osztályozás (döntés), vagy regresszió (approximáció).
Absztrakt tanulási algoritmus: helyes függvény keresése hipotézisek
terében.
Absztrakt tanulási algoritmus problémái: tanulási zaj, tanulási elfogultság,
tanulás komplexitása (VKH tanulás), empirikus és háttér tananyag
kölcsönhatása, és nagyon sok konkrét algoritmus (tudásreprezentáció
függvényében).
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
MAS tanulás - Tények/kihivások
Hipotézistér
Itt a tanulás szintén keresés a hipotézisek terében, de a tér (a többi ágens
miatt) most szokotlanul nagy.
Kialakuló (Emergent)
A kölcsönhatások bonyolúltága miatt a tanult viselkedésben bekövetkező
kis változások nem megjósolható (emergent, kialakuló) változásokhoz
vezethetnek a szervezet viselkedésének egészében.
Játékelmélet
Többágenses szervezetben több független tanulási folyamat van jelen.
Mindegyik ágens tanul és adaptálódik mások által meghatározott
kontextusban. Ilyen tanulás természetes módon játékelméleti modellekhez
vezet, amelyek kapcsolata tanulással még nem tisztázott.
Tanítók
A kölcsönhatások említett komplexitása miatt nemigen esélyes felügyelt
tanulásra törekedni. Többágenses rendszer együttes tanulásához nehéz
megfelelő tudású kritikust találni.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Megerősítés
Amiatt ez egyik elterjedtebb tanulási forma a többágenses megerősítéses
(kooperatív és versengő) tanulás és az evolúciós számítások (cooperative/
competetive coevolution).
Stacionarítás
Több, parallel és konkurrens módon tanuló ágens jelenléte ágens
környezetét nemstacionáriussá teszi, ami sérti a tradicionális (egyágenses)
tanulási módszerek egyik alapvető feltételét.
Dinamika
A környezet mások tanulásának ütemében változik. Ha az ugyanilyen gyors,
mint az ágensünk tanulása, akkor az soha nem éri el a „megtanult”-nak
nevezhető állapotot.
Érdemhozzárendelés
A környezeti változások az összes ágens együttes cselekvésének hatására
következnek be. Ágensünk cselekvése mennyire volt ebben meghatározó?
Milyen nagy az érdeme/bűne a közösség szempontjából kifejezetten
előnyös/káros környezeti állapot elérésében?
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Nash-egyensúly
Stacionarítás nélkül az optimálisan megtanulthoz való konvergencia
(a példszám növekedésével) nem biztosítható. Azonban a tanulással
valahová tartani kell. Nash-egynsúly egy alternatíva, de láttuk, hogy ez
nemigen egy optimális szociális jólét alternatívája.
És mi van, ha több Nash-egyensúly van?
Konvergencia
A tanulás konvergenciája megtévesztő lehet és a mérnöki szempontból
nem lehet egyedüli cél. Elképzelhető, hogy a konvergens tanulás a szociális
jólétre nézve (hasznosságban) veszteséges, a nem konvergens tanuláshoz
képest.
Kommunikáció
Kommunikáció egy információforrás. Információ szükséges a tanuláshoz.
Azonban kommunikáció erőforrásigényes, a tanulás is. Mi van, ha egy
ágens korlátosan racionális? Milyen legyen akkor a kommunikáció?
Lehet tanulni kommunikáció érdekében is?
Direkt kommunikáció (dekódolható változás a környezetben)
(megosztott tárak, jeladás, üzenetváltás)
Indirekt kommunikáció (ferromonok, nyomok, pózok, …)
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Tanulás egymásról: mivel más ágensek a környezet részei, azok modelljét
meg kell tanulni a környezeti hatások hatásos jóslása érdekében.
Tanulás közösségről: egy szervezet minőségileg több, ágensegyedek
kitanulását követően meg kell tanulni a szervezetük speciális métavonásait.
Tanulás változó ágens egyedekkel való kölcsönhatásból: „tanulom a
modelledet, de számodra én vagyok a környezeti tényező, így te tanulsz
engem. Tanulás révén változom, a változó modellemet tanulva, változol te
is. A változó modelledet tanulva annál inkább én is változom, ...”
Csoporttagok felejtése csoport által: a megtanult információ érvényét
veszti, ha az objektuma eltűnik, azonban ennek érzékelése egyáltalán nem
triviális ott, ahol az „érzékelésnek” fő módja (bizonytalan) kommunikáció.
Tanulni
Másokról
Másoktól
Mások ellenére
Mások segítségével
Tanulás tárgyalás-ból
tárgyalás közben
tárgyalás végeztével
Fetétlenül szükséges egy stabil ágensközösség
(„stacionárius szervezet”, különben lehetetlen tanulni).
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
„MAS hatás” - A tanuló algoritmus formális célja, ill. a tanuló algoritmus
sikeres elvégzése révén elért „MAS hatás” lehet nagyon nem ugyanaz.
Erősen strukturált kooperatív szervezetekben a „jóindulatú” konfliktusok
forrásainak és kerülésének a kitanulása. Itt a tanulás távlati célja =
a majdani fölösleges kommunikáció mérséklése, azáltal a későbbi
hatékonyságnövekedés.
Kooperatív, de laza, nem strukturált szervezetekben induktív módon tanuló
ágensek együttműködése. Itt a tanulás célja = mások segítségével az
egyéni tanulógörbéknek a javítása.
Alapvetően kooperatív, laza, nem strukturált szervezeteben tanuló ágensek.
Itt a tanulás célja = koordinálást megtanulni az együttműködés fokozása
érdekében.
Erősen strukturált hierarchikus és kooperatív szervezetekben, ahol egy
szervezet, mint egy metaágens, veszélyes környezetben ténykedik. Itt a
tanulás célja = egyéni, csoportos, szervezeti hatékonyság növelése
szervezeti célok elérése érdekében.
Alapvetően versengő szervezetben. Itt a tanulás célja = mások minél jobb
kitanulása a minél hatékony „visszavágás” érdekében. Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Egy szervezet egy „ellenséges” természetes
környezetben, ill. más szervezetek ellen
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Katasztrófahelyzet IT (ágensrendszer) lényege:
dinamikus, „ellenséges” (nem kooperatív),
valós-idejű környezet, korlátozott kommunikáció
lehetőségekkel
Természeti katasztrófák és az információs technológia tapasztalata
(1995-ös Kobe-i földrengés, több, mint 6 ezer áldozat, a város 1/5-e
megsemmisült):
1. A feltételezett (IT) felskálázhatóság nem volt elegendő,
2. Szükségsegítség központok (Emergency Response center) és dolgozói
sérültek/ megsemmisültek,
3. Kommunikációs kiesések, zavarok,
4. Lakosság és önkéntesek információs elszigeteltsége,
5. Nem elegendő támogatás a döntéshozatalhoz.
Kiindulás - katasztrófa-elhárítás IT problémája
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
PTS – Periodic Team Synchronization
Autonóm működés kommunikáció kiesése esetén, mégis cselekvés a
közös (csapat, szervezet) cél felé
(katasztrófaelhárítás, futball, korház/ gyármenedzsment, több űrhajóból álló
misszió, keresés/mentés (SAR search and rescue), csatatéri műveletek,
hálózati csomag routing, stb.),
Feltételezés: (lehetséges) időszakos koordinálás, korlátlan, zavartalan
kommunikációval (off-line)
majd dinamikus, valós-idejű (on-line) működés
Nem megbízható kommunikáció
üzenet érkezése csak valamilyen valószínűséggel,
üzenetvétel csak bizonyos időközönként,
kommunikációfüggőség költsége
(ha üzenetvétel nélkül nem tud cselekedni)
(ha üzenetvétel miatt nem tud cselekedni)
Tanulás valós-idejű stratégiai csapatmunkában
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
PTS ágens felépítése és tudása (az alap architektúra egy változata)
világállapota (felfrissül szenzorok, megjósolt cselekvések alapján)
hozzáférhető belső/külső viselkedés számára
belső állapot (ágens állapotváltozói)
belső viselkedés (kognitív)
külső viselkedés (kommunikációs + fizikai)
öltözői taktikai megbeszélés (LRA - Locker-Room Agreement)
komponens - amikor a csapat képes elszigetelten „szinkronizálni”
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Mi folyik az LRA-ban?
Csapat struktúra rugalmas ágensszerepek + szerepcsere protokollok,
csapatformációk szerephalmazokkal, többlépéses, többágenses
tervek meghatározott körülményekhez – set-plays
Szerep (viselkedés) specifikálása: ’merev’, ’rugalmas’ (autonómia)
Kommunikáció (kihívások): egyedi csatorna, alacsony sávszélesség,
megbízhatatlan kommunikáció, azonosítás: melyik üzenet melyik
ágensnek szól, aktív zavarás ellenséges ágensek részéről, ’álruhás’
üzenetek --- LRA – kódolási megállapodások
Üzenettípusok:
üzenet címzettje: egyedi ágens, team része, egész team
válasz: nem szükséges, szükséges
Csapatkoordinálás: LRA + ami átjön az üzenetekből valós időben
Kihívások:
LRA megbeszélések reprezentációja és végrehajtása;
Hogyan állapítjuk a szerepváltás és formációváltás legjobb időpontját;
Hogyan biztosítjuk, hogy minden ágens azonos formációt vesz fel;
Hogyan biztosítjuk, hogy egy formáció minden szerepe aktív.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Formáció 1 2, , , ..., kF R U U U
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Tanulás valós-idejű stratégiai csapatmunkában
Eredeti kísérlet (DARPA, CMU): ágens foci - bajnok 97-99 (37 csapatból)
MAS: 22 ágens
Kommunikáció: egyetlen megbízhatatlan kommunikációs csatorna (hang)
Objektummozgás: mozgás, gyorsulás, lassúlás, ..., ütközés
Játékosok teherbírása: újratermelhető, nem újratermelhető, véges.
Ágens érzékelése: aura, látás/hallás precizitása, korlátossága.
Ágensmozgás: fordulás, előrerohanás, rúgás, fogás.
Zaj: beavatkozásban, objektumok mozgásában, vizuális érzékelésben
Érzékelések, vagy üzenetek kiesése
Strategic position by attraction and repulsion (SPAR)
taszítás az ellenségtől, a csapattársaktól
vonzás aktív csapattársakhoz, labdához, az ellenség kapujához.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
RoboCup 1997, Nagoya
RoboCup-Rescue típ. projektek (https://rescuesim.robocup.org/)
Tanulható csapattevékenység kiterjesztése heterogén szerepkörű, kritikus
folyamatokkal teli környezetben célokat megvalósító ágensekre.
Szimulációk (RobotCup-Rescue Simulation) célja:
1. A szükséges információ begyűjtése, akkumulálása, továbbítása,
szelektálása, elemzése, összegzése, szétküldése.
2. Megfelelő döntéstámogatás.
3. Rendszer elosztottság megnövelt megbízhatóság és robusztusság
érdekében.
4. Folyamatos cselekvés biztosítása normális körülményektől a
szükségállapotig.
Intelligens Elosztott Rendszerek BME-MIT, 2019
Kooperáció és
intelligencia, BME-MIT
USAR (Urban Search And Rescue) Arenas
Test Arenas for
Autonomous
Mobile Robots
http://www.nist.gov/el/isd/testarenas.cfm
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Specific robotic capabilities:
Negotiate compromised and collapsed structures
Locate victims and ascertain their conditions
Produce practical sensor maps of the environment
Establish communications with victims
Deliver fluids, nourishment, medicines
Emplace sensors to identify/monitor hazards
Mark or identify best paths to victims
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Simulated Victims: Simulated victims with several signs of life such as form, motion,
head, sound and CO2 are distributed throughout the arenas …
Yellow Arena: Robots capable of fully autonomous navigation and victim identification,
this arena consists of random mazes of hallways and rooms with continuous 15° pitch
and roll ramp flooring.
Orange Arena: Robots capable of autonomous or remote teleoperative navigation and
victim identification. Moderate terrains with crossing 15° pitch and roll ramps, structured
obstacles: stairs, inclined planes, …
Red Arena: Robots capable of autonomous or remote teleoperative navigation and
victim identification. Complex stepfield terrains requiring advanced robot mobility.
Blue Arena: For robots capable of mobile manipulation on complex terrains to place
simple block or bottle payloads carried in from the start or picked up …
Black/Yellow Arena (RADIO DROP-OUT ZONE): For robots capable of autonomous
navigation with reasonable mobility to operate on complex terrains.
Black Arena (Vehicle Collapse Scenario): For robots capable of searching a simulated
vehicle collapse scenario …
Aerial Arena (< 2 KG, VTOL sUAS): For small unmanned aerial systems (< 2 kg),
vertical take-off and landing capabilities that can perform station-keeping, obstacle
avoidance, and line following tasks with varying degrees of autonomy.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
RoboCup@Home arena
Follow me, Clean up, …
„Move to the LOCATION,
find a person, and guide it to
the exit. …” stb.
EGPSR
Endurance General Purpose
Service Robot Test
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Egy szervezet tanulása (nézzünk most bele részletesebben)
(más szervezetek „ellenséges” környezetében)
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Rétegezett tanulás (Layered Learning)
közvetlen bemeneti adat – kimenet függvény tanulása nem megy
- hierarchiadekompozíció, taszk feltörése rétegekre,
- más-más koncepció tanulása rétegenként,
lokális tanulás – lokális koncepciók
alulról felfelé taszk dekompozíció adva van (feladathierarchia, ld. előbb)
alulról felfelé tanulás, amíg nem éri el a teljes probléma-komplexitást,
altászkok, granuláltság – a konkrét tartomány függvénye.
adatokból tanulás, adaptálás – tanulás minden szinten
gépi tanulás: ha kézi (szimbolikus) hangolás nem megy,
adaptálás, ha a feladat előre aluldefiniált, ha dinamikus.
tanulás eredménye egy szinten – példák a következő szint számára
minden szinten tanulás a következő szintet közvetlenül befolyásolja:
- a tanító példák szerkesztése,
- a tanításhoz szükséges tulajdonságok biztosítása,
- a kimeneti halmaz nyesése
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Rétegezett tanulás (Layered Learning)
H a hipotézisek halmaza, belőle egy h hipotézis tanulása
H: állapottulajdonságok (attributúmok) S kimenetek O
rétegezett tanulás:
hierarchikus taszkrétegek, egy réteg: Li = (Fi, Oi, Ti, Mi, hi)
Fi – az állapottulajdonságok bemeneti vektora
Oi – a kimenetek halmaza
Ti – tanító példák az Li taszk számára ( (f,o): f Fi o Oi)
Mi – a gépi tanulás algoritmusa Li rétegben, Fi – Oi függvényt legjobban
leíró hipotézis megválasztása Ti alapján,
hi – tanulás eredménye
Réteg Stratégiai szint Viselkedés Példa
1 Robot egyéni labdamegfogás
2 1-1 játékos több-ágens átadás értékelés
3 1-N játékos team átadás választás
4 team formation team stratégiai poz.
5 team-ellenség adverz stratégiai adapt.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Robot futball
viselkedés példa
L1 egyedi labda megfogása
L2 több ágens labdaátadás értékelése
L3 csapat labdaátadás kiválasztása
L1 – Labda megfogása: a megtanulása (sebesség információ nélkül)
könnyebb, mint a ’beprogramozása’
F1 – labda távolsága-1,-2, szög
O1 – megfordulás szöge
T1 – kapura lövések,
minősítés: megfogta, gól, mellément
M1 – neurális háló
h1- kb. 5000 példa után 84% megfog, 9% gól
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
L2 – Labdaátadás értékelése: több ágenses viselkedés tanulása,
labdaátadás egy másik játékosnak – sikerül-e? átveszi? A tanító példák
szerkesztésénél a passzoló és az ellenségek tudják a h1-t.
F2 – 174 tulajdonság, játékosok, ellenségek pozíciói, lényeges, lényegtelen,
… hadd szelektálja a tanuló algoritmus!
O2– -1, 1, szándékolt átadás vagy siker v. kudarc: 0 ... 1 megbízhatósági tényezővel
T2 – véletlenül helyezett játékosok,
h1 labda kezelési képességgel,
siker (társ megfogta), kudarc
(ellenségek megfogták), félrement
(senki), véletlenül választott társnál
a passzok 51%-ka sikeres,
M2 – döntési fa tanulása (irreleváns
bemenetek kiszelektálása!),
h2 - döntési fa, osztályozás + (-1 ... 1)
megbízhatósági tényező, összes
átadás 65%-ka, sikeresnek (.8-.9)
becsült átadások 79%-ka valójában
sikeres,
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
L3 – Labdaátadás szelektálása: Együttműködő/ellenséges
csapatviselkedés
h2 felhasználása tanító minták szerkesztéséhez: ha rendelkezik labdával, kinek
adja át (a legsikeresebbnek ítélt passz általában nem a stratégiailag legjobb,
azért dönthet, átadja, vagy kapura lő).
Óriási a döntési tér (ágens kurrens pozíciója, társai, ellenségei kurrens pozíciói,
társak képessége az átadás átvételére, ellenségek képessége az átadás
megfogására, társak döntési képessége, ellenségek stratégiája), a döntés jósága
csak a csapat hosszú idejű sikereiből, a tér redukálása h2-ből.
F3 – (játékos pozíciója, ...), durva helyzetbontás, 1 cselekvésfüggő
tulajdonság minden átadáshoz (h2 eredménye minden lehetséges
megfogó társhoz)
O3 – (lövés) (melyik társ),
T3 – valós mérkőzésekből,
M3 – TPOT-RL: on-line, többágenses,
megerősítéses tanulás,
Q-tanulás mintájára
(csapatbontott, átláthatatlan területek),
h3- elosztott átadás szelektálási stratégia,
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
RL algoritmus kihívásai:
1. on-line
2. nagy állapotteret kezel korlátos tanulással
3. tanulni képes, de igen késleltetett megerősítésből
4. változó helyzeteket/koncepciókat kezel
5. team-bontott helyzetekben működik
6. „elmosódó átmeneteket” kezel
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
TPOT-RL Team-Partitioned, Opaque-Transition Reinforcement Learning
Elvi (idő-különbség) Q-tanulás:
Q(s,a) = Q(s,a) + (r + max a’ Q(s’,a’) – Q(s,a))
kihasználja a „modell” ismeretét, azaz hogy a cselekvés hatására milyen
állapotba kerül az ágens környezete: T: (S, A) S.
De egyedi ágensnek nincs kontrollja a helyzet egészén, a cselekvése
folytatásán sem! „Láncolt cselekvések” – a cselekvését más ágensek
cselekvései követik. A cselekvés utáni állapot ismeretlen (másoktól függ).
A tanult stratégia: állapot cselekvés leképezés (Q tanulás)
S A ( S x A R )
Mivel az állapottér igen nagy (és így a tanulás kevés példából n.nehéz), az
állapotteret általánosítani kell kisebb komplexitású (dimenzióban redukált) V
tulajdonságtérré (feature space) (F2, ld. előbb).
S V A
(egy-egy játékos nem az egész pályán „érdekelt”)
Átláthatatlan környezetben (modell nélküli) tanulás:
Q(v, a) = Q(v, a) + (r – Q(v, a))
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Mi lehet itt a megerősítés?
r -Qmax, Qmax tlim-belül a jövőből, mindkettő problémafüggő
Probléma: a megerősítés túl ritka! (gól, mérkőzés-, bajnokság
végeredménye) ágens: kb. 10 tanuló példa/ 10 perces játék nagyon kevés!
hatékony tanulás kell!
Megerősítés kérdése még egyszer:
- gól, igazi megerősítés, de ritka,
- „belső” megerősítés, környezeti megfigyelések alapján
(jelen esetben a labda pályája alapján)
rúgás pillanatában megjegyzi a labda pozícióját: xt-t
r = R(labda pozíció tlim)
r = a labda out-ra megy (a gól is az): t + t0 (t0 tlim), de minél
később, annál kevesebb visszakapja a labdát: t + tr (tr tlim)
a labda még mindig a pályán: t + tlim
az ágens a labda átlagos pozícióját számolja (megfigyelésből)
ha xavg xt r 0, annál nagyobb, minél közelebb a (ellenfél) kapuhoz
ha xavg xt r 0 annál nagyobb, minél közelebb a (saját) kapuhoz
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Többágenses megerősítéses tanulás
- együttműködésben, versengésben
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
MARL – Multi Agent Reinforcement Learning
Többágenses megerősítéses tanulás
Kezdjük 1 db ágenssel. Legyenek a környezet állapotai s-ek, ágens cselekvései
a-k, ágens cselekvéseit meghatározó eljárásmód p, ill. ágens cselekvés-érték
függvénye Q(s,a). Az állapotok és a cselekvések közötti kapcsolatot az un. Markov
döntési folyamat (MDF) írja le, T(s,a,s’) átmenet-valószínűségel.
Egyes állapotokban ágens r(s,a,s’) közvetlen megerősítést kap.
Ágens célja megállapítani azt az optimális eljárásmódot, ami a diszkont hátralévő
jutalmat (az sk állapottól végtelen jövőbe) maximálja,
ahol γ a diszkont faktor és r a megerősítés.
Adott eljárásmód mellett az ágens cselekvés-érték függvényt tanul
1
0
j
k k j
j
R E r
1
0
, | , ,j
k j k k
j
Q s a E r s s a ap p
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
MARL – Multi Agent Reinforcement Learning
Többágenses megerősítéses tanulás
A lehető legjobb eredmény az optimális cselekvés-érték függvény:
ami teljesíti az un. Bellman egyenletet:
, max ,Q s a Q s ap
p
, ( , , ) ( , , ) max ,a
s S
Q s a T s a s r s a s Q s a
Az ágens eljárásmódja mohó:
ami optimális, ha Q is optimális.
argmax ,as Q s ap
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
A Bellman-egyenlet ismeretlen r és T mellett az un. Q-tanulással oldható meg
(jelen formában időkülönbség Q-tanulással):
Q-tanulás bizonyos feltételek mellett optimális Q-hoz konvergál.
A feltételek közül a legfontosabb, hogy a tanuló ágensnek véges nem nulla
valószínűséggel ki kell próbálni minden létező cselekvését.
Nem tud tehát csak mohó lenni, a mohóságát felfedezési igénnyel kell vegyítenie.
A mohóság + felfedezés keverék viselkedést biztosítani tudjuk:
- ε-mohósággal: az ágens ε valószínűséggel véletlen cselekvést választ, ill. 1-ε
valószínűséggel mohó, vagy
- Boltzmann-felfedezési modellel, ahol egy a cselekvés megválasztásának
valószínűsége egy s állapotban:
ahol a T „hőmérséklet” a két véglet között szabályoz.
ha T → ∞ , akkor a választás tisztán (egyenletesen)
véletlen,
ha T → 0 , akkor a választás mohó.
1 1 1, , max , ,k k k k k k k k a k k k k kQ s a Q s a r Q s a Q s a
( , )/
( , )/,
Q s a T
Q s a T
a
es a
ep
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Többágenses eset:
- (matrix) játék (stage game), hasznossági (payoff) mátrixxal definiált
- ismételt játék (repeated game, iterative game), minden fordulóban ugyanazt a
mátrixjátékot játsszák
- sztochasztikus játék (stochastic game, SG), a MDF többágenses kiterjesztése, ahol
az állapotátmeneteket és a kapott megerősítést az összes ágens együttes
cselekvése határozza meg, és ahol az egyedi ágensek eljárásmódjai mellett
beszélünk az együttes eljárásmódról is. Mindegyik állapotban az ágensek új mátrix
játékot játszanak, aminek mátrixát a tanult hasznosságok határozzák meg.
Megjegyzés:
- Mátrix játékban mindegyik ágens megerősítése/ hasznossága függ az állapottól és
az összes ágens együttes cselekvésétől (joint action, joint learners)
- MDF a sztochasztikus játék egyágenses esete
- Ismételt játék a sztochasztikus játék egyetlenegy állapotú esete.
( , )iR s a
, , , , , : [0,1], :k k kk N
N S A A T R T S A S R S A
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Játék lehet modell-alapú: ágens először megtanulja az ellenfél stratégiáját, majd talál
rá a legjobb választ. Lehet model-nélküli is, amikor ágens az ellenfélre jó választ adó
stratégiát tanulja meg anélkül, hogy az ellenfél stratégiáját explicite kitanulná.
Jelölje egy-egy ágens megerősítését generáló függvényt ρi. Beszélhetünk akkor
- teljesen kooperatív ágens rendszerekről
- teljesen versengő ágens rendszerekről, ill. (két ágen, zérus összegű)
és ρ1 + ρ
2 + … ρ
n = 0, több ágens esetén
- vegyes ágens rendszerekről (általános összegű, ahol semmilyen feltétel nem adható).
Minden zérus-összegű mátrix játéknak van NE-ja tiszta stratégiákban. (Neumann)
Minden általános összegű mátrix játéknak van NE-ja. (Nash)
Minden teljesen versengő sztochasztikus játéknak van NE-ja (Shapley)
Minden általános (vegyes) sztochasztikus játéknak van NE-ja. (Fink)
1 ... n
1 2
1 2 ... 0n
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Pl. Stackelberg-féle játék
Left Right
Up 1, 0 3, 2
Down 2, 1 4, 0
„Down” a sorjátékos domináns stratégiája.
Sorjátékos meg fogja játszani a „Down”-t.
Ezt megsejtve az oszlopjátékos „Left”-tel készül.
Eredményben a szociális jólét = 3.
A sorjátékos sorozatban játsza meg az „Up”-ot.
Erre a jelzésre az oszlopjátékos „Right”-tal
készül válaszolni.
Eredményben a szociális jólét = 5, nemcsak
az összegében nagyobb, de egyenként is.
Többágenses környezetben nemigen választható
szét a tanulás éa a tanítás.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Többágenses megerősítéses tanulás problémái:
Alapvető problémák:
nem stacionárius (l. előbbi előadás) – a szokásos (egy ágenses) bizonyítható
konvergencia lehetetlen.
koordinálás igénye (pl. több NE esetén)
Mi legyen a tanulás célja?
(1) Stabilitás - Konvergencia stratégiában valamilyen egyensúlyhoz (pl. NE), ha a
saját maga ellen játszik (self-play, minden ágens ugyanazt a tanulási
algoritmust használja)
(2) Adaptivítás - Az ellenfél stratégiájának sikeres megtanulása.
(3) Egy bizonyos hasznossági szintet túlhaladó nyerességek megszerzése.
Milyen tulajdonságokkal rendelkezzen egy tanulási algoritmus?
(1) Biztonságos (Safe) – garantáljon legalább a minimax szintű nyerességet.
(2) Konzisztens (Consistent) – legalább ilyen jó, mint az egyensűlyi esetre
számított legjobb válasz (best response).
(P1) Konvergencia - Konvergáljon egy stacionárius eljárásmódhoz.
(P2) Racionalitás - Ha az ellenfél egy stacionárius stratégiához konvergál, a
tanulónak a legjobb válaszhoz kell konvergálnia.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Egyensúlyok pro és kontra
Pro
Egyensúly feltételeket fogalmaz meg, hogy a tanulásnak mikor le kell, le kellene állnia.
Egyensúlyban egyszerűbb a játék (kevesebb erőforrás, számítás)
Kontra
NE nem egy előírás jellegű.
Több egyensúly lehet.
Valamilyen konkrét egyensúlyra vonatkozó ötletadás nem lehetséges (vagy csalás)
Az ellenfél nem biztos, hogy az egyensúlyra vágyik (és játszik).
NE egyensúly számításának komplexitása általános játékok esetén tiltó lehet.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
1 1 1, , max , ,k k k k k k k k a k k k k kQ s a Q s a r Q s a Q s a
Egy ágenstől több ágensig
1 1 1, , max , ,k k k k k k k k k k k k kQ s Q s r Q s Q s a
a a a a
1 1, , ,k k k k k k k k k k kQ s Q s r XYZ Q s a a a
Mások cselekvései is
Valami más, ami a cselekvések baráti,
vagy adverz jellegére utal és eszerint
számítja ki a várható jövőt.
1 ágens 2 ágens N ágens
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Teljes együttműködés
Optimális együttes Q értékek parallel tanulása (MDF egy központi ágens esetén)
és belőle egyenkénti optimális eljárásmód származtatása
Együttműködés ellenére probléma a koordinálás szükségessége.
Példa: formáció-mozgás
A két optimális helyzet ellenére,
koordinálás hiányában ágensek
szuboptimális helyzetben
végezhetnek.
(ha a Q érték közös, mindkét optimális eset egy Nash egyensúly)
1 ... n
1 1 1, , max , ,k k k k k k k k k k k kQ s Q s r Q s Q s a
a a a a
1 1 1,..., , ,...,argmax max ,
i i i ni a a a a as a Q sp
a
1 2( , )Q L R
1 2 1 2( , ) ( , ) 10Q L L Q R R
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
(e,e) koordinálása, ha nem tökéletes, bűntetésbe visz. „Biztonságosabb” a
szuboptimális (d, *), (*, d).
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Koordinálás kérdése
Koordinálás-mentes
pl. Team-Q: egyedi opt. együttes cselekvést tételez fel
Distributed-Q-Learning: lokális Q és p tanulás, de az egyedi Q frissítése
csak akkor, ha növekszik (a közös opt.-t is el fogja kapni). A stratégia
frissítése csak akkor, ha a Q érték növekszik.
Koordinálás-alapú pl. együttes Q dekomponálása kisebb csoportasulások szerint.
(koordinációs gráfok)
1 1 2 2 3 3 2 3
1 1 2 2 1 2 3 3
( , ) ( , ) ( , , ) ( , , )
( , ) ( , , ) ( , , ) ( , )
Q s Q s a Q s a a Q s a a
Q s Q s a a Q s a a Q s a
a
a
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Koordinálás kérdése
Indirekt koordinálás
pl. tanulva, hogy más ágensek bizonyos cselekedeteit milyen gyakorisággal használják:
JAL – Joint Action Learner: fictitious play (kitalált) játék
Cij(u
j) – i-edik ágens hányszor tapasztalja, hogy az j-edik ágens egy a
j cselekvéshez
folyamodik (mások prob. modellje, stacionárius vegyes stratégia elképzelése,
erre a legjobb válasz számítása)
Frequency Maximum Q-value heurisztika: mely cselekvések jók voltak a múltban?
rmax
– ai –re kapott eddigi max megerősítés, C
max – ennek az esetnek a gyakorisága
C – az ai cselekvés (önmagában) gyakorisága (az a
i -re több megerősítés is jöhetett,
szórás csakis a mások cselekvései miatt, determinisztikus probléma)
a számított Q értéket a Boltzmann-felfedezés képletében használja
v > 10 konvergencia az optimumhoz
( )ˆ ( )
( )j j
i
j ji
j j i
j ja A
C aa
C a
maxmax
( )( ) ( ) ( )
( )
i
ii i i i ii
i
C aQ a Q a r a
C a
Explicit koordinálás
pl. társadalmi szabályok pl. ágens 1 < ágens 2
normatívák, törvények L < R < S
kommunikáció döntés (L1, L
2)
szerepek
... Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Teljes versengés
Minimax Q-tanulás (1. ágens esete, Q = Q1 = - Q2)
1, 1, arg ( , )k k k ks Q sp m
1 1, 2, 1, 2,
1 1 1 1, 2,
, , , ,
( , ) , ,
k k k k k k k k
k k k k k k k
Q s a a Q s a a
r Q s Q s a a
m
1 2 11 ( , ) 1 1 1 2( , ) max min ( , ) ( , , )s a a
Q s s a Q s a ap p m
Garantált konvergencia (NE) (self-play), de nem racionális.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Teljes versengés
Minimax Q-tanulás, példa
1. ágens szeretne elfoglalni a keresztet és elmenekülni.
2. ágens szeretne elkapni az 1. ágenst.
A Q táblázat az 1. ágens perspektíváját mutatja, a 2. ágens Q függvénye ennek -1-
szerese.
A minimax megoldás 1. ágensre:
Ha L1-et lép, akkor a 2. minimalizálva L2-et lép, eredményben 0.
Ha R1-et lép, akkor a 2. minimalizálva szintén L2-et lép, eredményben -10.
Az 1. ágensnek tehát L1-et kell lépnie, mert így legfeljebb 0-val megússza.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Vegyes feladatok
Nincsenek feltételek megerősítésekre. Valamilyen egyensúly felé kell húzni.
Lehet pl. Nash-egyensúly, de mi van, ha több ilyen van?
Egyedi ágens Q-tanulás (a többi implicite a környezeti információban)
Ágens-független módszerek (egymástól független, de egy feltehetően a közös
egyensúly fel), pl. Nash-Q-tanulás.
NE az egyensúly kiszámítása, NEi az i-ik ágens stratégiája egyensúlyban és
Vi az ágens várható haszna x-ben az egyensúlyban. Bizonyos feltételekkel NE-hoz
konvergál. Mindegyik ágens számon tartja mások Q értékeit is!
, 1 , , 1 ., 1 ,, , ( ,.) ,i k k k i k k k i k i k k i k k kQ s Q s r Q s Q s a a eval a
., .,
., .,
( ,.) ( , ( ,.) )
( ,.) ( ,.)
i k i k
i k i k
Q s V s NE Q s
Q s NE Q s
eval
solve
, .,, ( ,.)i k i k ks Q sp solve
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Vegyes feladatok
Nash-Q-tanulás.
Ellenséges egyensúly (EE): ha mások tőle eltérnek, az ágensünk helyzete
változatlan, vagy javul.
Kooperatív egyensúly (KE): ahol az ágensek maximális haszonhoz jutnak (a jóléti
megoldás).
Feltételek:
Az EE és a KE létezik az egész játék számára és a tanult közbülső Q értékek által
definiált minden mátrix játék számára.
Ilyenkor a Nash-Q tanulás NE-hoz konvergál, feltéve, hogy a feltételekben
említett egynsúlyok egyértelműek.
(kemény feltételek!)
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Vegyes feladatok
Nash-Q egyszerübben: FoF Friend-or-Foe tanulás
Fel kell ismerni, hogy az ellenfél kooperál, vagy ellenünk dolgozik.
Kooperál esetében: JAL megoldás, a Q közös maximumára való törekvés
Ellenünk van: minimax-Q játék.
Ha a játéknak van EE egysúlya, FOE-Q tanulás ezt megtanulja.
Ha a jatéknak van KE egyensúlya, FRIEND-Q tanulás ezt megtanulja.
1 2
1 2 1
1 1 2 , 1 1 2
1 1 2 ( , ) 1 1 1 1 2
( , , ) max ( , , )
( , , ) max min ( , ) ( , , )
a a
s a a
Nash s Q Q Q s a a
Nash s Q Q s a Q s a ap p
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Vegyes feladatok
Problémák egyensúlyi helyzetek koordinálásával itt is, pl.:
Két porszívóágens feladata
a két szobából álló lakás
kitakarítása. Mindegyik
jobban szeretne a bal
szobát megkapni, mert ez
kisebb.
Két Nash-egyensúly van:
de ha a két ágens között nincs koordináció (nincs megegyezés melyik NE-re
játszanak, akkor mindketten ugyanabban a szobában végeznek,
kisebb hasznossággal.
1 1 2 1 1 2 2 1 2 2 1 2( , ) ( , ) ( , ) ( , ) 0Q L L Q R R Q L L Q R R
1 2 1 2( , ), ( , )L R R L
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Vegyes feladatok
Ágens-követő, ágens-tudatos módszerek (más ágensek modellezése, a modell
használata tanulásban: - érzékelés + stratégia-váltás)
AWESOME
(Adapt When Everyone is Stationary, Otherwise Move to Equilibrium)
Induláskor pi egyensúlyi stratégiát játszik (az i-ik ágens) és mások cselekvéseit
követi. Minden N-ik kör végére a megfigyelt gyakoriságokból kiszámítja az s j-t,
az j-ik ágens (feltehetően vegyes) stratégia becslését.
Ha sj minden j-ik játékos egyensúlyi stratégiája, akkor i folytatja az egyensúlyi
stratégia bevetését. Különben az i-ik ágens megjátsza az sj stratégiára kiszámított
legjobb válasz stratégiáját (best response).
Ha minden játékos AWESOME játékos, akkor a közös tanulás az egyensúlyi
helyzethez konvergál és nem fog tőle eltérni.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Vegyes feladatok
IGA (Infinitensimal Gradient Ascent) – ágensek cselekvéseinek valószínűsége
az, amit az ágens tanul (2 ágens, 2 cselekvés),
α 1. ágens 1. cselekvésének a valószínűsége és
β 2. ágens 1. cselekvésének a valószínűsége:
1, 2,k k
1
1 1,
2
1 2,
| ,
| ,
k k k
k k k
E r
E r
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Vegyes feladatok
WoLF-IGA (Win-or-Learn-Fast)
- győztes helyzetben ágens óvatos, kis δ-val lassan tanul, nehogy az előnyös
pozícióját elveszítse
- vesztes esetben viszont nagyobb δ-val gyorsan kikerül a jelen helyzetből.
Hogyan látszik meg a győzelem, a vesztes állapot?
WoLF-elv:
Ha a várható hasznom, ahogy játszom és ahogy az ellenfél játszik, jobb, mintha
a jelen játéka mellett én egyensúlyi stratégiát játszanám, akkor győzelemre állok.
Ha rossabbul állok az egyensúlyi stratégiámhoz képest (az ellenfél adott játéka
mellett), akkor vesztésre állok.
Lucian Busoniu, Robert Babuska, and Bart De Schutter, A Comprehensive Survey of Multiagent
Reinforcement Learning, IEEE Trans. on Systems, Man, and Cybernetics—Part C: Applications and Reviews,
Vol. 38, No. 2, March 2008
1, 2, min max, , 0k k
1
1 1,
2
1 2,
| ,
| ,
k k k
k k k
E r
E r
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Többágenses mély megerősítéses tanulás
2
1
, , max , , , , |
min , | max , | , |
a
i a i i
i i i
Q s Q s r Q s Q s Q s
L s r Q s Q s
L
θ
a a a a a θ
a θ a θ a θ
θ θ θ
Környezet 2 dim, 2 ágens tipus, diszkrét tér/idő.
Konvolúciós NN csatornák: háttér cs. (akadályok), ellenfelek cs., szövetségesek cs.,
saját magam cs. : 4 x H x H.
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020
Tanulás: egyszerre 1 ágens, a többinek stratégiája fix,
a megtanult stratégia kiosztása a saját tipusú ágensekre.
Többágenses mély megerősítéses tanulás
Intelligens Elosztott Rendszerek BME-MIT, 2019-2020