Tanulás elosztott rendszerekben€¦ · Tanulni Másokról Másoktól Mások ellenére Mások segítségével Tanulás tárgyalás-ból tárgyalás közben tárgyalás végeztével

Tanulás elosztott

rendszerekben

(Egyedi ágens) tanulásáról röviden

Célja: javulás (feladavégzésben), adaptalódás, robusztusság

(környezet), kompenzálás, hibatürés (ismerethiány, meghibasodás).

Miből: példák (forrásuk a környezet), háttértudás (forrása a fejlesztő),

példák minősítése (kritikus, tanár).

Megközelítések: felügyelt, megerősítéses, felügyelet nélküli.

Tipikus tanulási absztrakció: induktív függvénytanulás (példák alapján),

ami osztályozás (döntés), vagy regresszió (approximáció).

Absztrakt tanulási algoritmus: helyes függvény keresése hipotézisek

terében.

Absztrakt tanulási algoritmus problémái: tanulási zaj, tanulási elfogultság,

tanulás komplexitása (VKH tanulás), empirikus és háttér tananyag

kölcsönhatása, és nagyon sok konkrét algoritmus (tudásreprezentáció

függvényében).

Intelligens Elosztott Rendszerek BME-MIT, 2019-2020

MAS tanulás - Tények/kihivások

Hipotézistér

Itt a tanulás szintén keresés a hipotézisek terében, de a tér (a többi ágens

miatt) most szokotlanul nagy.

Kialakuló (Emergent)

A kölcsönhatások bonyolúltága miatt a tanult viselkedésben bekövetkező

kis változások nem megjósolható (emergent, kialakuló) változásokhoz

vezethetnek a szervezet viselkedésének egészében.

Játékelmélet

Többágenses szervezetben több független tanulási folyamat van jelen.

Mindegyik ágens tanul és adaptálódik mások által meghatározott

kontextusban. Ilyen tanulás természetes módon játékelméleti modellekhez

vezet, amelyek kapcsolata tanulással még nem tisztázott.

Tanítók

A kölcsönhatások említett komplexitása miatt nemigen esélyes felügyelt

tanulásra törekedni. Többágenses rendszer együttes tanulásához nehéz

megfelelő tudású kritikust találni.


Megerősítés

Amiatt ez egyik elterjedtebb tanulási forma a többágenses megerősítéses

(kooperatív és versengő) tanulás és az evolúciós számítások (cooperative/

competetive coevolution).

Stacionarítás

Több, parallel és konkurrens módon tanuló ágens jelenléte ágens

környezetét nemstacionáriussá teszi, ami sérti a tradicionális (egyágenses)

tanulási módszerek egyik alapvető feltételét.

Dinamika

A környezet mások tanulásának ütemében változik. Ha az ugyanilyen gyors,

mint az ágensünk tanulása, akkor az soha nem éri el a „megtanult”-nak

nevezhető állapotot.

Érdemhozzárendelés

A környezeti változások az összes ágens együttes cselekvésének hatására

következnek be. Ágensünk cselekvése mennyire volt ebben meghatározó?

Milyen nagy az érdeme/bűne a közösség szempontjából kifejezetten

előnyös/káros környezeti állapot elérésében?


Nash-egyensúly

Stacionarítás nélkül az optimálisan megtanulthoz való konvergencia

(a példszám növekedésével) nem biztosítható. Azonban a tanulással

valahová tartani kell. Nash-egynsúly egy alternatíva, de láttuk, hogy ez

nemigen egy optimális szociális jólét alternatívája.

És mi van, ha több Nash-egyensúly van?

Konvergencia

A tanulás konvergenciája megtévesztő lehet és a mérnöki szempontból

nem lehet egyedüli cél. Elképzelhető, hogy a konvergens tanulás a szociális

jólétre nézve (hasznosságban) veszteséges, a nem konvergens tanuláshoz

képest.

Kommunikáció

Kommunikáció egy információforrás. Információ szükséges a tanuláshoz.

Azonban kommunikáció erőforrásigényes, a tanulás is. Mi van, ha egy

ágens korlátosan racionális? Milyen legyen akkor a kommunikáció?

Lehet tanulni kommunikáció érdekében is?

Direkt kommunikáció (dekódolható változás a környezetben)

(megosztott tárak, jeladás, üzenetváltás)

Indirekt kommunikáció (ferromonok, nyomok, pózok, …)


Tanulás egymásról: mivel más ágensek a környezet részei, azok modelljét

meg kell tanulni a környezeti hatások hatásos jóslása érdekében.

Tanulás közösségről: egy szervezet minőségileg több, ágensegyedek

kitanulását követően meg kell tanulni a szervezetük speciális métavonásait.

Tanulás változó ágens egyedekkel való kölcsönhatásból: „tanulom a

modelledet, de számodra én vagyok a környezeti tényező, így te tanulsz

engem. Tanulás révén változom, a változó modellemet tanulva, változol te

is. A változó modelledet tanulva annál inkább én is változom, ...”

Csoporttagok felejtése csoport által: a megtanult információ érvényét

veszti, ha az objektuma eltűnik, azonban ennek érzékelése egyáltalán nem

triviális ott, ahol az „érzékelésnek” fő módja (bizonytalan) kommunikáció.

Tanulni

Másokról

Másoktól

Mások ellenére

Mások segítségével

Tanulás tárgyalás-ból

tárgyalás közben

tárgyalás végeztével

Fetétlenül szükséges egy stabil ágensközösség

(„stacionárius szervezet”, különben lehetetlen tanulni).


„MAS hatás” - A tanuló algoritmus formális célja, ill. a tanuló algoritmus

sikeres elvégzése révén elért „MAS hatás” lehet nagyon nem ugyanaz.

Erősen strukturált kooperatív szervezetekben a „jóindulatú” konfliktusok

forrásainak és kerülésének a kitanulása. Itt a tanulás távlati célja =

a majdani fölösleges kommunikáció mérséklése, azáltal a későbbi

hatékonyságnövekedés.

Kooperatív, de laza, nem strukturált szervezetekben induktív módon tanuló

ágensek együttműködése. Itt a tanulás célja = mások segítségével az

egyéni tanulógörbéknek a javítása.

Alapvetően kooperatív, laza, nem strukturált szervezeteben tanuló ágensek.

Itt a tanulás célja = koordinálást megtanulni az együttműködés fokozása

érdekében.

Erősen strukturált hierarchikus és kooperatív szervezetekben, ahol egy

szervezet, mint egy metaágens, veszélyes környezetben ténykedik. Itt a

tanulás célja = egyéni, csoportos, szervezeti hatékonyság növelése

szervezeti célok elérése érdekében.

Alapvetően versengő szervezetben. Itt a tanulás célja = mások minél jobb

kitanulása a minél hatékony „visszavágás” érdekében. Intelligens Elosztott Rendszerek BME-MIT, 2019-2020

Egy szervezet egy „ellenséges” természetes

környezetben, ill. más szervezetek ellen


Katasztrófahelyzet IT (ágensrendszer) lényege:

dinamikus, „ellenséges” (nem kooperatív),

valós-idejű környezet, korlátozott kommunikáció

lehetőségekkel

Természeti katasztrófák és az információs technológia tapasztalata

(1995-ös Kobe-i földrengés, több, mint 6 ezer áldozat, a város 1/5-e

megsemmisült):

1. A feltételezett (IT) felskálázhatóság nem volt elegendő,

2. Szükségsegítség központok (Emergency Response center) és dolgozói

sérültek/ megsemmisültek,

3. Kommunikációs kiesések, zavarok,

4. Lakosság és önkéntesek információs elszigeteltsége,

5. Nem elegendő támogatás a döntéshozatalhoz.

Kiindulás - katasztrófa-elhárítás IT problémája


PTS – Periodic Team Synchronization

Autonóm működés kommunikáció kiesése esetén, mégis cselekvés a

közös (csapat, szervezet) cél felé

(katasztrófaelhárítás, futball, korház/ gyármenedzsment, több űrhajóból álló

misszió, keresés/mentés (SAR search and rescue), csatatéri műveletek,

hálózati csomag routing, stb.),

Feltételezés: (lehetséges) időszakos koordinálás, korlátlan, zavartalan

kommunikációval (off-line)

majd dinamikus, valós-idejű (on-line) működés

Nem megbízható kommunikáció

üzenet érkezése csak valamilyen valószínűséggel,

üzenetvétel csak bizonyos időközönként,

kommunikációfüggőség költsége

(ha üzenetvétel nélkül nem tud cselekedni)

(ha üzenetvétel miatt nem tud cselekedni)

Tanulás valós-idejű stratégiai csapatmunkában


PTS ágens felépítése és tudása (az alap architektúra egy változata)

világállapota (felfrissül szenzorok, megjósolt cselekvések alapján)

hozzáférhető belső/külső viselkedés számára

belső állapot (ágens állapotváltozói)

belső viselkedés (kognitív)

külső viselkedés (kommunikációs + fizikai)

öltözői taktikai megbeszélés (LRA - Locker-Room Agreement)

komponens - amikor a csapat képes elszigetelten „szinkronizálni”


Mi folyik az LRA-ban?

Csapat struktúra rugalmas ágensszerepek + szerepcsere protokollok,

csapatformációk szerephalmazokkal, többlépéses, többágenses

tervek meghatározott körülményekhez – set-plays

Szerep (viselkedés) specifikálása: ’merev’, ’rugalmas’ (autonómia)

Kommunikáció (kihívások): egyedi csatorna, alacsony sávszélesség,

megbízhatatlan kommunikáció, azonosítás: melyik üzenet melyik

ágensnek szól, aktív zavarás ellenséges ágensek részéről, ’álruhás’

üzenetek --- LRA – kódolási megállapodások

Üzenettípusok:

üzenet címzettje: egyedi ágens, team része, egész team

válasz: nem szükséges, szükséges

Csapatkoordinálás: LRA + ami átjön az üzenetekből valós időben

Kihívások:

LRA megbeszélések reprezentációja és végrehajtása;

Hogyan állapítjuk a szerepváltás és formációváltás legjobb időpontját;

Hogyan biztosítjuk, hogy minden ágens azonos formációt vesz fel;

Hogyan biztosítjuk, hogy egy formáció minden szerepe aktív.


Formáció 1 2, , , ..., kF R U U U


Tanulás valós-idejű stratégiai csapatmunkában

Eredeti kísérlet (DARPA, CMU): ágens foci - bajnok 97-99 (37 csapatból)

MAS: 22 ágens

Kommunikáció: egyetlen megbízhatatlan kommunikációs csatorna (hang)

Objektummozgás: mozgás, gyorsulás, lassúlás, ..., ütközés

Játékosok teherbírása: újratermelhető, nem újratermelhető, véges.

Ágens érzékelése: aura, látás/hallás precizitása, korlátossága.

Ágensmozgás: fordulás, előrerohanás, rúgás, fogás.

Zaj: beavatkozásban, objektumok mozgásában, vizuális érzékelésben

Érzékelések, vagy üzenetek kiesése

Strategic position by attraction and repulsion (SPAR)

taszítás az ellenségtől, a csapattársaktól

vonzás aktív csapattársakhoz, labdához, az ellenség kapujához.


RoboCup 1997, Nagoya

RoboCup-Rescue típ. projektek (https://rescuesim.robocup.org/)

Tanulható csapattevékenység kiterjesztése heterogén szerepkörű, kritikus

folyamatokkal teli környezetben célokat megvalósító ágensekre.

Szimulációk (RobotCup-Rescue Simulation) célja:

1. A szükséges információ begyűjtése, akkumulálása, továbbítása,

szelektálása, elemzése, összegzése, szétküldése.

2. Megfelelő döntéstámogatás.

3. Rendszer elosztottság megnövelt megbízhatóság és robusztusság

érdekében.

4. Folyamatos cselekvés biztosítása normális körülményektől a

szükségállapotig.

Intelligens Elosztott Rendszerek BME-MIT, 2019

Kooperáció és

intelligencia, BME-MIT

USAR (Urban Search And Rescue) Arenas

Test Arenas for

Autonomous

Mobile Robots

http://www.nist.gov/el/isd/testarenas.cfm


Specific robotic capabilities:

Negotiate compromised and collapsed structures

Locate victims and ascertain their conditions

Produce practical sensor maps of the environment

Establish communications with victims

Deliver fluids, nourishment, medicines

Emplace sensors to identify/monitor hazards

Mark or identify best paths to victims


Simulated Victims: Simulated victims with several signs of life such as form, motion,

head, sound and CO2 are distributed throughout the arenas …

Yellow Arena: Robots capable of fully autonomous navigation and victim identification,

this arena consists of random mazes of hallways and rooms with continuous 15° pitch

and roll ramp flooring.

Orange Arena: Robots capable of autonomous or remote teleoperative navigation and

victim identification. Moderate terrains with crossing 15° pitch and roll ramps, structured

obstacles: stairs, inclined planes, …

Red Arena: Robots capable of autonomous or remote teleoperative navigation and

victim identification. Complex stepfield terrains requiring advanced robot mobility.

Blue Arena: For robots capable of mobile manipulation on complex terrains to place

simple block or bottle payloads carried in from the start or picked up …

Black/Yellow Arena (RADIO DROP-OUT ZONE): For robots capable of autonomous

navigation with reasonable mobility to operate on complex terrains.

Black Arena (Vehicle Collapse Scenario): For robots capable of searching a simulated

vehicle collapse scenario …

Aerial Arena (< 2 KG, VTOL sUAS): For small unmanned aerial systems (< 2 kg),

vertical take-off and landing capabilities that can perform station-keeping, obstacle

avoidance, and line following tasks with varying degrees of autonomy.


RoboCup@Home arena

Follow me, Clean up, …

„Move to the LOCATION,

find a person, and guide it to

the exit. …” stb.

EGPSR

Endurance General Purpose

Service Robot Test


Egy szervezet tanulása (nézzünk most bele részletesebben)

(más szervezetek „ellenséges” környezetében)


Rétegezett tanulás (Layered Learning)

közvetlen bemeneti adat – kimenet függvény tanulása nem megy

- hierarchiadekompozíció, taszk feltörése rétegekre,

- más-más koncepció tanulása rétegenként,

lokális tanulás – lokális koncepciók

alulról felfelé taszk dekompozíció adva van (feladathierarchia, ld. előbb)

alulról felfelé tanulás, amíg nem éri el a teljes probléma-komplexitást,

altászkok, granuláltság – a konkrét tartomány függvénye.

adatokból tanulás, adaptálás – tanulás minden szinten

gépi tanulás: ha kézi (szimbolikus) hangolás nem megy,

adaptálás, ha a feladat előre aluldefiniált, ha dinamikus.

tanulás eredménye egy szinten – példák a következő szint számára

minden szinten tanulás a következő szintet közvetlenül befolyásolja:

- a tanító példák szerkesztése,

- a tanításhoz szükséges tulajdonságok biztosítása,

- a kimeneti halmaz nyesése



Rétegezett tanulás (Layered Learning)

H a hipotézisek halmaza, belőle egy h hipotézis tanulása

H: állapottulajdonságok (attributúmok) S kimenetek O

rétegezett tanulás:

hierarchikus taszkrétegek, egy réteg: Li = (Fi, Oi, Ti, Mi, hi)

Fi – az állapottulajdonságok bemeneti vektora

Oi – a kimenetek halmaza

Ti – tanító példák az Li taszk számára ( (f,o): f Fi o Oi)

Mi – a gépi tanulás algoritmusa Li rétegben, Fi – Oi függvényt legjobban

leíró hipotézis megválasztása Ti alapján,

hi – tanulás eredménye

Réteg Stratégiai szint Viselkedés Példa

1 Robot egyéni labdamegfogás

2 1-1 játékos több-ágens átadás értékelés

3 1-N játékos team átadás választás

4 team formation team stratégiai poz.

5 team-ellenség adverz stratégiai adapt.


Robot futball

viselkedés példa

L1 egyedi labda megfogása

L2 több ágens labdaátadás értékelése

L3 csapat labdaátadás kiválasztása

L1 – Labda megfogása: a megtanulása (sebesség információ nélkül)

könnyebb, mint a ’beprogramozása’

F1 – labda távolsága-1,-2, szög

O1 – megfordulás szöge

T1 – kapura lövések,

minősítés: megfogta, gól, mellément

M1 – neurális háló

h1- kb. 5000 példa után 84% megfog, 9% gól


L2 – Labdaátadás értékelése: több ágenses viselkedés tanulása,

labdaátadás egy másik játékosnak – sikerül-e? átveszi? A tanító példák

szerkesztésénél a passzoló és az ellenségek tudják a h1-t.

F2 – 174 tulajdonság, játékosok, ellenségek pozíciói, lényeges, lényegtelen,

… hadd szelektálja a tanuló algoritmus!

O2– -1, 1, szándékolt átadás vagy siker v. kudarc: 0 ... 1 megbízhatósági tényezővel

T2 – véletlenül helyezett játékosok,

h1 labda kezelési képességgel,

siker (társ megfogta), kudarc

(ellenségek megfogták), félrement

(senki), véletlenül választott társnál

a passzok 51%-ka sikeres,

M2 – döntési fa tanulása (irreleváns

bemenetek kiszelektálása!),

h2 - döntési fa, osztályozás + (-1 ... 1)

megbízhatósági tényező, összes

átadás 65%-ka, sikeresnek (.8-.9)

becsült átadások 79%-ka valójában

sikeres,


L3 – Labdaátadás szelektálása: Együttműködő/ellenséges

csapatviselkedés

h2 felhasználása tanító minták szerkesztéséhez: ha rendelkezik labdával, kinek

adja át (a legsikeresebbnek ítélt passz általában nem a stratégiailag legjobb,

azért dönthet, átadja, vagy kapura lő).

Óriási a döntési tér (ágens kurrens pozíciója, társai, ellenségei kurrens pozíciói,

társak képessége az átadás átvételére, ellenségek képessége az átadás

megfogására, társak döntési képessége, ellenségek stratégiája), a döntés jósága

csak a csapat hosszú idejű sikereiből, a tér redukálása h2-ből.

F3 – (játékos pozíciója, ...), durva helyzetbontás, 1 cselekvésfüggő

tulajdonság minden átadáshoz (h2 eredménye minden lehetséges

megfogó társhoz)

O3 – (lövés) (melyik társ),

T3 – valós mérkőzésekből,

M3 – TPOT-RL: on-line, többágenses,

megerősítéses tanulás,

Q-tanulás mintájára

(csapatbontott, átláthatatlan területek),

h3- elosztott átadás szelektálási stratégia,


RL algoritmus kihívásai:

1. on-line

2. nagy állapotteret kezel korlátos tanulással

3. tanulni képes, de igen késleltetett megerősítésből

4. változó helyzeteket/koncepciókat kezel

5. team-bontott helyzetekben működik

6. „elmosódó átmeneteket” kezel


TPOT-RL Team-Partitioned, Opaque-Transition Reinforcement Learning

Elvi (idő-különbség) Q-tanulás:

Q(s,a) = Q(s,a) + (r + max a’ Q(s’,a’) – Q(s,a))

kihasználja a „modell” ismeretét, azaz hogy a cselekvés hatására milyen

állapotba kerül az ágens környezete: T: (S, A) S.

De egyedi ágensnek nincs kontrollja a helyzet egészén, a cselekvése

folytatásán sem! „Láncolt cselekvések” – a cselekvését más ágensek

cselekvései követik. A cselekvés utáni állapot ismeretlen (másoktól függ).

A tanult stratégia: állapot cselekvés leképezés (Q tanulás)

S A ( S x A R )

Mivel az állapottér igen nagy (és így a tanulás kevés példából n.nehéz), az

állapotteret általánosítani kell kisebb komplexitású (dimenzióban redukált) V

tulajdonságtérré (feature space) (F2, ld. előbb).

S V A

(egy-egy játékos nem az egész pályán „érdekelt”)

Átláthatatlan környezetben (modell nélküli) tanulás:

Q(v, a) = Q(v, a) + (r – Q(v, a))


Mi lehet itt a megerősítés?

r -Qmax, Qmax tlim-belül a jövőből, mindkettő problémafüggő

Probléma: a megerősítés túl ritka! (gól, mérkőzés-, bajnokság

végeredménye) ágens: kb. 10 tanuló példa/ 10 perces játék nagyon kevés!

hatékony tanulás kell!

Megerősítés kérdése még egyszer:

- gól, igazi megerősítés, de ritka,

- „belső” megerősítés, környezeti megfigyelések alapján

(jelen esetben a labda pályája alapján)

rúgás pillanatában megjegyzi a labda pozícióját: xt-t

r = R(labda pozíció tlim)

r = a labda out-ra megy (a gól is az): t + t0 (t0 tlim), de minél

később, annál kevesebb visszakapja a labdát: t + tr (tr tlim)

a labda még mindig a pályán: t + tlim

az ágens a labda átlagos pozícióját számolja (megfigyelésből)

ha xavg xt r 0, annál nagyobb, minél közelebb a (ellenfél) kapuhoz

ha xavg xt r 0 annál nagyobb, minél közelebb a (saját) kapuhoz


Többágenses megerősítéses tanulás

- együttműködésben, versengésben


MARL – Multi Agent Reinforcement Learning


Kezdjük 1 db ágenssel. Legyenek a környezet állapotai s-ek, ágens cselekvései

a-k, ágens cselekvéseit meghatározó eljárásmód p, ill. ágens cselekvés-érték

függvénye Q(s,a). Az állapotok és a cselekvések közötti kapcsolatot az un. Markov

döntési folyamat (MDF) írja le, T(s,a,s’) átmenet-valószínűségel.

Egyes állapotokban ágens r(s,a,s’) közvetlen megerősítést kap.

Ágens célja megállapítani azt az optimális eljárásmódot, ami a diszkont hátralévő

jutalmat (az sk állapottól végtelen jövőbe) maximálja,

ahol γ a diszkont faktor és r a megerősítés.

Adott eljárásmód mellett az ágens cselekvés-érték függvényt tanul

1

0

j

k k j

j

R E r

1

0

, | , ,j

k j k k

j

Q s a E r s s a ap p


MARL – Multi Agent Reinforcement Learning


A lehető legjobb eredmény az optimális cselekvés-érték függvény:

ami teljesíti az un. Bellman egyenletet:

, max ,Q s a Q s ap

p

, ( , , ) ( , , ) max ,a

s S

Q s a T s a s r s a s Q s a

Az ágens eljárásmódja mohó:

ami optimális, ha Q is optimális.

argmax ,as Q s ap


A Bellman-egyenlet ismeretlen r és T mellett az un. Q-tanulással oldható meg

(jelen formában időkülönbség Q-tanulással):

Q-tanulás bizonyos feltételek mellett optimális Q-hoz konvergál.

A feltételek közül a legfontosabb, hogy a tanuló ágensnek véges nem nulla

valószínűséggel ki kell próbálni minden létező cselekvését.

Nem tud tehát csak mohó lenni, a mohóságát felfedezési igénnyel kell vegyítenie.

A mohóság + felfedezés keverék viselkedést biztosítani tudjuk:

- ε-mohósággal: az ágens ε valószínűséggel véletlen cselekvést választ, ill. 1-ε

valószínűséggel mohó, vagy

- Boltzmann-felfedezési modellel, ahol egy a cselekvés megválasztásának

valószínűsége egy s állapotban:

ahol a T „hőmérséklet” a két véglet között szabályoz.

ha T → ∞ , akkor a választás tisztán (egyenletesen)

véletlen,

ha T → 0 , akkor a választás mohó.

1 1 1, , max , ,k k k k k k k k a k k k k kQ s a Q s a r Q s a Q s a

( , )/

( , )/,

Q s a T

Q s a T

a

es a

ep


Többágenses eset:

- (matrix) játék (stage game), hasznossági (payoff) mátrixxal definiált

- ismételt játék (repeated game, iterative game), minden fordulóban ugyanazt a

mátrixjátékot játsszák

- sztochasztikus játék (stochastic game, SG), a MDF többágenses kiterjesztése, ahol

az állapotátmeneteket és a kapott megerősítést az összes ágens együttes

cselekvése határozza meg, és ahol az egyedi ágensek eljárásmódjai mellett

beszélünk az együttes eljárásmódról is. Mindegyik állapotban az ágensek új mátrix

játékot játszanak, aminek mátrixát a tanult hasznosságok határozzák meg.

Megjegyzés:

- Mátrix játékban mindegyik ágens megerősítése/ hasznossága függ az állapottól és

az összes ágens együttes cselekvésétől (joint action, joint learners)

- MDF a sztochasztikus játék egyágenses esete

- Ismételt játék a sztochasztikus játék egyetlenegy állapotú esete.

( , )iR s a

, , , , , : [0,1], :k k kk N

N S A A T R T S A S R S A


Játék lehet modell-alapú: ágens először megtanulja az ellenfél stratégiáját, majd talál

rá a legjobb választ. Lehet model-nélküli is, amikor ágens az ellenfélre jó választ adó

stratégiát tanulja meg anélkül, hogy az ellenfél stratégiáját explicite kitanulná.

Jelölje egy-egy ágens megerősítését generáló függvényt ρi. Beszélhetünk akkor

- teljesen kooperatív ágens rendszerekről

- teljesen versengő ágens rendszerekről, ill. (két ágen, zérus összegű)

és ρ1 + ρ

2 + … ρ

n = 0, több ágens esetén

- vegyes ágens rendszerekről (általános összegű, ahol semmilyen feltétel nem adható).

Minden zérus-összegű mátrix játéknak van NE-ja tiszta stratégiákban. (Neumann)

Minden általános összegű mátrix játéknak van NE-ja. (Nash)

Minden teljesen versengő sztochasztikus játéknak van NE-ja (Shapley)

Minden általános (vegyes) sztochasztikus játéknak van NE-ja. (Fink)

1 ... n

1 2

1 2 ... 0n


Pl. Stackelberg-féle játék

Left Right

Up 1, 0 3, 2

Down 2, 1 4, 0

„Down” a sorjátékos domináns stratégiája.

Sorjátékos meg fogja játszani a „Down”-t.

Ezt megsejtve az oszlopjátékos „Left”-tel készül.

Eredményben a szociális jólét = 3.

A sorjátékos sorozatban játsza meg az „Up”-ot.

Erre a jelzésre az oszlopjátékos „Right”-tal

készül válaszolni.

Eredményben a szociális jólét = 5, nemcsak

az összegében nagyobb, de egyenként is.

Többágenses környezetben nemigen választható

szét a tanulás éa a tanítás.


Többágenses megerősítéses tanulás problémái:

Alapvető problémák:

nem stacionárius (l. előbbi előadás) – a szokásos (egy ágenses) bizonyítható

konvergencia lehetetlen.

koordinálás igénye (pl. több NE esetén)

Mi legyen a tanulás célja?

(1) Stabilitás - Konvergencia stratégiában valamilyen egyensúlyhoz (pl. NE), ha a

saját maga ellen játszik (self-play, minden ágens ugyanazt a tanulási

algoritmust használja)

(2) Adaptivítás - Az ellenfél stratégiájának sikeres megtanulása.

(3) Egy bizonyos hasznossági szintet túlhaladó nyerességek megszerzése.

Milyen tulajdonságokkal rendelkezzen egy tanulási algoritmus?

(1) Biztonságos (Safe) – garantáljon legalább a minimax szintű nyerességet.

(2) Konzisztens (Consistent) – legalább ilyen jó, mint az egyensűlyi esetre

számított legjobb válasz (best response).

(P1) Konvergencia - Konvergáljon egy stacionárius eljárásmódhoz.

(P2) Racionalitás - Ha az ellenfél egy stacionárius stratégiához konvergál, a

tanulónak a legjobb válaszhoz kell konvergálnia.


Egyensúlyok pro és kontra

Pro

Egyensúly feltételeket fogalmaz meg, hogy a tanulásnak mikor le kell, le kellene állnia.

Egyensúlyban egyszerűbb a játék (kevesebb erőforrás, számítás)

Kontra

NE nem egy előírás jellegű.

Több egyensúly lehet.

Valamilyen konkrét egyensúlyra vonatkozó ötletadás nem lehetséges (vagy csalás)

Az ellenfél nem biztos, hogy az egyensúlyra vágyik (és játszik).

NE egyensúly számításának komplexitása általános játékok esetén tiltó lehet.


1 1 1, , max , ,k k k k k k k k a k k k k kQ s a Q s a r Q s a Q s a

Egy ágenstől több ágensig

1 1 1, , max , ,k k k k k k k k k k k k kQ s Q s r Q s Q s a

a a a a

1 1, , ,k k k k k k k k k k kQ s Q s r XYZ Q s a a a

Mások cselekvései is

Valami más, ami a cselekvések baráti,

vagy adverz jellegére utal és eszerint

számítja ki a várható jövőt.

1 ágens 2 ágens N ágens


Teljes együttműködés

Optimális együttes Q értékek parallel tanulása (MDF egy központi ágens esetén)

és belőle egyenkénti optimális eljárásmód származtatása

Együttműködés ellenére probléma a koordinálás szükségessége.

Példa: formáció-mozgás

A két optimális helyzet ellenére,

koordinálás hiányában ágensek

szuboptimális helyzetben

végezhetnek.

(ha a Q érték közös, mindkét optimális eset egy Nash egyensúly)

1 ... n

1 1 1, , max , ,k k k k k k k k k k k kQ s Q s r Q s Q s a

a a a a

1 1 1,..., , ,...,argmax max ,

i i i ni a a a a as a Q sp

a

1 2( , )Q L R

1 2 1 2( , ) ( , ) 10Q L L Q R R


(e,e) koordinálása, ha nem tökéletes, bűntetésbe visz. „Biztonságosabb” a

szuboptimális (d, *), (*, d).


Koordinálás kérdése

Koordinálás-mentes

pl. Team-Q: egyedi opt. együttes cselekvést tételez fel

Distributed-Q-Learning: lokális Q és p tanulás, de az egyedi Q frissítése

csak akkor, ha növekszik (a közös opt.-t is el fogja kapni). A stratégia

frissítése csak akkor, ha a Q érték növekszik.

Koordinálás-alapú pl. együttes Q dekomponálása kisebb csoportasulások szerint.

(koordinációs gráfok)

1 1 2 2 3 3 2 3

1 1 2 2 1 2 3 3

( , ) ( , ) ( , , ) ( , , )

( , ) ( , , ) ( , , ) ( , )

Q s Q s a Q s a a Q s a a

Q s Q s a a Q s a a Q s a

a

a


Koordinálás kérdése

Indirekt koordinálás

pl. tanulva, hogy más ágensek bizonyos cselekedeteit milyen gyakorisággal használják:

JAL – Joint Action Learner: fictitious play (kitalált) játék

Cij(u

j) – i-edik ágens hányszor tapasztalja, hogy az j-edik ágens egy a

j cselekvéshez

folyamodik (mások prob. modellje, stacionárius vegyes stratégia elképzelése,

erre a legjobb válasz számítása)

Frequency Maximum Q-value heurisztika: mely cselekvések jók voltak a múltban?

rmax

– ai –re kapott eddigi max megerősítés, C

max – ennek az esetnek a gyakorisága

C – az ai cselekvés (önmagában) gyakorisága (az a

i -re több megerősítés is jöhetett,

szórás csakis a mások cselekvései miatt, determinisztikus probléma)

a számított Q értéket a Boltzmann-felfedezés képletében használja

v > 10 konvergencia az optimumhoz

( )ˆ ( )

( )j j

i

j ji

j j i

j ja A

C aa

C a

maxmax

( )( ) ( ) ( )

( )

i

ii i i i ii

i

C aQ a Q a r a

C a

Explicit koordinálás

pl. társadalmi szabályok pl. ágens 1 < ágens 2

normatívák, törvények L < R < S

kommunikáció döntés (L1, L

2)

szerepek

... Intelligens Elosztott Rendszerek BME-MIT, 2019-2020

Teljes versengés

Minimax Q-tanulás (1. ágens esete, Q = Q1 = - Q2)

1, 1, arg ( , )k k k ks Q sp m

1 1, 2, 1, 2,

1 1 1 1, 2,

, , , ,

( , ) , ,

k k k k k k k k

k k k k k k k

Q s a a Q s a a

r Q s Q s a a

m

1 2 11 ( , ) 1 1 1 2( , ) max min ( , ) ( , , )s a a

Q s s a Q s a ap p m

Garantált konvergencia (NE) (self-play), de nem racionális.


Teljes versengés

Minimax Q-tanulás, példa

1. ágens szeretne elfoglalni a keresztet és elmenekülni.

2. ágens szeretne elkapni az 1. ágenst.

A Q táblázat az 1. ágens perspektíváját mutatja, a 2. ágens Q függvénye ennek -1-

szerese.

A minimax megoldás 1. ágensre:

Ha L1-et lép, akkor a 2. minimalizálva L2-et lép, eredményben 0.

Ha R1-et lép, akkor a 2. minimalizálva szintén L2-et lép, eredményben -10.

Az 1. ágensnek tehát L1-et kell lépnie, mert így legfeljebb 0-val megússza.


Vegyes feladatok

Nincsenek feltételek megerősítésekre. Valamilyen egyensúly felé kell húzni.

Lehet pl. Nash-egyensúly, de mi van, ha több ilyen van?

Egyedi ágens Q-tanulás (a többi implicite a környezeti információban)

Ágens-független módszerek (egymástól független, de egy feltehetően a közös

egyensúly fel), pl. Nash-Q-tanulás.

NE az egyensúly kiszámítása, NEi az i-ik ágens stratégiája egyensúlyban és

Vi az ágens várható haszna x-ben az egyensúlyban. Bizonyos feltételekkel NE-hoz

konvergál. Mindegyik ágens számon tartja mások Q értékeit is!

, 1 , , 1 ., 1 ,, , ( ,.) ,i k k k i k k k i k i k k i k k kQ s Q s r Q s Q s a a eval a

., .,

., .,

( ,.) ( , ( ,.) )

( ,.) ( ,.)

i k i k

i k i k

Q s V s NE Q s

Q s NE Q s

eval

solve

, .,, ( ,.)i k i k ks Q sp solve


Vegyes feladatok

Nash-Q-tanulás.

Ellenséges egyensúly (EE): ha mások tőle eltérnek, az ágensünk helyzete

változatlan, vagy javul.

Kooperatív egyensúly (KE): ahol az ágensek maximális haszonhoz jutnak (a jóléti

megoldás).

Feltételek:

Az EE és a KE létezik az egész játék számára és a tanult közbülső Q értékek által

definiált minden mátrix játék számára.

Ilyenkor a Nash-Q tanulás NE-hoz konvergál, feltéve, hogy a feltételekben

említett egynsúlyok egyértelműek.

(kemény feltételek!)


Vegyes feladatok

Nash-Q egyszerübben: FoF Friend-or-Foe tanulás

Fel kell ismerni, hogy az ellenfél kooperál, vagy ellenünk dolgozik.

Kooperál esetében: JAL megoldás, a Q közös maximumára való törekvés

Ellenünk van: minimax-Q játék.

Ha a játéknak van EE egysúlya, FOE-Q tanulás ezt megtanulja.

Ha a jatéknak van KE egyensúlya, FRIEND-Q tanulás ezt megtanulja.

1 2

1 2 1

1 1 2 , 1 1 2

1 1 2 ( , ) 1 1 1 1 2

( , , ) max ( , , )

( , , ) max min ( , ) ( , , )

a a

s a a

Nash s Q Q Q s a a

Nash s Q Q s a Q s a ap p



Vegyes feladatok

Problémák egyensúlyi helyzetek koordinálásával itt is, pl.:

Két porszívóágens feladata

a két szobából álló lakás

kitakarítása. Mindegyik

jobban szeretne a bal

szobát megkapni, mert ez

kisebb.

Két Nash-egyensúly van:

de ha a két ágens között nincs koordináció (nincs megegyezés melyik NE-re

játszanak, akkor mindketten ugyanabban a szobában végeznek,

kisebb hasznossággal.

1 1 2 1 1 2 2 1 2 2 1 2( , ) ( , ) ( , ) ( , ) 0Q L L Q R R Q L L Q R R

1 2 1 2( , ), ( , )L R R L


Vegyes feladatok

Ágens-követő, ágens-tudatos módszerek (más ágensek modellezése, a modell

használata tanulásban: - érzékelés + stratégia-váltás)

AWESOME

(Adapt When Everyone is Stationary, Otherwise Move to Equilibrium)

Induláskor pi egyensúlyi stratégiát játszik (az i-ik ágens) és mások cselekvéseit

követi. Minden N-ik kör végére a megfigyelt gyakoriságokból kiszámítja az s j-t,

az j-ik ágens (feltehetően vegyes) stratégia becslését.

Ha sj minden j-ik játékos egyensúlyi stratégiája, akkor i folytatja az egyensúlyi

stratégia bevetését. Különben az i-ik ágens megjátsza az sj stratégiára kiszámított

legjobb válasz stratégiáját (best response).

Ha minden játékos AWESOME játékos, akkor a közös tanulás az egyensúlyi

helyzethez konvergál és nem fog tőle eltérni.


Vegyes feladatok

IGA (Infinitensimal Gradient Ascent) – ágensek cselekvéseinek valószínűsége

az, amit az ágens tanul (2 ágens, 2 cselekvés),

α 1. ágens 1. cselekvésének a valószínűsége és

β 2. ágens 1. cselekvésének a valószínűsége:

1, 2,k k

1

1 1,

2

1 2,

| ,

| ,

k k k

k k k

E r

E r


Vegyes feladatok

WoLF-IGA (Win-or-Learn-Fast)

- győztes helyzetben ágens óvatos, kis δ-val lassan tanul, nehogy az előnyös

pozícióját elveszítse

- vesztes esetben viszont nagyobb δ-val gyorsan kikerül a jelen helyzetből.

Hogyan látszik meg a győzelem, a vesztes állapot?

WoLF-elv:

Ha a várható hasznom, ahogy játszom és ahogy az ellenfél játszik, jobb, mintha

a jelen játéka mellett én egyensúlyi stratégiát játszanám, akkor győzelemre állok.

Ha rossabbul állok az egyensúlyi stratégiámhoz képest (az ellenfél adott játéka

mellett), akkor vesztésre állok.

Lucian Busoniu, Robert Babuska, and Bart De Schutter, A Comprehensive Survey of Multiagent

Reinforcement Learning, IEEE Trans. on Systems, Man, and Cybernetics—Part C: Applications and Reviews,

Vol. 38, No. 2, March 2008

1, 2, min max, , 0k k

1

1 1,

2

1 2,

| ,

| ,

k k k

k k k

E r

E r


Többágenses mély megerősítéses tanulás

2

1

, , max , , , , |

min , | max , | , |

a

i a i i

i i i

Q s Q s r Q s Q s Q s

L s r Q s Q s

L

θ

a a a a a θ

a θ a θ a θ

θ θ θ

Környezet 2 dim, 2 ágens tipus, diszkrét tér/idő.

Konvolúciós NN csatornák: háttér cs. (akadályok), ellenfelek cs., szövetségesek cs.,

saját magam cs. : 4 x H x H.


Tanulás: egyszerre 1 ágens, a többinek stratégiája fix,

a megtanult stratégia kiosztása a saját tipusú ágensekre.

Többágenses mély megerősítéses tanulás


Documents

Tanulás elosztott rendszerekben€¦ · Tanulni Másokról Másoktól Mások ellenére Mások segítségével Tanulás tárgyalás-ból tárgyalás közben tárgyalás végeztével