19
Peliteoria • Ks. • Esim. Grüne-Yanoff & Lehtinen (tulossa): Philosophy of game theory, Handbook for the philosophy of economics, toim. Uskali Mäki • Ross, Don: game theory, Stanford encyclopedia of philosophy

Peliteoria

  • Upload
    tory

  • View
    37

  • Download
    0

Embed Size (px)

DESCRIPTION

Peliteoria. Ks. Esim. Grüne-Yanoff & Lehtinen (tulossa): Philosophy of game theory, Handbook for the philosophy of economics, toim. Uskali Mäki Ross, Don: game theory, Stanford encyclopedia of philosophy. Mitä on peliteoria?. Strategisen vuorovaikutuksen tutkimiseen erikoistunut metodi. - PowerPoint PPT Presentation

Citation preview

Page 1: Peliteoria

Peliteoria

• Ks.

• Esim. Grüne-Yanoff & Lehtinen (tulossa): Philosophy of game theory, Handbook for the philosophy of economics, toim. Uskali Mäki

• Ross, Don: game theory, Stanford encyclopedia of philosophy

Page 2: Peliteoria

Mitä on peliteoria? • Strategisen vuorovaikutuksen tutkimiseen erikoistunut metodi.• Miksi siitä pitäisi olla filosofina kiinnostunut? Yhteiskuntatieteessä paljon käytetty metodi, joka perustuu tiettyihin

metodologisiin taustaoletuksiin; esim. yksilöiden rationaalisuus (paitsi vrt. evolutionaarinen GT), henkilöiden välisiä hyötyvertailuita ei saa käyttää ym.)

Filosofisia kysymyksiä voi tarkastella peliteoreettisilla välineillä. Esim. vapaamatkustajaongelma, Newcombin ongelma ja kausaalinen päätöksenteon teoria, kooperaatio, koordinaatio, valtion oikeutus, sopimukset, normit jne.

Peliteorian perusteiden ymmärtäminen on välttämätöntä nykyaikaisen sopimusteorian ja ’kollektiivisen intentionaalisuuden’ ymmärtämiseksi (Rawls, Binmore, Skyrms, Young, Tuomela, Gilbert, Searle, Bratman, Pettit ym.)

Page 3: Peliteoria

Peruskäsitteitä

• Kooperatiivinen ja non-kooperatiivinen peliteoria

• Pelaajat (i,…,n)

• Palkkiot ovat von Neumann-Morgenstern hyötyfunktioita.

• Strategiat (määrittävät tekoja kaikissa mahdollisissa pelin vaiheissa) (s1,…sn)

• Ratkaisukäsitteet (tasapainot)

Page 4: Peliteoria

Vangin dilemma (PD)

Vanki 2

Ei tunnusta Tunnustaa

Vanki 1

Ei tunnusta

-1,-1 -9,0

Tunnustaa

0,-9 -6,-6

Page 5: Peliteoria

Vangin dilemma

• Molemmilla pelaajilla on dominoiva strategia tunnustaa ennuste on (tunnusta,tunnusta)

• Mutta jos molemmat tunnustavat, lopputulos on molemmille huonompi kuin jos kumpikaan ei tunnusta.

• Ennuste on siis se, että Pareto-optimaalista vaihtoehtoa ei valita Kooperaation ongelma: yleistys moneen pelaajaan, esim. yhteismaan ongelma

Page 6: Peliteoria

Sosiaaliset dilemmat

• Julkishyödykkeet (non-excludable, non-rival)

• ulkoisvaikutukset

Page 7: Peliteoria

Nash tasapaino

• Monissa peleissä

pelaajilla ei ole

dominoivia

strategioita.

Esim ’sukupuolten

taistelu’:

Nainen

Baletti Nyrk-keily

Mies

Baletti 1,2 0,0

Nyrk-keily

0,0 2,1

Page 8: Peliteoria

Nash tasapaino

• Strategiapari (ja sitä vastaavat palkkiot) on Nash tasapaino jos kummallakaan pelaajalla ei ole kannustinta muuttaa toimintaansa tasapainossa. Eli jos kumpikin olettaa toisen pelaavan tasapainostrategiansa mukaisesti, kannattaa pitäytyä tasapainossa.

• Useiden Nash tasapainojen ongelma

Page 9: Peliteoria

Informaatio peliteoriassa

• Common knowledge (CK) (Lewis 1969): Jokin asia P (palkkio, pelin rakenne, propositio ym.) on CK joss jokainen pelaaja tietää, että P ja jokainen tietää että P ja jokainen tietää että jokainen tietää että P…

• Yleensä pelin rakenteen oletetaan olevan CK.

Page 10: Peliteoria

Tulkintoja vangin dilemmalle

• Se on rakenne, joka löytyisi maailmasta, mutta jota emme tosiasiassa havaitse, koska on keksitty keino ’ratkaista’ vangin dilemma. Havaitsemme tämän keinon. Esim. valtio ei tarjoaisi julkishyödykkeitä, ellei tällaisten hyödykkeiden tarjonta vapailla markkinoilla olisi vangin dilemma.

• Se on rakenne, joka löytyy maailmasta ja joka aiheuttaa ongelmia, jotka pitäisi ratkaista, mutta joita ei ole ratkaistu. Esim. luonnon saastuttaminen etc.

Page 11: Peliteoria

Miten vangin dilemma ’ratkaistaan’

• Toistetaan sitä• Muutetaan PD joksikin muuksi peliksi tarjoamalla

sopivia kannustimia.

Pelin ratkaisemisella voi tarkoittaa kahta asiaa:- Ratkaisukäsitteen soveltamista non-

kooperatiivinen lopputulema ennusteena- Todellisen ongelmatilanteen ratkaisemista

(peliteoriassa käsitellään näistä vain ensimmäistä)

Page 12: Peliteoria

Epäonnistuneita yrityksiä ratkaista PD

• Väitetään, että ihmiset jotenkin kuitenkin valitsisivat kooperatiivisen strategian vaikka olisivatkin vangin dilemma- tilanteessa: esim. Gauthierin ’suoraviivaiset’ vs. ’rajoitetut’ maksimoijat, we-mode.

• Väitetään, että jos ihmiset välittävät toisen pelaajan hyödystä, he pelaisivat tietyllä tavalla.

Päätös– ja peliteorian tärkein metodologinen periaate: hyötyfunktiot sisältävät aina kaikki mahdolliset tekijät, jotka voisivat motivoida pelaajia. ongelmatilanteen rajoite: palkkioiden kanssa ei saa kikkailla.

Page 13: Peliteoria

Toistettu vangin dilemma

• Superpeli ja vaihepelit• Diskonttauksen

perusidea: pelaajat haluavat palkkionsa mieluummin nyt kuin myöhemmin.

• Alipelitäydellinen Nash-tasapaino (SPNE)

2

C D

1

C 3,3 1,4

D 4,1 2,2

Page 14: Peliteoria

Diskonttaus• Diskonttoaste (discount rate) r = lisäosamäärä -yksikköä, joka

tarvitaan kompensoimaan sitä, että saadaan yhtä periodia myöhemmin. (Jos on ilmaistu rahana, r on sama kuin korkoaste: esim. 100 mk nyt kasvaa vuodessa 104 mk:ksi, jos korkoaste on 4 prosenttia; eli 100 mk vuoden päästä on 1/(1+0.04)*100 arvoinen nyt.)

• Diskonttotekijä (discount factor) = 1/(1+r) = seuraavalla periodilla saatavan - yksikön arvo nykyisissä - yksiköissä, eli määrä, jolla tulevat palkkiot pitää diskontata, jotta saataisiin niiden nykyarvo.

• Syitä diskonttaukseen silloin, kun ei ole rahamääräisesti ilmaistu: - puhdas aikapreferenssi (oikeastaan tämä on irrationaalista; Sidgwíck

1800-luvun lopussa)- epävarmuus siitä, jatkuuko peli vai ei: tn 1-, että nykyinen vaihepeli

onkin viimeinen.

Page 15: Peliteoria

Diskonttaus

it = pelaajan i palkkio periodilla t.• Pelaajan i diskontattu kokonaispalkkio on

i0 + i1 + i22 +...+ itt +...

(merk. 1 + + 2 +...+ t +...= .

+ 2 +...+ t +...= - = 1, eli (1-)=1, eli = 1/(1-) )• Jos kunkin vaihepelin palkkio on sama, ,

diskontattu palkkio on /(1-).

Page 16: Peliteoria

Toistettu vangin dilemma

• GRIM- strategia: valitse C niin kauan, kunnes toinen valitsee D. Tämän jälkeen valitse D ikuisesti. Onko GRIM vastaan GRIM SPNE?

Kannattaako pelata C? 2 tapausta: a) jompikumpi on pelannut D.b) kumpikaan ei ole vielä pelannut D. a) Kummankaan ei kannata pelata C, jos toinen kerran pelaa D. Jos

jompikumpi pelaa D, molempien kannattaa pelata D koko loppupelin ajan.

b) Palkkio C:n pelaamisesta on 3 + 3 + 32 + ... = 3/(1-), Palkkio D:n pelaamisesta on 4 + (1 + + 2 + ...) = 4 + 1/(1-).

Pysyttäytyminen GRIM- strategiassa kannattaa jos 3/(1-) > 4 + 1/(1-), eli jos > ½.

GRIM vastaan GRIM on SPNE jos diskonttotekijä on riittävän suuri (tässä jos > ½).

Page 17: Peliteoria

TFT: toinen liipasinstrategia

• Grim on liipasinstrategia: Aloitetaan kiltillä (nice) pelillä. Jos toinen valitsee halutun kiltin strategian, jatketaan sitä. Jos taas toinen ei pelaa kiltisti, (liipasin vapautuu) aloitetaan toisen rankaisu.

• TIT-FOR-TAT (TFT): Valitse ensin C, sen jälkeen periodilla (t) valitse se teko, jonka toinen pelaaja valitsi edellisellä periodilla (t-1).

• Axelrod (1984): TIT-FOR-TAT on järkevä strategia monissa olosuhteissa (nice, forgiving ja trigger). TIT-FOR-TAT on erityisen hyvä strategia silloin, kun pelataan useita erilaisia strategioita vastaan. Silti, se ei ole paras mahdollinen strategia kaikkia mahdollisia strategioita vastaan.

Page 18: Peliteoria

Folk teoreema• Käytössykli (behavior cycle) on toistettu ketju tekoja: pelaajat

pelaavat (esim.) (C, C) T1 kpl. vaihepeliä, sitten (D, D) T2 vaihepelin ajan, sitten (C, D) T3 vaihepelin ajan, sitten (D, C) T4 vaihepelin ajan jne.

• Folk teoreema: Mikä tahansa käytössykli on saavutettavissa alipelitäydellisenä tasapainona, jos diskonttotekijä on lähellä yhtä ( 1).

• Folk teoreema sanoo, ettei ole mahdollista sanoa, miten pelaajat pelaisivat äärettömästi toistettua peliä.

• Ennustaminen on mahdotonta, koska alipelitäydellisiä tasapainoja on ääretön määrä.

• Teoreeman todistus perustuu intuitiivisesti järkevään ideaan: Voidaan aina löytää tapa rankaista toista pelaajaa, vaikka rankaiseminen rankaisee myös rankaisijaa itseänsä, koska tulevaisuuden palkkioilla on väliä jos diskonttotekijä on lähellä yhtä.

Page 19: Peliteoria

Yleisiä johtopäätöksiä toistetuista peleistä

• Äärellisesti ja äärettömästi toistettujen pelien ero on suuri.

• Axelrod, folk teoreema ym: Yhteistoimintaa (cooperation) voi syntyä ilman keskusvallan (esim. valtion) sekaantumista asioihin, jos pelaajat välittävät riittävästi tulevaisuudesta.

• Hyvän maineen rakentaminen kannattaa pitkällä aikavälillä.