10.Private Strategies in Games with Imperfect Public Monitoring

10.Private Strategies in Games with

Imperfect Public Monitoring

北木　真

1

アウトライン Sequential Equilibrium A Reduced-Form Example Two-Period Examples An Infinitely Repeated Prisoners’ Dilemma

2

公的戦略と私的戦略行動： E （ Effort ）， S （ Shirk ） {y,y} ：公的シグナル Public strategies ： σ ， σ

公的シグナルによってのみ定まる

Private strategies ： σ シグナル y に続く 2 期の行動は， 1 期の行動に依存

3

-

-- ～＾

Sequential Equilibrium 定義

任意の行動 a に対するシグナル y の観測確率 ρ （ y|a ）は正であると仮定

任意の自分の履歴　　に対して，　　　がに対して最適反応⇒ 戦略プロファイル σ は sequential equilibrium（但し，　　　　　　　　　　　　　　　　　　　　

　　　　　　　　）

4


5

A Reduced-Form Example 1 期目は左， 2 期目は右のゲームを行う

シグナル y の観測確率 ρ a ：行動， y,y ：シグナル p=9/10 ， q=4/5 ， r=1/5 と仮定

2 回のゲームにおける利得： (1-δ)u1+δu2 δ=25/27 と仮定

6

--

-

各戦略の期待利得 Pure Strategies

1 期は EE ， 2 期では y のときは RR ，それ以外はPP

　左辺の式より期待利得は 1.4815

Public Correlation 1 期は E ，次は y の観測後は R ， y の観測後は確率

Φ で R を選択　 Φ=0.5 かつ期待利得は 1.5556

7

-

--

各戦略の期待利得 Mixed Public Strategies

1 期は確率 α で E ， 2 期は y の観測後は R ， y の観測後は確率 Φ で R を選択

　　

　

　　　　　　　　　　　より，期待利得は1.5566 （ α ＝ 0.969 ，

Φ=0.567 ） 8

--

各戦略の期待利得 Private Strategies

1 期は確率 α で E を選択 2 期は 1 期で S が選ばれ， y を観測した後は確率 ξ

で R を選択，それ以外の場合は必ず R を選択　

　

　　　　　　　より，期待利得は 1.5864 （ α ＝0.916 ， ξ ＝ 0 ）

9

-


10

Two-Period Examples ただ一つのナッシュ均衡を持つゲーム右のナッシュ均衡

プレイヤ１： r1 か r2 を等確率プレイヤ２： c1 か c2 を等確率

公的シグナル Y={y,y} のうち，y が観測される確率 ρ(y|r c ):

11

--

- - ji

PPE と重複しない均衡

12

1 期の各プレイヤーの行動：

2 期のプレイヤ１の行動：

2 期のプレイヤ２の行動：

PPE と重複しない均衡

13

何故， 1 期でプレイヤ１は r3 を選択？ r2 を選択すると， 2 期でプレイヤ２は確率 0.1 で

c1 ， 0.9 で c2 を選択プレイヤ１の期待利得は， r3 の選択より減少

均衡戦略が public 1 期の行動は 2 期の行動に影響を与えないため，最

適反応から外れた戦略を取る誘因が発生しない⇒ PPE

一方，プレイヤ２の private strategy は 2 期のゲームにおいて correlated equilibrium を構成 2 期においてナッシュ均衡を構成する必要はない

Correlation による利得

14

右のゲームにおける均衡 Nash ： (1,1) Correlation ： (3/2,3/2)

各シグナル y1,y2,y3 の観測確率：

Correlation による利得 1 期は 3 つの行動を等確率で 1 つ選択各プレイヤの 2 期の行動：

r4=r1 ， c4=c1 ， r0=r3 ， c0=c3 とする

2 期の戦略は correlated equilibirum を構成

15

複数のナッシュ均衡があるゲーム

16

プレイヤ１は縦，２は横，３は左か右の表から行動を選択プレイヤ３にとって R は L を支配

ナッシュ均衡 LRR か RLR を選択：利得（ 1,1,12 ）プレイヤー１と２が 1/3 で L を選択：利得

（ 1/3,1/3,74/9)

さらに大きな利得を得るシグナル Y={y0,y1,y2,y3} を考える

l ： 1 期で L を選択したプレイヤの人数 yl の観測確率は 1-3ε （ ym （ m≠l ）の観測確率は

ε ）各プレイヤの 1 期の行動：

1 期では比較的 LLL が選択される

17

さらに大きな利得を得る

18

各プレイヤの 2 期の行動

ε が十分に小さければ， 2 期はほぼナッシュ均衡となる

さらに大きな利得を得る

19

プレイヤ１と２の2 期の期待利得：

プレイヤ３の 2 期の期待利得 1 期で L を選択：高確率で y3 が観測され，利得は

12 R を選択：高確率で y2 が観測され，利得は 0

ε→0 のとき，利得は (6,6,26.22 ）に近づくナッシュ均衡による利得より大きい


20

Public Transitions 右の囚人のジレンマを無限回繰り返す 2 つの公的シグナル y,y のうち， y の観測確率 ρ ：

ここでは p>0 ， q=0 と仮定戦略のオートマトン表現

wR ：確率 α で E を選択 wP ： S を選択各プレイヤは常に　同じ状態

21

--

-

Public Transitions

22

wR における期待利得 V(wR) E を選択した場合： S を選択した場合： wP における期待利得は 0

wR における行動が無差別⇒ このとき，

各プレイヤが辛抱強い（ δ が 1 に近い）とき， α は1 に近づき， V(wR) は 2 に近づく

この場合， PPE によって達成可能な利得 2-(1-p)/pより大きい

q>0 のとき

23

q=0 のときと同じ戦略は均衡ではないプレイヤ１の履歴 Ey ， (Ey)k を考える Ey 観測後，プレイヤ２が状態 wR である確率 β0(q)

β0(0)=1 同様にして次の確率 βk(q)を考える：

k→∞ のとき， βk(q) は 0 に近づくプレイヤ１はプレイヤ２がほぼ確実に wP の状態で

あると考え， E の選択をやめる

--

-

Belief-free Equilibrium

24

右の囚人のジレンマにおけるBelief-free equilibrium（ 14 章で述べられる）を示す 2 つの公的シグナル y,y のうち，y の観測確率 ρ ： -

--


25

戦略のオートマトン表現 wR ：確率 αR で Eを選択 WP ： S を選択

Vxi(ai) ：プレイヤ j の状態が wx で，プレイヤi が ai 選択をした場合のプレイヤ i の利得 VRi(E)=Vri(S)≡VR ， VPi(E)=Vpi(S)≡VP

Belief-free Equilibrium VR について：

VP について：

これらの等式を解くことにより，確率 β が求められる

26


27

β によって，次の等式が導かれる

δ ＝ 1 ， αR=1 は等式を満たす p=1/2 ， q=1/2-ε ， r=ε ， b は 2 に近い場合を考

えるこのとき， 1 に近い δ<1 について， 1 に近い

αR<1 が存在し，それは上の等式を満たす

Documents

10.Private Strategies in Games with Imperfect Public Monitoring