Upload
shino
View
23
Download
1
Embed Size (px)
DESCRIPTION
10.Private Strategies in Games with Imperfect Public Monitoring. 北木 真. アウトライン. Sequential Equilibrium A Reduced-Form Example Two-Period Examples An Infinitely Repeated Prisoners’ Dilemma. 公的戦略と私的戦略. 行動: E ( Effort ), S ( Shirk ) { y,y } :公的シグナル Public strategies : σ , σ - PowerPoint PPT Presentation
Citation preview
10.Private Strategies in Games with
Imperfect Public Monitoring
北木 真
1
アウトライン Sequential Equilibrium A Reduced-Form Example Two-Period Examples An Infinitely Repeated Prisoners’ Dilemma
2
公的戦略と私的戦略 行動: E ( Effort ), S ( Shirk ) {y,y} :公的シグナル Public strategies : σ , σ
公的シグナルによってのみ定まる
Private strategies : σ シグナル y に続く 2 期の行動は, 1 期の行動に依存
3
-
-- ~^
Sequential Equilibrium 定義
任意の行動 a に対するシグナル y の観測確率 ρ ( y|a )は正であると仮定
任意の自分の履歴 に対して, がに対して最適反応⇒ 戦略プロファイル σ は sequential equilibrium(但し,
)
4
アウトライン Sequential Equilibrium A Reduced-Form Example Two-Period Examples An Infinitely Repeated Prisoners’ Dilemma
5
A Reduced-Form Example 1 期目は左, 2 期目は右のゲームを行う
シグナル y の観測確率 ρ a :行動, y,y :シグナル p=9/10 , q=4/5 , r=1/5 と仮定
2 回のゲームにおける利得: (1-δ)u1+δu2 δ=25/27 と仮定
6
--
-
各戦略の期待利得 Pure Strategies
1 期は EE , 2 期では y のときは RR ,それ以外はPP
左辺の式より期待利得は 1.4815
Public Correlation 1 期は E ,次は y の観測後は R , y の観測後は確率
Φ で R を選択 Φ=0.5 かつ期待利得は 1.5556
7
-
--
各戦略の期待利得 Mixed Public Strategies
1 期は確率 α で E , 2 期は y の観測後は R , y の観測後は確率 Φ で R を選択
より,期待利得は1.5566 ( α = 0.969 ,
Φ=0.567 ) 8
--
各戦略の期待利得 Private Strategies
1 期は確率 α で E を選択 2 期は 1 期で S が選ばれ, y を観測した後は確率 ξ
で R を選択,それ以外の場合は必ず R を選択
より,期待利得は 1.5864 ( α =0.916 , ξ = 0 )
9
-
アウトライン Sequential Equilibrium A Reduced-Form Example Two-Period Examples An Infinitely Repeated Prisoners’ Dilemma
10
Two-Period Examples ただ一つのナッシュ均衡を持つゲーム 右のナッシュ均衡
プレイヤ1: r1 か r2 を等確率 プレイヤ2: c1 か c2 を等確率
公的シグナル Y={y,y} のうち,y が観測される確率 ρ(y|r c ):
11
--
- - ji
PPE と重複しない均衡
12
1 期の各プレイヤーの行動:
2 期のプレイヤ1の行動:
2 期のプレイヤ2の行動:
PPE と重複しない均衡
13
何故, 1 期でプレイヤ1は r3 を選択? r2 を選択すると, 2 期でプレイヤ2は確率 0.1 で
c1 , 0.9 で c2 を選択 プレイヤ1の期待利得は, r3 の選択より減少
均衡戦略が public 1 期の行動は 2 期の行動に影響を与えないため,最
適反応から外れた戦略を取る誘因が発生しない⇒ PPE
一方,プレイヤ2の private strategy は 2 期のゲームにおいて correlated equilibrium を構成 2 期においてナッシュ均衡を構成する必要はない
Correlation による利得
14
右のゲームにおける均衡 Nash : (1,1) Correlation : (3/2,3/2)
各シグナル y1,y2,y3 の観測確率:
Correlation による利得 1 期は 3 つの行動を等確率で 1 つ選択 各プレイヤの 2 期の行動:
r4=r1 , c4=c1 , r0=r3 , c0=c3 とする
2 期の戦略は correlated equilibirum を構成
15
複数のナッシュ均衡があるゲーム
16
プレイヤ1は縦,2は横,3は左か右の表から行動を選択 プレイヤ3にとって R は L を支配
ナッシュ均衡 LRR か RLR を選択:利得( 1,1,12 ) プレイヤー1と2が 1/3 で L を選択:利得
( 1/3,1/3,74/9)
さらに大きな利得を得る シグナル Y={y0,y1,y2,y3} を考える
l : 1 期で L を選択したプレイヤの人数 yl の観測確率は 1-3ε ( ym ( m≠l )の観測確率は
ε ) 各プレイヤの 1 期の行動:
1 期では比較的 LLL が選択される
17
さらに大きな利得を得る
18
各プレイヤの 2 期の行動
ε が十分に小さければ, 2 期はほぼナッシュ均衡となる
さらに大きな利得を得る
19
プレイヤ1と2の2 期の期待利得:
プレイヤ3の 2 期の期待利得 1 期で L を選択:高確率で y3 が観測され,利得は
12 R を選択:高確率で y2 が観測され,利得は 0
ε→0 のとき,利得は (6,6,26.22 )に近づく ナッシュ均衡による利得より大きい
アウトライン Sequential Equilibrium A Reduced-Form Example Two-Period Examples An Infinitely Repeated Prisoners’ Dilemma
20
Public Transitions 右の囚人のジレンマを無限回繰り返す 2 つの公的シグナル y,y のうち, y の観測確率 ρ :
ここでは p>0 , q=0 と仮定 戦略のオートマトン表現
wR :確率 α で E を選択 wP : S を選択 各プレイヤは常に 同じ状態
21
--
-
Public Transitions
22
wR における期待利得 V(wR) E を選択した場合: S を選択した場合: wP における期待利得は 0
wR における行動が無差別⇒ このとき,
各プレイヤが辛抱強い( δ が 1 に近い)とき, α は1 に近づき, V(wR) は 2 に近づく
この場合, PPE によって達成可能な利得 2-(1-p)/pより大きい
q>0 のとき
23
q=0 のときと同じ戦略は均衡ではない プレイヤ1の履歴 Ey , (Ey)k を考える Ey 観測後,プレイヤ2が状態 wR である確率 β0(q)
β0(0)=1 同様にして次の確率 βk(q)を考える:
k→∞ のとき, βk(q) は 0 に近づく プレイヤ1はプレイヤ2がほぼ確実に wP の状態で
あると考え, E の選択をやめる
--
-
Belief-free Equilibrium
24
右の囚人のジレンマにおけるBelief-free equilibrium( 14 章で述べられる)を示す 2 つの公的シグナル y,y のうち,y の観測確率 ρ : -
--
Belief-free Equilibrium
25
戦略のオートマトン表現 wR :確率 αR で Eを選択 WP : S を選択
Vxi(ai) :プレイヤ j の状態が wx で,プレイヤi が ai 選択をした場合のプレイヤ i の利得 VRi(E)=Vri(S)≡VR , VPi(E)=Vpi(S)≡VP
Belief-free Equilibrium VR について:
VP について:
これらの等式を解くことにより,確率 β が求められる
26
Belief-free Equilibrium
27
β によって,次の等式が導かれる
δ = 1 , αR=1 は等式を満たす p=1/2 , q=1/2-ε , r=ε , b は 2 に近い場合を考
える このとき, 1 に近い δ<1 について, 1 に近い
αR<1 が存在し,それは上の等式を満たす