20
ベイジアンナッシュ均衡を構成する信念の推定 ○金川 雅和 奈良先端科学技術大学院大学 小木曽 公尚 電気通信大学 杉本 謙二 奈良先端科学技術大学院大学 第一回 SICE制御部門マルチシンポジウム 電気通信大学 2014/3/6

Estimating Player's Belief in Bayesian Game by Feedback Control

Embed Size (px)

Citation preview

Page 1: Estimating Player's Belief in Bayesian Game by Feedback Control

ベイジアンナッシュ均衡を構成する信念の推定

○金川 雅和 奈良先端科学技術大学院大学 小木曽 公尚 電気通信大学 杉本 謙二 奈良先端科学技術大学院大学

第一回 SICE制御部門マルチシンポジウム 電気通信大学 2014/3/6

Page 2: Estimating Player's Belief in Bayesian Game by Feedback Control

もくじ

•はじめに

•ベイジアンゲーム

•信念の推定法

•数値例

•おわりに

Page 3: Estimating Player's Belief in Bayesian Game by Feedback Control

1. 合理的なプレイヤ 2. 行動 3. 効用値

4  4

5  1

1  5

2  2

a

a

a

a

標準型ゲーム  (囚人のジレンマ)

プレイヤ2

プレイヤ1

�3

標準型ゲーム

プレイヤの効用値が確定的に決まる

[1] J. Nash 1951

均衡解析:ナッシュ均衡[1]

 プレイヤが自身の行動を変更することで     より高い効用値を得ることができない行動の組

背景

:二人(a, a):二種類

Page 4: Estimating Player's Belief in Bayesian Game by Feedback Control

2  2

1  5

5  1

0  0

       2  0

       1  1

       5  2

       0  1

       0  2

       2    5

       1  1

       1  0

       0    0

       2  1

       1  2

       1  1

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

ベイジアンゲーム

プレイヤ2

プレイヤ1 ✓

✓ ✓

1. 合理的なプレイヤ 2. 行動 3. 効用値の候補 4. タイプ 5. 信念(タイプ上の確率分布)

�4

背景

ベイジアンゲーム[2]  プレイヤの効用値が確率的に決まる

[2] J.C. Harsanyi 1967

均衡解析:ベイジアンナッシュ均衡(BN均衡)

 プレイヤが自身の戦略を変更することで     より高い期待効用を得ることができない戦略の組

ベイジアンナッシュ均衡を計算するためには信念が必要

:二人

(✓, ✓):二種類

(a, a):二種類

Page 5: Estimating Player's Belief in Bayesian Game by Feedback Control

�5

信念を正確に把握することは困難

✓ 繰り返しゲームを行いプレイヤの行動から信念を推定

例:モバイル端末の周波数割当[3],アドホックネットワークの侵入検知[4]

[4] Y. Liu et al 2006[3] K. Akkarajitsakul et al. 2011

ベイジアンゲームの問題点

電力需要家の選好を推定への応用

信念の推定の課題

✓ 指定したBN均衡に対応する信念の推定は議論されていない

✓ 対応する信念を解析的に求めることは困難

Page 6: Estimating Player's Belief in Bayesian Game by Feedback Control

�6

目的

指定したBN均衡に対応する信念の推定 "

""アプローチ ✓ 信念の推定問題を追従制御問題に帰着させて解く • 信念とBN均衡を状態変数とするモデル(制御対象) • 指定したBN均衡(目標値)に到達する制御系を構築

目的

Page 7: Estimating Player's Belief in Bayesian Game by Feedback Control

ベイジアンゲームの構成要素:

1. プレイヤ

2. 行動

3. 効用値

4. タイプ

5. 信念

確率分布の集合

�7

ui : A⇥ ⇥ ! R

i 2 Nai 2 Ai

✓i 2 ⇥i

µi 2 ⇧(⇥i)

(N , A, u, ⇥, µ)N := {1, 2}Ai := {a, a}

⇥i := {✓, ✓}8i 2 N

9>>>>=

>>>>;

対象とするベイジアンゲーム:定式化

A := A1 ⇥A2

⇥ := ⇥1 ⇥⇥2

 混合戦略          :行動上の確率分布

✓確率分布    に従い行動     を選択

si(✓i) 2 ⇧(Ai)

si(✓i) ai 2 Ai

Page 8: Estimating Player's Belief in Bayesian Game by Feedback Control

a

a

a

a

ベイジアンゲーム

�8[1] J.Nash, (1951)

対象とするベイジアンゲーム:タイプ

⇥i =�✓, ✓

⇥ := ⇥1 ⇥⇥2

8i 2 N

タイプの組     毎に標準型ゲームが存在✓ 2 ⇥

標準型ゲーム

2  2

1  5

5  1

4  4

a

a

a

a

       2  0

       1  1

       5  2

       0  1

a

a

a

a

         0        2

       2          5

       1        1

       1        0

a

a

a

a

         0  0

       2  1

       1  2

       1  1

a

a

a

a

 2  

     21  

     55  

     10  

     0

a

a

a

a

   

Page 9: Estimating Player's Belief in Bayesian Game by Feedback Control

       2  0

       1  1

       5  2

       0  1

a

a

a

a

 

       0        2

       2          5

       1        1

       1        0

a

a

a

a

 

       0  0

       2  1

       1  2

       1  1

a

a

a

a

 

2        2

1        5

5        1

0        0

a

a

a

a

 

�9

対象とするベイジアンゲーム:タイプ

(✓, ✓)

�✓, ✓

�✓, ✓

�✓, ✓

⇥i =�✓, ✓

⇥ := ⇥1 ⇥⇥2

8i 2 N

ベイジアンゲーム

タイプの組     毎に標準型ゲームが存在✓ 2 ⇥

Page 10: Estimating Player's Belief in Bayesian Game by Feedback Control

       2  0

       1  1

       5  2

       0  1

a

a

a

a

 

       0        2

       2          5

       1        1

       1        0

a

a

a

a

 

       0  0

       2  1

       1  2

       1  1

a

a

a

a

 

2        2

1        5

5        1

0        0

a

a

a

a

 

�10

対象とするベイジアンゲーム:信念

(✓, ✓)

�✓, ✓

�✓, ✓

�✓, ✓

µ1 (✓)

µ1

�✓�

µ2 (✓) µ2

�✓�

µ1

�✓�

µ2 (✓) µ2

�✓�

µ1 (✓)µ2

�✓�

µ1 (✓)

タイプの組     は信念に従い確定✓ 2 ⇥

⇥i =�✓, ✓

⇥ := ⇥1 ⇥⇥2

8i 2 N

ベイジアンゲーム

タイプの組     毎に標準型ゲームが存在✓ 2 ⇥

Page 11: Estimating Player's Belief in Bayesian Game by Feedback Control

�11

ベイジアンナッシュ均衡

期待効用

EUi(si, s�i) :=X

✓2⇥

µi(✓i)µ�i(✓�i)

(X

a2Asi(ai|✓i)s�i(a�i|✓�i)ui(a, ✓)

)

混合戦略信念

ベイジアンナッシュ均衡

"

➡ 混合戦略の組  はベイジアンナッシュ均衡

8i 2 Ns̄i 2 argmax

siEUi(si, s̄�i)

given µ

 混合戦略          :行動上の確率分布

✓確率分布    に従い行動     を選択

si(✓i) 2 ⇧(Ai)

si(✓i) ai 2 Ai0  

12  

1

1  1

0  0

a1 a2

a1

a2

1  0

1  1

1  1

0  1

a1 a2

a1

a2

2  0

1  1

2  2

2  0

a1 a2

a1

a2

1  1

2  1

0  0

0  1

a1 a2

a1

a2

s2(✓)s2(✓)

s1(✓)

s1(✓)

8>>>>>>>>>>>><

>>>>>>>>>>>>:

µ1

8>>>>>>>>>>>><>>>>>>>>>>>>:µ2

8>><

>>:

8>><

>>:

8>><>>:8>><>>:

2  "2

1  "5

5  "1

0  "0

       2  0

       1  1

       5  2

       0  1

       0  "2

       2      

5

       1  "1

       1  "0

       0    

0

       2  

1

       1  

2

       1  

1

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

Page 12: Estimating Player's Belief in Bayesian Game by Feedback Control

✓ プレイヤが自身の戦略を変更することで     より高い期待効用を得ることができない混合戦略の組

�12

均衡対    :あるBN均衡と対応する信念の組(µ, s)

ベイジアンナッシュ均衡の特徴

EUi(si, s�i) :=X

✓2⇥

µi(✓i)µ�i(✓�i)

(X

a2Asi(ai|✓i)s�i(a�i|✓�i)ui(a, ✓)

)✓ ベイジアンナッシュ均衡は信念  に依存µ

✓ 信念  を所与として,ベイジアンナッシュ均衡を計算µ

ベイジアンナッシュ均衡

"

➡ 混合戦略の組  はベイジアンナッシュ均衡

8i 2 Ns̄i 2 argmax

siEUi(si, s̄�i)

given µ

Page 13: Estimating Player's Belief in Bayesian Game by Feedback Control

信念の推定問題:BN均衡  に対応する信念  を推定

均衡対

�13

µ̄s̄

推定法のアプローチ

追従制御問題に帰着 1. 均衡遷移モデル(自律系)

s+ = f(s, µ, µ+)

µ+ = diag(A1, A2)µ s+

µ+

f(s, µ, µ+)diag(A1, A2)

s+ = f(s, µ, µ+)

µ+ = diag(A1, A2) +g(s̄� s)

2. 追従制御系

s+

µ+

f(s, µ, µ+)diag(A1, A2)+

-­‐

+

+

g(s̄� s)

s̄ z�1

✓ BN均衡  を所与として,信念  を計算µ̄s̄

✓      は均衡対      仮定:ひとつの均衡対が既知(µ̄, s̄)

Page 14: Estimating Player's Belief in Bayesian Game by Feedback Control

定理:ベイジアンゲームに対して     

ならば,遷移モデル  で求まる      は均衡対である

仮定:    が均衡対である

�14

均衡遷移モデルの実現

(µ, s)

ci(✓i) =µ+i (✓i)

µi(✓i)8✓i 2 ⇥i

(µ+, s+)f

⇥1 �1

⇤Ui(✓i, ✓)

⇥0 1

⇤T= 0 (8✓i 2 ⇥i 8i 2 N )

fi(si(✓), µ, µ+) =

1 00 1

�si(✓)

8i 2 N

fi(si(✓), µ, µ+) =

2

4c�i(✓)

c�i(✓)0

1� c�i(✓)

c�i(✓)1

3

5 si(✓)9>>>>=

>>>>;

Ui(✓i, ✓�i) =

1 01 1

�効用値行列

Page 15: Estimating Player's Belief in Bayesian Game by Feedback Control

コントローラ(PI制御器)

�15

追従制御系の設計:信念の推定

I制御器g(s̄� s) := KP (s̄� s) +KI

X(s̄� s)

P制御器

⌘ :=

0 0 1 00 0 �1 0

�KP := ↵ I2 ⌦ ⌘

KI := � I2 ⌦ ⌘

制御系の安定性は今後の課題

s+ = f(s, µ, µ+)

µ+ = diag(A1, A2) +g(s̄� s)

追従制御系

s+

µ+

f(s, µ, µ+)diag(A1, A2)+

-­‐

+

+

g(s̄� s)

s̄ z�1

Page 16: Estimating Player's Belief in Bayesian Game by Feedback Control

�16

数値例

A1, A2が列確率行列

ベイジアンゲームの数値例s̄1 =

⇥0.5 0.5 0.8 0.2

s̄2 =⇥0.5 0.5 0.2 0.8

目標値

si(✓) si(✓)

⇢⇢

対応する信念 (答え)µ̄

µ̄1 =⇥0.6154 0.3846

µ̄2 =⇥0.2857 0.7143

0  1

2  1

1  1

0  0

a1 a2

a1

a2

1  0

1  1

1  1

0  1

a1 a2

a1

a2

2  0

1  1

2  2

2  0

a1 a2

a1

a2

1  1

2  1

0  0

0  1

a1 a2

a1

a2

s2(✓)s2(✓)

s1(✓)

s1(✓)

8>>>>>>>>>>>><

>>>>>>>>>>>>:

µ1

8>>>>>>>>>>>><>>>>>>>>>>>>: µ2

8>><

>>:

8>><

>>:

8>><>>:8>><>>:

↵ = 0.3, � = 0.08

Page 17: Estimating Player's Belief in Bayesian Game by Feedback Control

�17

シミュレーション結果

推定結果が答えと一致µ̄1 =

⇥0.6154 0.3846

µ̄2 =⇥0.2857 0.7143

s̄目標値

A1 =

0.6 0.30.4 0.7

�, A2 =

0.4 0.30.6 0.7

�↵ = 0.3, � = 0.08

推定結果 µ̄1

推定結果 µ̄2

Page 18: Estimating Player's Belief in Bayesian Game by Feedback Control

�18

まとめ • 指定したBN均衡に対応する信念の推定法の提案 • BN均衡の遷移モデルの導出 • 数値例を用いて信念の推定が可能であることを確認

""今後の課題 • 安定性解析 • 仮定と遷移モデルのパラメタライゼーション • 繰り返しゲームへと遷移モデルの拡張

おわりに

Page 19: Estimating Player's Belief in Bayesian Game by Feedback Control

BN均衡の十分条件

BN均衡の定義

"➡ 混合戦略の組  はベイジアンナッシュ均衡

8i 2 Ns̄i 2 argmax

siEUi(si, s̄�i)

�19

均衡遷移モデルの導出

帰納法を用いて,BN均衡の十分条件を満たすモデル  を導出f

BN均衡なら全ての    でKarush-Kuhn-Tucker(KKT)条件を満たすi 2 N

KKT条件からBN均衡になる十分条件を導出

(µ, s)がBN均衡の十分条件を満たす均衡対前提:

がBN均衡の十分条件を満たす(µ+, s+)命題:

帰納法

EUi(si, s�i)argmax

si

s.t gi(si) 0 hi(si) = 0確率分布が満たす条件

8i 2 N

期待効用を目的関数とする線形計画問題の最適解

given µ, s�i

Page 20: Estimating Player's Belief in Bayesian Game by Feedback Control

�20

仮定と均衡遷移モデルのパラメタライゼーション

本発表の仮定とモデル⇥1 �1

⇤Ui(✓i, ✓)

⇥0 1

⇤T= 0 (8✓i 2 ⇥i 8i 2 N )仮定

fi(si(✓), µ, µ+) =

1 00 1

�si(✓)

8i 2 N

fi(si(✓), µ, µ+) =

2

4c�i(✓)

c�i(✓)0

1� c�i(✓)

c�i(✓)1

3

5 si(✓)モデル

他の仮定とモデル(8✓i 2 ⇥i 8i 2 N )仮定

⇥1 �1

⇤Ui(✓i, ✓)

⇥1 0

⇤T= 0

モデル fi(si(✓), µ, µ+) =

1 00 1

�si(✓)

8i 2 N

fi(si(✓), µ, µ+) =

2

41 1� c�i(✓)

c�i(✓)

0 c�i(✓)

c�i(✓)

3

5 si(✓)

fi(si(✓), µ, µ+) =

8<

:�

2

4c�i(✓)

c�i(✓)0

1� c�i(✓)

c�i(✓)1

3

5+ (1� �)

2

41 1� c�i(✓)

c�i(✓)

0 c�i(✓)

c�i(✓)

3

5

9=

; si(✓)

モデル fi(si(✓), µ, µ+) =

1 00 1

�si(✓)

8i 2 N

パラメタライゼーションした仮定とモデル

(8✓i 2 ⇥i 8i 2 N )仮定⇥1 �1

⇤Ui(✓i, ✓)

⇥� 1� �

⇤T= 0 � 2 [0, 1]