17
上級ミクロ経済学 5繰り返しゲーム 2017年度後期 経済学部専門科目 20171222日,2018115九州大学大学院 経済学研究院 藤田敏之

上級ミクロ経済学 - econ.kyushu-u.ac.jptfujita/advancedmicro171222revised.pdf · gtにおけるプレイヤーの戦略・・・過去の自分や他のプレイヤーの行動(履

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

上級ミクロ経済学 5章 繰り返しゲーム

2017年度後期 経済学部専門科目

2017年12月22日2018年1月15日

九州大学大学院 経済学研究院

藤田敏之

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(1)

2

繰り返しゲームと成分ゲーム

現実社会における多くのゲーム的状況は1回限りでなく継続的である

繰り返しゲームとは同一のゲームが繰り返しプレイされるゲームのことである

以下の利得行列で表される2人囚人のジレンマGを考える

C協力(黙秘)D裏切り(自白)

GのT回繰り返しゲームをGTと表し無限回繰り返しゲームをGinfinと表すGを成分ゲームという

5 繰り返しゲーム

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(2)

3

有限回の繰り返しゲーム

GTにおけるプレイヤーの戦略過去の自分や他のプレイヤーの行動(履歴)に応じて決定される行動計画

囚人のジレンマが2回繰り返されるG2は以下のゲームの木によって表される

C D

C C C

C C

C D

D D

D D D

1

1 1 1 1

2 2

2 2 2 2 2 2

2 2

C C C

C C C C C

D D D D

D D D D

初期点以外のプレイヤー1の手番から始まる部分ゲーム(4つ)はそれぞれ異なる履歴をもつ2回目

のゲームとなるがこれらの部分ゲームの均衡はすべて(D D)

10

10

1

11 11

1

2

2

1

11

-8

12

2

2

-7

3

11

1

2

2

12

-8

3

-7 2

2

-7

3

3

-7

-6

-6

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(3)

4

有限回の繰り返しゲーム(続き)

縮約ゲームは以下のようになり1回目のゲームにおける最適行動もやはり(D D)のみであることがわかるしたがってG2の部分ゲーム完全均衡は

((D DDDD) (D DDDD))のみでありその結果つねに行動Dがとられる

この結果を一般化したのが次の定理である

定理1 唯一のナッシュ均衡sをもつGのT回繰り返しゲームGTはTの値によら

ず唯一の部分ゲーム完全均衡をもちその均衡においてプレイヤーはつねにsを選択する

C D

C C D D

1

2 2

2

2

-7

3 3

-7 -6

-6 つまり囚人のジレンマを有限回繰り返す場合部分ゲーム完全均衡ではプレイヤーはつねに裏切り続けることになる

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(4)

5

無限回繰り返しゲームの戦略

次に無限回繰り返しゲームを考える戦略の概念は有限回の場合と同様

何回かゲームを繰り返すとプレイヤーの戦略数は爆発的に多くなる

(例)2人囚人のジレンマを繰り返すときのn回目のゲームの戦略数は

すべての戦略を検討することは不可能なので代表的な戦略として

(1)all-C過去のプレイによらずつねにCをとる

(2)all-D過去のプレイによらずつねにDをとる

(3)トリガー最初はCをとり相手がCをとる限りCをとるがひとたび相手がDをとればその次の回からずっとDをとる

(4)しっぺ返し最初はCをとりその後相手の前回の行動と同じ行動をとる

を考える

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(5)

6

プレイヤーの利得

Ginfinにおけるプレイヤーの利得は毎回の成分ゲームGでの利得の現在価値総和とするt回目の成分ゲームでの利得をutとおくとGinfinでの利得は

と表されるここでδは割引因子であり0 lt δ lt 1

プレイヤーが前のスライドの(1)~(4)の戦略しかとらないと仮定するとGinfin

の利得行列は次のようになる(実際の利得は表の値に1(1-δ)を乗じたもの)

(5 5)

(-3 -3)

(-4+δ 6-9δ)

(-4 6)

(6 -4)

all-C

all-D

トリガー

しっぺ返し

all-C all-D トリガー しっぺ返し

(5 5) (5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(-4+δ 6-9δ)

(6-9δ -4+δ) (6-9δ -4+δ)

つねに最適反応

のとき最適反応

のとき最適反応

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(6)

7

例えば1がall-D2がトリガーをとるとき1回目のゲームでの行動は

(D C)で2回目以降はすべて(D D)

1の利得は 2の利得は

協力の実現

利得行列より(all-D all-D)はつねに均衡になるしかし という条

件のもとでは(トリガートリガー)(しっぺ返ししっぺ返し)なども均衡になるつまりδがある程度大きければ均衡の結果として毎回(C C)がプレイされる協力行動が実現可能

この事実はさらに一般的な枠組みでも成り立つ囚人のジレンマを一般化してGの利得行列を以下のようにする

(R R)

(P P) (T S)

(S T)

C D

C

D 1

2

ただし

TgtRgtPgtS 2RgtS+T

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(7)

8

協力の実現(続き)

すべての戦略を想定してもプレイヤーの協力が均衡の結果として実現されることが示される

定理2 2人囚人のジレンマGにおいて ならば(トリガートリガー)はGinfinの均衡である

証明 戦略(トリガートリガー)が選択されるとき毎回の行動は(C C)で両プレイヤーの利得はRである

ここでプレイヤー1が戦略を変更してt回目のゲームで行動をDに変更するとしようそのときプレイヤー2はt+1回目以後Dをとり続けるのでt回目以降の1の総利得の現在価値はたかだか

である

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(8)

9

協力の実現(続き)

証明(続き)

一方戦略を変更しない場合は

ここで

両辺を1-δで割ると

よって戦略を変更してもプレイヤー1は利得を増加させることができない

プレイヤー2についても同じことがいえる以上より ならば

(トリガートリガー)はGinfinの均衡である(証明終)

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(1)

2

繰り返しゲームと成分ゲーム

現実社会における多くのゲーム的状況は1回限りでなく継続的である

繰り返しゲームとは同一のゲームが繰り返しプレイされるゲームのことである

以下の利得行列で表される2人囚人のジレンマGを考える

C協力(黙秘)D裏切り(自白)

GのT回繰り返しゲームをGTと表し無限回繰り返しゲームをGinfinと表すGを成分ゲームという

5 繰り返しゲーム

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(2)

3

有限回の繰り返しゲーム

GTにおけるプレイヤーの戦略過去の自分や他のプレイヤーの行動(履歴)に応じて決定される行動計画

囚人のジレンマが2回繰り返されるG2は以下のゲームの木によって表される

C D

C C C

C C

C D

D D

D D D

1

1 1 1 1

2 2

2 2 2 2 2 2

2 2

C C C

C C C C C

D D D D

D D D D

初期点以外のプレイヤー1の手番から始まる部分ゲーム(4つ)はそれぞれ異なる履歴をもつ2回目

のゲームとなるがこれらの部分ゲームの均衡はすべて(D D)

10

10

1

11 11

1

2

2

1

11

-8

12

2

2

-7

3

11

1

2

2

12

-8

3

-7 2

2

-7

3

3

-7

-6

-6

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(3)

4

有限回の繰り返しゲーム(続き)

縮約ゲームは以下のようになり1回目のゲームにおける最適行動もやはり(D D)のみであることがわかるしたがってG2の部分ゲーム完全均衡は

((D DDDD) (D DDDD))のみでありその結果つねに行動Dがとられる

この結果を一般化したのが次の定理である

定理1 唯一のナッシュ均衡sをもつGのT回繰り返しゲームGTはTの値によら

ず唯一の部分ゲーム完全均衡をもちその均衡においてプレイヤーはつねにsを選択する

C D

C C D D

1

2 2

2

2

-7

3 3

-7 -6

-6 つまり囚人のジレンマを有限回繰り返す場合部分ゲーム完全均衡ではプレイヤーはつねに裏切り続けることになる

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(4)

5

無限回繰り返しゲームの戦略

次に無限回繰り返しゲームを考える戦略の概念は有限回の場合と同様

何回かゲームを繰り返すとプレイヤーの戦略数は爆発的に多くなる

(例)2人囚人のジレンマを繰り返すときのn回目のゲームの戦略数は

すべての戦略を検討することは不可能なので代表的な戦略として

(1)all-C過去のプレイによらずつねにCをとる

(2)all-D過去のプレイによらずつねにDをとる

(3)トリガー最初はCをとり相手がCをとる限りCをとるがひとたび相手がDをとればその次の回からずっとDをとる

(4)しっぺ返し最初はCをとりその後相手の前回の行動と同じ行動をとる

を考える

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(5)

6

プレイヤーの利得

Ginfinにおけるプレイヤーの利得は毎回の成分ゲームGでの利得の現在価値総和とするt回目の成分ゲームでの利得をutとおくとGinfinでの利得は

と表されるここでδは割引因子であり0 lt δ lt 1

プレイヤーが前のスライドの(1)~(4)の戦略しかとらないと仮定するとGinfin

の利得行列は次のようになる(実際の利得は表の値に1(1-δ)を乗じたもの)

(5 5)

(-3 -3)

(-4+δ 6-9δ)

(-4 6)

(6 -4)

all-C

all-D

トリガー

しっぺ返し

all-C all-D トリガー しっぺ返し

(5 5) (5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(-4+δ 6-9δ)

(6-9δ -4+δ) (6-9δ -4+δ)

つねに最適反応

のとき最適反応

のとき最適反応

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(6)

7

例えば1がall-D2がトリガーをとるとき1回目のゲームでの行動は

(D C)で2回目以降はすべて(D D)

1の利得は 2の利得は

協力の実現

利得行列より(all-D all-D)はつねに均衡になるしかし という条

件のもとでは(トリガートリガー)(しっぺ返ししっぺ返し)なども均衡になるつまりδがある程度大きければ均衡の結果として毎回(C C)がプレイされる協力行動が実現可能

この事実はさらに一般的な枠組みでも成り立つ囚人のジレンマを一般化してGの利得行列を以下のようにする

(R R)

(P P) (T S)

(S T)

C D

C

D 1

2

ただし

TgtRgtPgtS 2RgtS+T

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(7)

8

協力の実現(続き)

すべての戦略を想定してもプレイヤーの協力が均衡の結果として実現されることが示される

定理2 2人囚人のジレンマGにおいて ならば(トリガートリガー)はGinfinの均衡である

証明 戦略(トリガートリガー)が選択されるとき毎回の行動は(C C)で両プレイヤーの利得はRである

ここでプレイヤー1が戦略を変更してt回目のゲームで行動をDに変更するとしようそのときプレイヤー2はt+1回目以後Dをとり続けるのでt回目以降の1の総利得の現在価値はたかだか

である

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(8)

9

協力の実現(続き)

証明(続き)

一方戦略を変更しない場合は

ここで

両辺を1-δで割ると

よって戦略を変更してもプレイヤー1は利得を増加させることができない

プレイヤー2についても同じことがいえる以上より ならば

(トリガートリガー)はGinfinの均衡である(証明終)

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(2)

3

有限回の繰り返しゲーム

GTにおけるプレイヤーの戦略過去の自分や他のプレイヤーの行動(履歴)に応じて決定される行動計画

囚人のジレンマが2回繰り返されるG2は以下のゲームの木によって表される

C D

C C C

C C

C D

D D

D D D

1

1 1 1 1

2 2

2 2 2 2 2 2

2 2

C C C

C C C C C

D D D D

D D D D

初期点以外のプレイヤー1の手番から始まる部分ゲーム(4つ)はそれぞれ異なる履歴をもつ2回目

のゲームとなるがこれらの部分ゲームの均衡はすべて(D D)

10

10

1

11 11

1

2

2

1

11

-8

12

2

2

-7

3

11

1

2

2

12

-8

3

-7 2

2

-7

3

3

-7

-6

-6

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(3)

4

有限回の繰り返しゲーム(続き)

縮約ゲームは以下のようになり1回目のゲームにおける最適行動もやはり(D D)のみであることがわかるしたがってG2の部分ゲーム完全均衡は

((D DDDD) (D DDDD))のみでありその結果つねに行動Dがとられる

この結果を一般化したのが次の定理である

定理1 唯一のナッシュ均衡sをもつGのT回繰り返しゲームGTはTの値によら

ず唯一の部分ゲーム完全均衡をもちその均衡においてプレイヤーはつねにsを選択する

C D

C C D D

1

2 2

2

2

-7

3 3

-7 -6

-6 つまり囚人のジレンマを有限回繰り返す場合部分ゲーム完全均衡ではプレイヤーはつねに裏切り続けることになる

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(4)

5

無限回繰り返しゲームの戦略

次に無限回繰り返しゲームを考える戦略の概念は有限回の場合と同様

何回かゲームを繰り返すとプレイヤーの戦略数は爆発的に多くなる

(例)2人囚人のジレンマを繰り返すときのn回目のゲームの戦略数は

すべての戦略を検討することは不可能なので代表的な戦略として

(1)all-C過去のプレイによらずつねにCをとる

(2)all-D過去のプレイによらずつねにDをとる

(3)トリガー最初はCをとり相手がCをとる限りCをとるがひとたび相手がDをとればその次の回からずっとDをとる

(4)しっぺ返し最初はCをとりその後相手の前回の行動と同じ行動をとる

を考える

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(5)

6

プレイヤーの利得

Ginfinにおけるプレイヤーの利得は毎回の成分ゲームGでの利得の現在価値総和とするt回目の成分ゲームでの利得をutとおくとGinfinでの利得は

と表されるここでδは割引因子であり0 lt δ lt 1

プレイヤーが前のスライドの(1)~(4)の戦略しかとらないと仮定するとGinfin

の利得行列は次のようになる(実際の利得は表の値に1(1-δ)を乗じたもの)

(5 5)

(-3 -3)

(-4+δ 6-9δ)

(-4 6)

(6 -4)

all-C

all-D

トリガー

しっぺ返し

all-C all-D トリガー しっぺ返し

(5 5) (5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(-4+δ 6-9δ)

(6-9δ -4+δ) (6-9δ -4+δ)

つねに最適反応

のとき最適反応

のとき最適反応

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(6)

7

例えば1がall-D2がトリガーをとるとき1回目のゲームでの行動は

(D C)で2回目以降はすべて(D D)

1の利得は 2の利得は

協力の実現

利得行列より(all-D all-D)はつねに均衡になるしかし という条

件のもとでは(トリガートリガー)(しっぺ返ししっぺ返し)なども均衡になるつまりδがある程度大きければ均衡の結果として毎回(C C)がプレイされる協力行動が実現可能

この事実はさらに一般的な枠組みでも成り立つ囚人のジレンマを一般化してGの利得行列を以下のようにする

(R R)

(P P) (T S)

(S T)

C D

C

D 1

2

ただし

TgtRgtPgtS 2RgtS+T

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(7)

8

協力の実現(続き)

すべての戦略を想定してもプレイヤーの協力が均衡の結果として実現されることが示される

定理2 2人囚人のジレンマGにおいて ならば(トリガートリガー)はGinfinの均衡である

証明 戦略(トリガートリガー)が選択されるとき毎回の行動は(C C)で両プレイヤーの利得はRである

ここでプレイヤー1が戦略を変更してt回目のゲームで行動をDに変更するとしようそのときプレイヤー2はt+1回目以後Dをとり続けるのでt回目以降の1の総利得の現在価値はたかだか

である

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(8)

9

協力の実現(続き)

証明(続き)

一方戦略を変更しない場合は

ここで

両辺を1-δで割ると

よって戦略を変更してもプレイヤー1は利得を増加させることができない

プレイヤー2についても同じことがいえる以上より ならば

(トリガートリガー)はGinfinの均衡である(証明終)

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(3)

4

有限回の繰り返しゲーム(続き)

縮約ゲームは以下のようになり1回目のゲームにおける最適行動もやはり(D D)のみであることがわかるしたがってG2の部分ゲーム完全均衡は

((D DDDD) (D DDDD))のみでありその結果つねに行動Dがとられる

この結果を一般化したのが次の定理である

定理1 唯一のナッシュ均衡sをもつGのT回繰り返しゲームGTはTの値によら

ず唯一の部分ゲーム完全均衡をもちその均衡においてプレイヤーはつねにsを選択する

C D

C C D D

1

2 2

2

2

-7

3 3

-7 -6

-6 つまり囚人のジレンマを有限回繰り返す場合部分ゲーム完全均衡ではプレイヤーはつねに裏切り続けることになる

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(4)

5

無限回繰り返しゲームの戦略

次に無限回繰り返しゲームを考える戦略の概念は有限回の場合と同様

何回かゲームを繰り返すとプレイヤーの戦略数は爆発的に多くなる

(例)2人囚人のジレンマを繰り返すときのn回目のゲームの戦略数は

すべての戦略を検討することは不可能なので代表的な戦略として

(1)all-C過去のプレイによらずつねにCをとる

(2)all-D過去のプレイによらずつねにDをとる

(3)トリガー最初はCをとり相手がCをとる限りCをとるがひとたび相手がDをとればその次の回からずっとDをとる

(4)しっぺ返し最初はCをとりその後相手の前回の行動と同じ行動をとる

を考える

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(5)

6

プレイヤーの利得

Ginfinにおけるプレイヤーの利得は毎回の成分ゲームGでの利得の現在価値総和とするt回目の成分ゲームでの利得をutとおくとGinfinでの利得は

と表されるここでδは割引因子であり0 lt δ lt 1

プレイヤーが前のスライドの(1)~(4)の戦略しかとらないと仮定するとGinfin

の利得行列は次のようになる(実際の利得は表の値に1(1-δ)を乗じたもの)

(5 5)

(-3 -3)

(-4+δ 6-9δ)

(-4 6)

(6 -4)

all-C

all-D

トリガー

しっぺ返し

all-C all-D トリガー しっぺ返し

(5 5) (5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(-4+δ 6-9δ)

(6-9δ -4+δ) (6-9δ -4+δ)

つねに最適反応

のとき最適反応

のとき最適反応

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(6)

7

例えば1がall-D2がトリガーをとるとき1回目のゲームでの行動は

(D C)で2回目以降はすべて(D D)

1の利得は 2の利得は

協力の実現

利得行列より(all-D all-D)はつねに均衡になるしかし という条

件のもとでは(トリガートリガー)(しっぺ返ししっぺ返し)なども均衡になるつまりδがある程度大きければ均衡の結果として毎回(C C)がプレイされる協力行動が実現可能

この事実はさらに一般的な枠組みでも成り立つ囚人のジレンマを一般化してGの利得行列を以下のようにする

(R R)

(P P) (T S)

(S T)

C D

C

D 1

2

ただし

TgtRgtPgtS 2RgtS+T

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(7)

8

協力の実現(続き)

すべての戦略を想定してもプレイヤーの協力が均衡の結果として実現されることが示される

定理2 2人囚人のジレンマGにおいて ならば(トリガートリガー)はGinfinの均衡である

証明 戦略(トリガートリガー)が選択されるとき毎回の行動は(C C)で両プレイヤーの利得はRである

ここでプレイヤー1が戦略を変更してt回目のゲームで行動をDに変更するとしようそのときプレイヤー2はt+1回目以後Dをとり続けるのでt回目以降の1の総利得の現在価値はたかだか

である

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(8)

9

協力の実現(続き)

証明(続き)

一方戦略を変更しない場合は

ここで

両辺を1-δで割ると

よって戦略を変更してもプレイヤー1は利得を増加させることができない

プレイヤー2についても同じことがいえる以上より ならば

(トリガートリガー)はGinfinの均衡である(証明終)

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(4)

5

無限回繰り返しゲームの戦略

次に無限回繰り返しゲームを考える戦略の概念は有限回の場合と同様

何回かゲームを繰り返すとプレイヤーの戦略数は爆発的に多くなる

(例)2人囚人のジレンマを繰り返すときのn回目のゲームの戦略数は

すべての戦略を検討することは不可能なので代表的な戦略として

(1)all-C過去のプレイによらずつねにCをとる

(2)all-D過去のプレイによらずつねにDをとる

(3)トリガー最初はCをとり相手がCをとる限りCをとるがひとたび相手がDをとればその次の回からずっとDをとる

(4)しっぺ返し最初はCをとりその後相手の前回の行動と同じ行動をとる

を考える

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(5)

6

プレイヤーの利得

Ginfinにおけるプレイヤーの利得は毎回の成分ゲームGでの利得の現在価値総和とするt回目の成分ゲームでの利得をutとおくとGinfinでの利得は

と表されるここでδは割引因子であり0 lt δ lt 1

プレイヤーが前のスライドの(1)~(4)の戦略しかとらないと仮定するとGinfin

の利得行列は次のようになる(実際の利得は表の値に1(1-δ)を乗じたもの)

(5 5)

(-3 -3)

(-4+δ 6-9δ)

(-4 6)

(6 -4)

all-C

all-D

トリガー

しっぺ返し

all-C all-D トリガー しっぺ返し

(5 5) (5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(-4+δ 6-9δ)

(6-9δ -4+δ) (6-9δ -4+δ)

つねに最適反応

のとき最適反応

のとき最適反応

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(6)

7

例えば1がall-D2がトリガーをとるとき1回目のゲームでの行動は

(D C)で2回目以降はすべて(D D)

1の利得は 2の利得は

協力の実現

利得行列より(all-D all-D)はつねに均衡になるしかし という条

件のもとでは(トリガートリガー)(しっぺ返ししっぺ返し)なども均衡になるつまりδがある程度大きければ均衡の結果として毎回(C C)がプレイされる協力行動が実現可能

この事実はさらに一般的な枠組みでも成り立つ囚人のジレンマを一般化してGの利得行列を以下のようにする

(R R)

(P P) (T S)

(S T)

C D

C

D 1

2

ただし

TgtRgtPgtS 2RgtS+T

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(7)

8

協力の実現(続き)

すべての戦略を想定してもプレイヤーの協力が均衡の結果として実現されることが示される

定理2 2人囚人のジレンマGにおいて ならば(トリガートリガー)はGinfinの均衡である

証明 戦略(トリガートリガー)が選択されるとき毎回の行動は(C C)で両プレイヤーの利得はRである

ここでプレイヤー1が戦略を変更してt回目のゲームで行動をDに変更するとしようそのときプレイヤー2はt+1回目以後Dをとり続けるのでt回目以降の1の総利得の現在価値はたかだか

である

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(8)

9

協力の実現(続き)

証明(続き)

一方戦略を変更しない場合は

ここで

両辺を1-δで割ると

よって戦略を変更してもプレイヤー1は利得を増加させることができない

プレイヤー2についても同じことがいえる以上より ならば

(トリガートリガー)はGinfinの均衡である(証明終)

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(5)

6

プレイヤーの利得

Ginfinにおけるプレイヤーの利得は毎回の成分ゲームGでの利得の現在価値総和とするt回目の成分ゲームでの利得をutとおくとGinfinでの利得は

と表されるここでδは割引因子であり0 lt δ lt 1

プレイヤーが前のスライドの(1)~(4)の戦略しかとらないと仮定するとGinfin

の利得行列は次のようになる(実際の利得は表の値に1(1-δ)を乗じたもの)

(5 5)

(-3 -3)

(-4+δ 6-9δ)

(-4 6)

(6 -4)

all-C

all-D

トリガー

しっぺ返し

all-C all-D トリガー しっぺ返し

(5 5) (5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(5 5)

(-4+δ 6-9δ)

(6-9δ -4+δ) (6-9δ -4+δ)

つねに最適反応

のとき最適反応

のとき最適反応

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(6)

7

例えば1がall-D2がトリガーをとるとき1回目のゲームでの行動は

(D C)で2回目以降はすべて(D D)

1の利得は 2の利得は

協力の実現

利得行列より(all-D all-D)はつねに均衡になるしかし という条

件のもとでは(トリガートリガー)(しっぺ返ししっぺ返し)なども均衡になるつまりδがある程度大きければ均衡の結果として毎回(C C)がプレイされる協力行動が実現可能

この事実はさらに一般的な枠組みでも成り立つ囚人のジレンマを一般化してGの利得行列を以下のようにする

(R R)

(P P) (T S)

(S T)

C D

C

D 1

2

ただし

TgtRgtPgtS 2RgtS+T

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(7)

8

協力の実現(続き)

すべての戦略を想定してもプレイヤーの協力が均衡の結果として実現されることが示される

定理2 2人囚人のジレンマGにおいて ならば(トリガートリガー)はGinfinの均衡である

証明 戦略(トリガートリガー)が選択されるとき毎回の行動は(C C)で両プレイヤーの利得はRである

ここでプレイヤー1が戦略を変更してt回目のゲームで行動をDに変更するとしようそのときプレイヤー2はt+1回目以後Dをとり続けるのでt回目以降の1の総利得の現在価値はたかだか

である

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(8)

9

協力の実現(続き)

証明(続き)

一方戦略を変更しない場合は

ここで

両辺を1-δで割ると

よって戦略を変更してもプレイヤー1は利得を増加させることができない

プレイヤー2についても同じことがいえる以上より ならば

(トリガートリガー)はGinfinの均衡である(証明終)

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(6)

7

例えば1がall-D2がトリガーをとるとき1回目のゲームでの行動は

(D C)で2回目以降はすべて(D D)

1の利得は 2の利得は

協力の実現

利得行列より(all-D all-D)はつねに均衡になるしかし という条

件のもとでは(トリガートリガー)(しっぺ返ししっぺ返し)なども均衡になるつまりδがある程度大きければ均衡の結果として毎回(C C)がプレイされる協力行動が実現可能

この事実はさらに一般的な枠組みでも成り立つ囚人のジレンマを一般化してGの利得行列を以下のようにする

(R R)

(P P) (T S)

(S T)

C D

C

D 1

2

ただし

TgtRgtPgtS 2RgtS+T

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(7)

8

協力の実現(続き)

すべての戦略を想定してもプレイヤーの協力が均衡の結果として実現されることが示される

定理2 2人囚人のジレンマGにおいて ならば(トリガートリガー)はGinfinの均衡である

証明 戦略(トリガートリガー)が選択されるとき毎回の行動は(C C)で両プレイヤーの利得はRである

ここでプレイヤー1が戦略を変更してt回目のゲームで行動をDに変更するとしようそのときプレイヤー2はt+1回目以後Dをとり続けるのでt回目以降の1の総利得の現在価値はたかだか

である

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(8)

9

協力の実現(続き)

証明(続き)

一方戦略を変更しない場合は

ここで

両辺を1-δで割ると

よって戦略を変更してもプレイヤー1は利得を増加させることができない

プレイヤー2についても同じことがいえる以上より ならば

(トリガートリガー)はGinfinの均衡である(証明終)

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(7)

8

協力の実現(続き)

すべての戦略を想定してもプレイヤーの協力が均衡の結果として実現されることが示される

定理2 2人囚人のジレンマGにおいて ならば(トリガートリガー)はGinfinの均衡である

証明 戦略(トリガートリガー)が選択されるとき毎回の行動は(C C)で両プレイヤーの利得はRである

ここでプレイヤー1が戦略を変更してt回目のゲームで行動をDに変更するとしようそのときプレイヤー2はt+1回目以後Dをとり続けるのでt回目以降の1の総利得の現在価値はたかだか

である

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(8)

9

協力の実現(続き)

証明(続き)

一方戦略を変更しない場合は

ここで

両辺を1-δで割ると

よって戦略を変更してもプレイヤー1は利得を増加させることができない

プレイヤー2についても同じことがいえる以上より ならば

(トリガートリガー)はGinfinの均衡である(証明終)

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(8)

9

協力の実現(続き)

証明(続き)

一方戦略を変更しない場合は

ここで

両辺を1-δで割ると

よって戦略を変更してもプレイヤー1は利得を増加させることができない

プレイヤー2についても同じことがいえる以上より ならば

(トリガートリガー)はGinfinの均衡である(証明終)

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

51 囚人のジレンマの繰り返し(9)

10

協力の実現(続き)

さらに次の定理も成り立つ

定理3 2人囚人のジレンマGにおいて

ならば(しっぺ返ししっぺ返し)はGinfinの均衡

である

将来の利得がある程度重視される(割引率が小さい)ならば一時的な裏切りによる利得の増加よりも将来の損失が大きくなるのでプレイヤーは裏切るインセンティブをもたず協力が持続される

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(1)

11

を戦略形n人ゲームとする

ここで プレイヤーの集合

Aiプレイヤーiの行動(戦略)の集合

fiプレイヤーiの利得関数

このときGの繰り返しゲームGinfinの戦略と利得を以下のように定義する

戦略

1回の成分ゲームGにおける行動の組合せは集合

の要素でありt回目のゲーム(t期とよぶ)までの行動の組合せ(履歴)は集合At(t個のAの直積)の要素となる

Ginfinにおけるプレイヤーiの戦略を とおくと

t期における戦略 はAt-1からAiへの写像であるつまりiはt-1期までの履歴によりt期の行動を決定する(si

1はAiの要素)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(2)

12

戦略(続き)

プレイヤーiの戦略の集合をSiまた とおく

戦略の組 によってプレイヤーの毎期の行動

(それぞれAの要素)が次のように逐次的に

決まる

(1)

(2)

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

52 繰り返しゲームの定式化(3)

13

利得と均衡

δを割引因子とするとGinfinでのプレイヤーiの利得は各期の利得の現在価値総和として

と定義される

以上をまとめてGの繰り返しゲームはδを明示した形で

と表される

Ginfinの均衡については今までと同様任意の に対して

をみたす と定義される

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(1)

14

ミニマックス行動

定義 戦略形ゲームGにおいてプレイヤーiに対するミニマックス行動とは

をみたすi以外のプレイヤーの行動

のことである(1)の値をプレイヤーiのミニマックス利得といいviで表す

つまり他のプレイヤーがiに対するミニマックス行動をとればiはたかだかviの利得しか得られない

定義 プレイヤーの行動の組 が個人合理的とは

が成り立つことをさす

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(2)

15

以上の準備のもとでフォーク定理が導かれる

定理4(フォーク定理)

Gの任意の個人合理的な に対して割引因子δが

をみたすならば Ginfinの均衡 が存在して

となる

証明 プレイヤーiのトリガー戦略siを次のように定義する

(i) ある期でプレイヤー だけがaと異なる行動をとれば次の期以降jに対するミニマックス行動をとる

(ii) (i)以外の場合はaiをとる

このとき は明らか

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(3)

16

証明(続き)

プレイヤーiが戦略をsiから異なるものに変更しその結果t期で

をとる場合他のプレイヤーはt+1期以降 をとり続けるのでiの利得和はたかだか

となる

戦略を変更しない場合の利得和は

ここで(2)式より

が成り立つのでiは戦略の変更によって利得を増加させることができない について同じことがいえるよってsは均衡

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2

Kyushu University UI project Kyudai Taro2007

53 フォーク定理(4)

17

51で扱った囚人のジレンマに戻る(下に利得行列を再掲)

このゲームにおいてプレイヤー1に対する2のミニマックス行動 およびプレイヤー2に対する1のミニマックス行動 はともにD

ミニマックス利得 より行動の組(C C)は個人合理的である

フォーク定理をこの例に適用するa = (C C)とすると

より ならば Ginfinの

均衡 が存在して また s はトリガー戦略

つまりフォーク定理は定理2の一般化になっている

(5 5)

(-3 -3) (6 -4)

(-4 6)

C D

C

D 1

2