第 8 章零和博弈

第 8 章零和博弈

1. 定义和例题

2. 稳妥地参与：最大最小

3. 充分地参与：最小最大

4. 实施纳什均衡策略：既稳妥又充分地参与

1. 零和博弈零和博弈是这样的一个博弈，不管两

个局中人采取的是什麽样的策略向量，他们的盈利总是相加为零；就是说，对所有的策略 s1 和 s2 ，成立

1(s1, s2) + 2(s1, s2) = 0

在（两人）零和博弈中，局中人 2 的盈利正好是局中人 1 的盈利的负值。

例 1: 扔硬币打赌

1 \ 2 L C R

U 5, -5 8, -8 4, -4

M -7, 7 9, -9 0, 0

D 9. -9 1, -1 -2, 2

例 2: 壁球 1 \ 2 向前（ F）后退（ B）

前面（ f） 20 ， 80 70 ， 30

后面（ b） 90 ， 10 30 ， 70

在每一格中，分别为局中人 1 和局中人2 赢的百分比。例 2 是从任何角度都很象零和博弈的一类博弈中的一个例子。这类博弈称为常数和博弈。在这类博弈中，两个盈利合计总是等于常数。

2. 稳妥地参与：最大最小在零和博弈中，当且仅当局中人 1 干得差时，局中人2 干得好。对于任意策略 s1 ，存在局中人 2 可以选择的策略 b(s1) ，使得他的盈利可能最高而同时使得局中人 1 的盈利最低。策略 b(s1) 形式上定义为

),(min)](,[ 21112

sssbss

在传统方法中，局中人 1 认定，不管她采取何种策略，局中人 2 将正确地预测并且采取一个（使局中人 1 ）最差或赢利最小化的策略 b(s1) 。因此，为了有把握（或稳妥）地参与，局中人 1 应该取策略 s1 ，它使局中人 1 最差情况下的盈利比起她采取其它任何一个策略的最差情况盈利要好一些。

在选择自己最好的“最差盈利”时，重要的是局中人 1 完全有理由同时考虑混合策略。毕竟，回想起当我们研究壁球游戏时，我们发现稍许有点虚张声势会使局中人得处境好一些；如果她击球落点是在球场前面和后面之间的混合，她赢的百分比就会高一些。

现在我们来给出保证盈利（或者最差情况下的最高盈利）的正式定义。这个盈利称为最大最小盈利并记为m1 ：

),(minmax 211

spmsp

如果策略 p* 满足 [ p*, b(p*)] = m1 ，则称 p* 为局中人 1 的稳妥策略。

• 注 1 ：由于策略 b(p) 使得局中人 1 的盈利最小化，因此，它是局中人 2 对付 p的最优反应（因此使用这个记号）。所以，稳妥的方法是，局中人预期她的对手采取最优反应并且防范任何随之发生的不利结局。

• 注 2 ：稳妥方法给予局中人 1 一个单方面手段去参与博弈。她知道，如果采取一个稳妥策略 p* ，她不可能比m

1 更差。如果事实上她的对手没有采用最优反应，那么她的盈利只能更高一些。这不像最优反应行为，该行为要求局中人 1 彻底地全面考虑问题：我在对什么作出最优反应？当然，这样的单方面策略的实施可能产生很高的代价；稳妥地参与可能不像采用最优反应那样有利。那种可能性将是下面小节的主题。

3. 充分地参与：最小最大代替采用防止最差情况结局，局中人 1 可以通过

采用最优反应从而“更加积极地”对付局中人2 的策略。人们可以认为这是更乐观的办法；试图预测对手的行动并且对此作出最优的反应。与之相联的概念称作最小最大盈利；它是局中人 1 的最优（反应）盈利中最差的一个（将它记为M1 ）：

),(maxmin 111

qsMsq

这里， (s1, q) 是当局中人 1 采取纯策略 s1 和她的对手采用混合策略 q时她的期望盈利。

• 命题 1 （最小最大优于最大最小）。局中人1 的最小最大盈利至少和她的最大最小盈利一样高，即M1 m1 。不管我们考虑的是纯策略或者是混合策略，该陈述都是正确的。

• 命题 2 （一个局中人的最小最大是另一个局中人的最大最小）。局中人 1 的最小最大盈利正好是局中人 2 的最大最小盈利（的负值），即

M1 = - m2 = [b (q*),q* ]

( 反过来，局中人 2 的最小最大盈利是局中人1 的最大最小盈利的负值。 )

4. 实施纳什均衡策略：既稳妥又充分地参与定义 : 一对混合策略，如果对所

有纯策略 s1 和 s2 ，有

)~,()~,~(),~( 12 qsqpsp

则构成零和博弈的纳什均衡。 )~,~( qp

命题 3 （稳妥和充分地参与）。令构成零和博弈的纳什均衡。那么和是稳妥策略，并且最大最小（和最小最大）盈利互相相等且等于。反之，假使最小最大和最大最小盈利相等。那么稳妥策略构成了博弈的纳什均衡。

)~,~( qp

)~,~( qp

p~ q~

第 9 章展开型博弈和后推归纳1. 展开型2. 策略，混合策略，和事件结 3. 完美信息博弈 4. 后推归纳法 5. 与策略型中 IEDS 的联系 6. 案例研究：“毒药”和其他收购威慑

剧院博弈

1. 展开型为了让“树”描绘博弈，其结点和枝需要满足三条性质：

• 1．单一的出发点。重要的是知道博弈从何处开始，所以必须有一个，也只能有一个出发点。因而，如图 11.3 那样的情况是不允许的。

• 2．无循环。重要的是在博弈运行中，我们不要陷入僵局；树枝循原路折回并造成一个循环一定是不可接受的。

• 3．单方向前进。重要的是，对于博弈如何进行下去不能模棱两可，因此，必定不存在二个或多个枝导向同一个结。

为保证这三条性质，在前结点上强加下述限制： 1．结点不能是自身的前结点。2．前结点的前结点也是前结点：如果结点是的前结点，依次结点是的前结点，那么也是的前结点。

3．前结点可以排序：如果和都是的前结点，必定是或者是的前结点，或者反过来。

4．必定存在一个共同的前结点：考虑任意两个结，和，它们之间没有一个是另一个的前结点。那么，必定存在一个结点，它是和双方的前结点。

策略，混合策略，和事件结策略

局中人的策略是行动的一个完全的，有条件的计划。说它是有条件的，因为如果博弈到达某个决策结后，它告诉局中人从这个结点出发后顺沿哪条枝。说它是完全的，因为它告诉局中人在每一个有关的决策结上选择什么策略。

混合策略混合策略定义的方式以与策略型完全相

同；它就是在纯策略上的一个概率分布。因此在序贯的剧院博弈中，局中人 1 的混合策略有两个数 p和 q给定，他们分别是选择 b 和选择 c的概率（而 1 – p – q 是选择 s的概率）。局中人 2 的混合策略由 33- 1 个数给定，每个数对应于指派给每个纯策略的概率。

事件结我们也可以在展开型内建立不确定性，

这种不确定性是博弈本身所具有的（与之对立的是局中人通过混合策略引进的不确定性）。例如，乘地铁需要的时间可能依赖于在地铁系统中是否存在一个高峰时间的延迟。对这种可能性建模的一个方法是允许第三类型的结点，称之为事件结；这是一个其枝表示若干随机可能性的结点。

2. 完美信息博弈完美信息的博弈

具有如下性质的展开型博弈：在每一个信息集中正好有一个结。

一个完美信息的博弈是不存在（具有多个结的）信息集的展开型博弈。

例 1 ：进入Ⅰ考虑下述经济模型。一家公司——譬如，“可口可乐”——正在盘算是否进入一个新市场——比方说是前苏联 (FSU)——在那里，市场由它的竞争对手“百事”所独占。新市场的潜在赢利影响“可口可乐”的决策，而这主要依赖于“百事”对“可口可乐”进入它的市场将做出怎样的反应。如果“百事”发动一场广告大战，花费大量金钱用于改善设施，以排他性协议捆住零售商——换句话说，反应“强硬”——那么“可口可乐”将会遭受损失。另一方面，如果“百事”不发动这样强硬的反击——毕竟这样做代价昂贵——“可口可乐”将赚到钱。在图 11.6 中， E(进入 )和 O(呆在外面 )表示“可口可乐”的抉择，而 T（强硬）和 A（宽容）指“百事”在如何制止“可口可乐”的进入方面的两个选择。注意，在每一对盈利中的第一项是“可口可乐”的盈利。

例 2 ：进入Ⅱ •对于（稍微）复杂一些的模型，我们

考虑如下变体。假设在“百事”的决策之后，“可口可乐”有进一步的决策可做；它必须决定自己是否发动一场积极的广告战并花费大量资金于设备方面，采取诸如此类的行动。换句话说，假使在看到了“百事”的反应之后，“可口可乐”本身将不得不行为“强硬”或“宽容”

例 3 ：（不完美信息）进入Ⅲ •假设，万一“可口可乐”进入 FSU市场，“可口可乐”和“百事”两家将对在这个市场上投资多少作出决策。即，行为或者“强硬”或者“宽容”。但是，例 2 不同，假定这些决策是同时策划的（这个事实使得这种情况不是完美信息的博弈）

3. 后推归纳我们感兴趣的问题是，例 1 和例 2 中行为的

合理预测是什么？这实际上是关于序贯理性的问题。它包含了理性，因为在考虑到局中人所想的将会是博弈的未来行为，因此，他将在决策结上选择他可使用的最优行动。它包含了序贯性，因为局中人将推断未来将会怎样，并且知道在未来，局中人将以同样的方式推理。尤其，在随后结点上的决策者，考虑到他对博弈今后未来的猜想，反过来选择可采用的最优行动。

注意到“可口可乐”的每一个策略必定有三个分量。第一个分量告诉我们“可口可乐”是否进入市场，第二个分量告诉，如果“百事”反应“强硬”，它是否会行为“强硬”，而第三个说明了如果“百事”宽容的话，“可口可乐”将采取的行动。例如 EAT表示（ 1 ）进入，（ 2 ）以宽容对付强硬的“百事”，（ 3 ）采取强硬策略对付宽容的“百事”。但是，“百事”正好有二个策略——要么反应强硬，要么宽容“可口可乐”。

百事 T A可口可乐ETT -2, -1 0, -3ETA -2, -1 1, 2EAT -3, 1 0, -3EAA -3, 1 1, 2OTT 0, 5 0, 5OTA 0, 5 0, 5OAT 0, 5 0, 5OAA 0, 5 0, 5

该策略型基本上有三个纯策略纳什均衡：

1．其“百事”取 T，而“可口可乐”取它呆在外面的（四个）策略中的任何一个的纳什均衡，—— OTT, OTA, OAT, 和 OAA。

2 ． (ETA, A)—— 其结局为，“可口可乐”进入而两家公司都宽容。

3 ． (EAA, A)—— 跟第二个均衡有相同的结局。

承诺的力量在生活中，通常，只有少量的选择总比有较多的选

择要差一些。你也许认为这对博弈也应该是对的。但是，展开型博弈，尤其是完美信息博弈，提供了少量（选择）可以蕴含更多（均衡盈利）的例子。这种陈述最初听起来似乎自相矛盾，但是直觉上的确很易明白。如果局中人在后面有许多选择，比起如果她有少数几个选择来，在未来的行为可以相当地不同。反过来，这种行为将影响她同时也影响其他局中人的当前措施。这种变化基本上对于具有增加了的选择的局中人可能是有利的或者有害的。

只强硬的“百事” 假如我们以下述方式简化这个（已经简单的！）例

子：在“可口可乐”进入 FSU 市场之后，“百事”除了采取“强硬”之外别无其他选择。（即，我们通过剔除“宽容”而缩减了“百事”的选择可能）。

只强硬的“可口可乐” 假如我们以下述方式修改例子：在“可口可乐”进入 FSU市场之后，除了强硬之外，“可口可乐”没有其他的选择（即，假定“可口可乐”少了一个选择：它不能宽容）。

后推归纳法科恩（和策墨罗）定理。每一个具有

有限个结的完美信息博弈有后退归纳解。事实上，如果对每一个局中人，不存在相同的两个盈利，那么存在唯一的后退归纳解。

5. 与策略型中 IEDS 的联系

博弈展开型中的后退归纳解与在策略型中用累次剔除劣策略（ IEDS ）求解博弈得到完全相同的结果。

6.案例研究：“毒药”和其他收购威慑 • 法律“毒药” 1

假设没有“毒药”条文，那个博弈就如例 1 那样——南诺福克（ Norfolk Southern ）必须决定是否反对 CSX-联合铁路公司的联盟。一方面，如果他们决定反对（并提出一个股份报价）， CSX- 联合铁路公司要么可以通过拒绝谈判，或抬高自己的条款，等等采取强硬策略，要么他们可能宽容并达成某种三边协议。另一方面，假使有“毒药”条文，博弈就如例 1’ 那样：CSX- 联合铁路公司达成协议采取强硬措施。

此外，现在假设 CSX- 联合铁路公司必须作一最初选择，决定是否用“毒药”来武装自己。于是展开型就如图所见到的那样（注意，在盈利向量中的第一项是第一个行动者的盈利，即， CSX- 联合铁路公司的盈利）。

没有“毒药”， CSX- 联合铁路公司将会宽容，从而南诺福克进入，于是前者的利润为 2 。设立“毒药”，南诺福克将选择不收购，因而 CSX- 联合铁路公司将得到利润 3 。显然， CSX- 联合铁路公司乐意采取“毒药”，这一承诺使他们获得额外的 1千万美元利润。

法律“毒药” 2

•你认为如此过分的事情很好，但是在实际中难道南诺福克不会提出收购计划吗？好吧，那样的话也许展开型中的盈利稍有不同。考虑下图。如前一样，不设立“毒药”， CSX- 联合铁路公司的盈利是 2 。现在，虽然，尽管有“毒药”，南诺福克发现进入仍是有利可图的（因为它得到了利润 0.5 ）。 CSX- 联合铁路公司获得利润 2.5 ，这仍然比他们不采用“毒药”而得到的 2 好一些。

因此后退归纳结局是 CSX- 联合铁路公司宁愿采用“毒药”条文，南诺福克愿意提出一个股份报价（发动对联合铁路公司的收购）， CSX- 联合铁路公司采取强硬措施。这个例子反映了在铁路货运危机中实际发生的事情。

Documents

第 8 章 零和博弈

第 8 章零和博弈