博弈论复习题及答案

更新时间：2024-05-31 22:22:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

博弈论与生活推荐度：
相关推荐

博弈论

判断题（每小题1分，共15分）

囚徒困境说明个人的理性选择不一定是集体的理性选择。（√ ）子博弈精炼纳什均衡不是一个纳什均衡。（× ）

若一个博弈出现了皆大欢喜的结局，说明该博弈是一个合作的正和博弈。（）博弈中知道越多的一方越有利。（ ×）纳什均衡一定是上策均衡。（× ）上策均衡一定是纳什均衡。（√）

在一个博弈中只可能存在一个纳什均衡。（×）在一个博弈中博弈方可以有很多个。（√）

在一个博弈中如果存在多个纳什均衡则不存在上策均衡。（√ ）在博弈中纳什均衡是博弈双方能获得的最好结果。（× ）

在博弈中如果某博弈方改变策略后得益增加则另一博弈方得益减少。（× ）上策均衡是帕累托最优的均衡。（×）

因为零和博弈中博弈方之间关系都是竞争性的、对立的，因此零和博弈就是非合作博弈。（×）

在动态博弈中，因为后行动的博弈方可以先观察对方行为后再选择行为，因此总是有利的。（×）

在博弈中存在着先动优势和后动优势，所以后行动的人不一定总有利，例如：在斯塔克伯格模型中，企业就可能具有先动优势。囚徒的困境博弈中两个囚徒之所以会处于困境，无法得到较理想的结果，是因为两囚徒都不在乎坐牢时间长短本身，只在乎不能比对方坐牢的时间更长。（×）

纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合。（√ ）不存在纯战略纳什均衡和存在惟一的纯战略纳什均衡，作为原博弈构成的有限次重复博弈，共同特点是重复博弈本质上不过是原博弈的简单重复，重复博弈的子博弈完美纳什均衡就是每次重复采用原博弈的纳什均衡。（√ ）多个纯战略纳什均衡博弈的有限次重复博弈子博弈完美纳什均衡路径：两阶段都采用原博弈同一个纯战略纳什均衡，或者轮流采用不同纯战略纳什均衡，或者两次都采用混合战略纳什均衡，或者混合战略和纯战略轮流采用。（√ ）如果阶段博弈G={A1, A2,?,An; u1, u2,?,un)具有多重Nash均衡，那么可能（但不必）存在重复博弈G(T)的子博弈完美均衡结局，其中对于任意的t

大利益：采用原博弈的纯战略纳什均衡本身是各局中人能实现的最好结果，符合所有局中人的利益，因此，不管是重复有限次还是无限次，不会和一次性博弈有区别。（√ ）

原博弈惟一的纳什均衡本身是帕雷托效率意义上最佳战略组合，符合各局中人最大利益，但惟一的纳什均衡不是效率最高的战略组合，存在潜在合作利益的囚徒困境博弈。（√ ）（或：原博弈惟一的纳什均衡本身是帕雷托效率意义上最佳战略组合，符合各局中人最大利益，不存在潜在合作利益的囚徒困境博弈。（×））根据参与人行动的先后顺序，博弈可以划分为静态博弈(static game)和动态博弈(dynamic game)。

如果阶段博弈G有唯一的Nash均衡，那么对任意有限次T，重复博弈G(T)有唯一的子博弈完美结局：在每一阶段取G的Nash均衡策略。（√ ）

四、名词解释（每小题3分，共15分）

参与人(player)

指的是博弈中选择行动以最大化自己效用(收益)的决策主体，参与人有时也称局中人，可以是个人，也可以是企业、国家等团体；策略(strategy)

是参与人选择行动的规则，如“以牙还牙”是一种策略；信息(information)

是指参与人在博弈中的知识，尤其是有关其他参与人的特征和行动的知识；支付(payoff)函数

是参与人从博弈中获得的效用水平，它是所有参与人策略或行动的函数，是每个参与人很关心的东西；结果(outcome)

是指博弈分析者感兴趣的要素的集合，常用支付矩阵或收益矩阵来表示；均衡(equilibrium)

是所有参与人的最优策略或行动的组合。静态博弈

指参与人同时选择行动或虽非同时但后行动者并不知道先行动者采取什么样的行动；动态博弈

指参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。博弈

就是一些个人、队组或其他组织，面对一定的环境条件，在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，各自取得相应结果的过程。零和博弈：

也称“严格竞争博弈”。博弈方之间利益始终对立，偏好通常不同变和博弈：

零和博弈和常和博弈以外的所有博弈。合作利益存在，博弈效率问题的重要

性。

完全信息静态博弈

即各博弈方同时决策，且所有博弈方对各方得益都了解的博弈。上策：

不管其它博弈方选择什么策略，一博弈方的某个策略给他带来的得益始终高于其它的策略，至少不低于其他策略的策略上策均衡：

一个博弈的某个策略组合中的所有策略都是各个博弈方各自的上策，必然是该博弈比较稳定的结果严格下策：

不管其它博弈方的策略如何变化，给一个博弈方带来的收益总是比另一种策略给他带来的收益小的策略合作博弈非合作博弈零和博弈常和博弈变和博弈上策均衡纳什均衡

G?{S1,?Sn;u1,?un}中，如果由各个博弈方的各一个纳什均衡：在博弈

*(si*,?sn)中，任一博弈方的策略，都是对其余博策略组成的某个策略组合 ****弈方策略的组合 (si,?si?1,si?1,...sn)**ui(si*,?si*?1,si*,si*?1,...sn)?ui(si*,?si*?1,sij,si*?1,...sn)的最佳对策，也即

sij?Si 对任意

*(si*,?sn)都成立，则称为的一个纳什均衡

（或纳什均衡是指这样一种策略组合，这种策略组合由所有参与人的最优策略组成，即给定别人策略的情况下，没有任何单个参与人有积极性选择其他策略，从而没有任何参与人有积极性打破这种均衡。）完全信息博弈

G?{S1,?Sn;u1,?un}混合策略：在博弈中，博弈方 i 的策略空间

Si?{si1,?sik}pi?(pi1,?pik)为，则博弈方以概率分布随机在其 k 个可选策略中选择的“策略”，称为一个“混合策略”，其中

pi1???pik?10?pij?1 对 j?1,?,k都成立，且

帕累托上策均衡风险上策均衡聚点均衡重复博弈

指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”。阶段博弈

重复博弈中的每次博弈称为“阶段博弈”。贴现因子

下一期的一单位支付在这一期的价值。触发战略（Trigger Strategy）

首先试探合作，一旦发现对方不合作，则也用不合作相报复的战略。子博弈精炼纳什均衡

（夫妻博弈）一对新婚夫妻为晚上看什么电视节目争执不下，丈夫（记为I方）要看足球比赛节目，而妻子（记为Ⅱ方）要看戏曲节目.他们新婚燕尔，相亲相爱，所以若这方面的行动不一致，则是很伤感情的.因此，这对夫妻间的争执是一次非零和对策。

二、计算与分析题（每小题15分，共45分）

1、无限次重复博弈与有限重复博弈的区别：

a. 无限次重复博弈没有结束重复的确定时间。在有限次重复博弈中，

存在最后一次重复正是破坏重复博弈中局中人利益和行为的相互制约关系，使重复博弈无法实现更高效率均衡的关键问题。 b. 无限次重复博弈不能忽视不同时间得益的价值差异和贴现问题，

必须考虑后一期得益的贴现系数，对局中人和博弈均衡的分析必须以平均得益或总得益的现值为根据。 c. 无限次重复博弈与有限次重复博弈的共同点：试图“合作”和惩

罚“不合作”是实现理想均衡的关键，是构造高效率均衡战略的核心构件。 2、可口可乐与百事可乐（参与者）的价格决策：双方都可以保持价格不变或者提高价格（策略）；博弈的目标和得失情况体现为利润的多少（收益）；利润的大小取决于双方的策略组合（收益函数）；博弈有四种策略组合，其结局是：（1）如果双方都不涨价，各得利润10单位；

（2）如果可口可乐不涨价，百事可乐涨价，可口可乐利润100，百事可乐利润-30；

（3）如果可口可乐涨价，百事可乐不涨价，可口可乐利润-20，百事可乐利润30；

（4）如果双方都涨价，可口可乐利润140，百事可乐利润35；

求纳什均衡。

博弈的稳定状态有两个：都不涨价或者都涨价（均衡），均衡称为博弈的解。 3、猪圈里有一头大猪和一头小猪，猪圈的一头有一个饲料槽，另一头装有控制饲料供应的按钮。按一下按钮就会有10个单位饲料进槽，但谁按谁就要付出2个单位的成本。谁去按按纽则谁后到；都去按则同时到。若大猪先到，大猪吃到9个单位，小猪吃到一个单位；若同时到，大猪吃7个单位，小猪吃3个单位；若小猪先到，大猪吃六个单位，小猪吃4个单位。各种情况组合扣除成本后的支付矩阵可如下表示（每格第一个数字是大猪的得益，第二个数字是小猪的得益）：

大猪

小猪

按等待按 5，1 4，4 等待 9，-1 0，0

求纳什均衡。

在这个例子中，我们可以发现，大猪选择按，小猪最好选择等待，大猪选择不按，小猪还是最好选择等待。即不管大猪选择按还是不按，小猪的最佳策略都是等待。也就是说，无论如何，小猪都只会选择等待。这样的情况下，大猪最好选择是按，因为不按的话都饿肚子，按的话还可以有4个单位的收益。所以纳什均衡是（大猪按，小猪等待）。

4、根据两人博弈的支付矩阵回答问题： a b A 2,3 0,0 B 0,0 4,2 (1)写出两人各自的全部策略，并用等价的博弈树来重新表示这个博弈（6分） (2)找出该博弈的全部纯策略纳什均衡，并判断均衡的结果是否是Pareto有效。 (3)求出该博弈的混合策略纳什均衡。（7分） (1)策略甲：ＡＢ乙：ａｂ博弈树（草图如下： (2)Pure NE (A, a); (B, b)

都是Pareto有效，仅(B, b)是Ｋ－Ｈ有效。 (3)Mixed NE ((2/5, 3/5); (2/3, 1/3))

5、用反应函数法求出下列博弈的所有纯战略纳什均衡。

参与人1

3,1 4,1 1,4 10,2

A B

a 2,3 4,4 参与人2

b 3,2 5,2 c 3,4 0,1 d 0,3 1,2

解答：

D 3,1 4,1 -1,2 10,1 纯策略纳什均衡为（B，a）与（A，c）分析过程：设两个参与人的行动分别为a1和a2，

?B,如果a2?a??B,如果a2?bplayer1的反应函数R1(a2)??

A,如果a?c2??C或者D,如果a?d?2?c,如果a1?A??a,如果a1?Bplayer2的反应函数R2(a1)??

?c,如果a1?C?c,如果a?D?1交点为（B，a）与（A，c），因此纯策略纳什均衡为（B，a）与（A，c）。

6、（entry deterrence市场威慑）考虑下面一个动态博弈：首先，在一个市场上潜在的进入者选择是否进入，然后市场上的已有企业（在位者）选择是否与新企业展开竞争。在位者可能有两种类型，温柔型（左图）和残酷型（右图），回答下面问题。

在位者进入进入者默许（20，30）

在位者进入默许（10，20）

斗争（-10，0）进入者斗争不进入（-10，25）

不进入 .

（0，100）（0，100）

左图：温柔型右图：残酷型

(1)找出给定在位者的两种类型所分别对应的纳什均衡，以及子博弈精炼纳什均衡（12分）

(2)已有企业为温柔型的概率至少多少时，新企业才愿意进入（8分）

(1)温柔 NE (in, accommodate) 和 (out, fight)。 SPNE为(in, accommodate)

残酷 NE (out, fight). SPNE同理 (2)20p?10(1?p)??0 得到p??1/3

8、博弈方1 和博弈方 2就如何分 10，000 元钱进行讨价还价。假设确定了以下规则：双方同时提出自己要求的数额 A 和 B，0≤A，B≤10，000。如果 A+B

≤10，000，则两博弈方的要求得到满足，即分别得 A 和 B，但如果 A+B>10，000，则该笔钱就没收。问该博弈的纳什均衡是什么？如果你是其中一个博弈方，你会选择什么数额？为什么？

答十、纳什均衡有无数个。最可能的结果是（5000，5000）这个聚点均衡。

9、北方航空公司和新华航空公司分享了从北京到南方冬天度假胜地的市场。如果它们合作，各获得500000元的垄断利润，但不受限制的竞争会使每一方的利润降至60000元。如果一方在价格决策方面选择合作而另一方却选择降低价格，则合作的厂商获利将为零，竞争厂商将获利900000元。（1）将这一市场用囚徒困境的博弈加以表示。

（2）解释为什么均衡结果可能是两家公司都选择竞争性策略。答：（1）用囚徒困境的博弈表示如下表：北方航空公司合作竞争合作 500000，500000 0，900000 新华航空公司竞争 900000，0 60000，60000 （2）如果新华航空公司选择竞争，则北方航空公司也会选择竞争（60000>0）；若新华航空公司选择合作，北方航空公司仍会选择竞争（900000>500000）。若北方航空公司选择竞争，新华航空公司也将选择竞争（60000>0）；若北方航空公司选择合作，新华航空公司仍会选择竞争（900000>0）。由于双方总偏好竞争，故均衡结果为两家公司都选择竞争性策略，每一家公司所获利润均为600000元。

12、设啤酒市场上有两家厂商，各自选择是生产高价啤酒还是低价啤酒，相应的利润（单位：

万元）由下图的得益矩阵给出：

（1）有哪些结果是纳什均衡？（2）两厂商合作的结果是什么？

答（1）（低价，高价），（高价，低价）（2）（低价，高价）

13、A、B两企业利用广告进行竞争。若A、B两企业都做广告，在未来销售中，A企业可以获得20万元利润，B企业可获得8万元利润；若A企业做广告，B企业不做广告，A企业可获得25万元利润，B企业可获得2万元利润；若A企业不做广告，B企业做广告，A企业可获得10万元利润，B企业可获得12万元利润；若A、B两企业都不做广告，A企业可获得30万元利润，B企业可获得6万元利润。

（1）画出A、B两企业的支付矩阵。

（2）求纳什均衡。 3. 答：（1）由题目中所提供的信息，可画出A、B两企业的支付矩阵（如下表）。

B企业做广告不做广告做广告 20，8 25，2 A企业不做广告 10，12 30，6 （2）因为这是一个简单的完全信息静态博弈，对于纯策纳什均衡解可运用划横线法求解。

如果A厂商做广告，则B厂商的最优选择是做广告，因为做广告所获得的利润8大于不做广告获得的利润2，故在8下面划一横线。如果A厂商不做广告，则B厂商的最优选择也是做广告，因为做广告获得的利润为12，而不做广告的利润为6，故在12下面划一横线。

如果B厂商做广告，则A厂商的最优选择是做广告，因为做广告获得的利润20大于不做广告所获得的利润10，故在20下面划一横线。如果B厂商不做广告，A厂商的最优选择是不做广告，因为不做广告获得的利润30大于做广告所获得的利润25，故在30下面划一横线。

在本题中不存在混合策略的纳什均衡解，因此，最终的纯策略纳什均衡就是A、B两厂商都做广告。

15、求出下面博弈的纳什均衡(含纯策略和混合策略)。

乙 L R U 5,0 0,8 甲

D 2,6 4,5 由划线法易知，该矩阵博弈没有纯策略Nash均衡。可得如下不等式组

Q=a+d-b-c=7,q=d-b=4,R=0+5-8-6=-9,r=-1

可得混合策略Nash均衡((,),(,)

16、某产品市场上有两个厂商，各自都可以选择高质量，还是低质量。相应的利润由如下得益矩阵给出：

(1) 该博弈是否存在纳什均衡？如果存在的话，哪些结果是纳什均衡?

参考答案：由划线法可知，该矩阵博弈有两个纯策略Nash均衡，即(低质量, 高质量)， (高质量,低质量)。

乙企业高质量低质量甲企高质50,50 100,800 18994377量低质

900,600 -20,-30 量

该矩阵博弈还有一个混合的纳什均衡 Q=a+d-b-c= -970,q=d-b= -120,R= -1380,r= -630，可得x?因此该问题的混合纳什均衡为((12856375,),(,))。 97971381381263 ,y?97138业

17、甲、乙两企业分属两个国家，在开发某种新产品方面有如下收益矩阵表示的博弈关系。试求出该博弈的纳什均衡。如果乙企业所在国政府想保护本国企业利益，可以采取什么措施？

乙企业开发不开发甲企开发 -10,-10 100,0 业不开0,100 0,0 发解：用划线法找出问题的纯策略纳什均衡点。 ??10,?10100,0? ?0,0??0,100?所以可知该问题有两个纯策略纳什均衡点(开发,不开发)和(不开发,开发)。该博弈还有一个混合的纳什均衡((101101,),(,))。 11111111如果乙企业所在国政府对企业开发新产品补贴a个单位,则收益矩阵变为：,0???10,?10?a100,要使(不开发,开发)成为该博弈的唯一纳什均衡点,只需?0,0??0,100?a?a>10。此时乙企业的收益为100+a。 18、博弈的收益矩阵如下表：乙左右上 a，b c，d 甲下 e，f g，h （1）如果（上，左）是占优策略均衡，则a、b、c、d、e、f、g、h之间必然满足哪些关系？（尽量把所有必要的关系式都写出来）

（2）如果（上，左）是纳什均衡，则（1）中的关系式哪些必须满足？（3）如果（上，左）是占优策略均衡，那么它是否必定是纳什均衡？为什么？

（4）在什么情况下，纯战略纳什均衡不存在？

答：（1）a?e，c?g，b?d，f?h。本题另外一个思考角度是从占优策略均衡的定义出发。对乙而言，占优策略为(b,f)?(d,h)；而对甲而言，占优策略为

(a,c)?(e,g)。综合起来可得到所需结论。

（2）纳什均衡只需满足：甲选上的策略时，同时乙选左的策略时，a?e。b?d，故本题中纳什均衡的条件为：b?d，a?e。

（3）占优策略均衡一定是纳什均衡，因为占优策略均衡的条件包含了纳什均衡的条件。

（4）当对每一方来说，任意一种策略组合都不满足纳什均衡时，纯战略纳什均衡就不存在。

19、Smith和John玩数字匹配游戏，每个人选择1、2、3，如果数字相同， John给Smith 3美元，如果不同，Smith给John 1美元。（1）列出收益矩阵。

（2）如果参与者以1/3的概率选择每一个数字，证明该混合策略存在一个纳什均衡，它为多少？

答：（1）此博弈的收益矩阵如下表。该博弈是零和博弈，无纳什均衡。 John 1 2 3 1 3，-3 -1，1 -1，1 Smith 2 -1，1 3，-3 -1，1 3 -1，1 -1，1 3，-3 （2）Smith选（1/3，1/3，1/3）的混合概率时，

John选1的效用为：U1??(?3)??1??1?? John选2的效用为：U2??1??(?3)??1?? John选3的效用为：U3??1??1??(?3)?? 类似地，John选（1/3，1/3，1/3）的混合概率时， Smith选1的效用为：U1'??3??(?1)??(?1)? Smith选2的效用为：U2'??(?1)??3??(?1)? Smith选3的效用为：U3'??(?1)??(?1)??3? 因为U1?U2?U3，U1'?U2'?U3'，所以：

11?111111?'U??U?是纳什均衡，策略值分别为John：；Smith：。 (,,),(,,)?333333?33??131313131313131313131313131313131313131313131313

20、假设双头垄断企业的成本函数分别为：C1?20Q1，C2?2Q22，市场需求曲线为P?400?2Q，其中，Q?Q1?Q2。

（1）求出古诺（Cournot）均衡情况下的产量、价格和利润，求出各自的反应和等利润曲线，并图示均衡点。（2）求出斯塔克博格（Stackelberg）均衡情况下的产量、价格和利润，并以图形表示。（3）说明导致上述两种均衡结果差异的原因。答：（1）对于垄断企业1来说： max[400?2(Q1?Q2)]Q1?20Q1190?Q2 ?Q1?2 这是垄断企业1的反应函数。

其等利润曲线为：?1?380Q1?2Q1Q2?2Q12 对垄断企业2来说：

2max[400?2(Q1?Q2)]Q2?2Q2Q1 ?Q2?50?4 这是垄断企业2的反应函数。

其等利润曲线为：?2?400Q2?2Q1Q2?4Q22 在达到均衡时，有： Q??190??50?1?4??Q?80? Q1???12?Q2?30 均衡时的价格为：P?400?2?(80?30)?180 两垄断企业的利润分别为： ?1?380?80?2?80?30?2?802?12800 ?2?400?30?2?80?30?4?302?3600 均衡点可图示为： 190 企业2 企业1的反应线均衡点 0 95 企业1 200 （2）当垄断企业1为领导者时，企业2视企业1的产量为既定，其反应函数为：

Q2?50?Q1/4 则企业1的问题可简化为： ?Q???max?400?2?Q1?50?1??Q1?20Q14???? ?Q1?280/3???Q2?80/3 均衡时价格为：P?400?2??28080????160 33?? 利润为：?1?39200/3，?2?25600/9 该均衡可用下图表示： 190 企业2 企业1的反应线 Stackelberg均衡50 企业2的反应线 0 95 企业1 200 企业2领先时可依此类推。（3）当企业1为领先者时，其获得的利润要比古诺竞争下多。而企业2获得的利润较少。这是因为，企业1先行动时，其能考虑企业2的反应，并以此来制定自己的生产计划，而企业2只能被动地接受企业1的既定产量，计划自己的产出，这是一种“先动优势” 21、在一个由三寡头操纵的垄断市场中，逆需求函数为p=a-q1-q2-q3，这里qi是企业i的产量。每一企业生产的单位成本为常数c。三企业决定各自产量的顺序如下：(1)企业1首先选择q1≥0；(2)企业2和企业3观察到q1，然后同时分别选择q2和q3。试解出该博弈的子博弈完美纳什均衡。

答：该博弈分为两个阶段，第一阶段企业1选择产量q1，第二阶段企业2和3观测到q1后，他们之间作一完全信息的静态博弈。我们按照逆向递归法对博弈进行求解。

（1）假设企业1已选定产量q1，先进行第二阶段的计算。设企业2，3的利润函数分别为：

?2?(a?q1?q2?q3)q2?cq2 ?3?(a?q1?q2?q3)q2?cq3

由于两企业均要追求利润最大，故对以上两式分别求一阶条件：

??2?a?q1?2q2?q3?c?0 （1） ?q2

??3?a?q1?q2?2q3?c?0 （2） ?q3a?q1?c （3） 3求解（1）、（2）组成的方程组有：

*q*2?q3?（2）现进行第一阶段的博弈分析：

对与企业1，其利润函数为； ?1?(a?q1?q2?q3)q1?cq1 将（3）代入可得：

?1?式（4）对q1求导：

??1?a?2q1?c?0 ?q1q1(a?q1?c) （4） 3解得：

*q1?*此时，?1?1(a?c) （5） 21(a?c)2 1211*(a?c),q*2?q3?(a?c) 26（3）将式（5）代回（3）和（4）有该博弈的子博弈完美纳什均衡：

*q1?

25、某寡头垄断市场上有两个厂商，总成本均为自身产量的20倍，市场需求函数为Q=200-P。

求（1）若两个厂商同时决定产量，产量分别是多少？

（2）若两个厂商达成协议垄断市场，共同安排产量，则各自的利润情况如何？

答：（1）分别求反应函数，180-2Q1-Q2=0，180-Q1-2Q2=0，Q1=Q2=60 （2）200-2Q=20，Q=90，Q1=Q2=45

26、一个工人给一个老板干活，工资标准是100元。工人可以选择是否偷懒，老板则选择是否克扣工资。假设工人不偷懒有相当于 50 元的负效用，老板想克扣工资则总有借口扣掉60 元工资，工人不偷懒老板有 150 元产出，而工人偷懒时老板只有 80元产出，但老板在支付工资之前无法知道实际产出，这些情况双方都知道。请问：

（1）如果老板完全能够看出工人是否偷懒，博弈属于哪种类型？用得益矩阵或扩展形表示

该博弈并作简单分析。

（2）如果老板无法看出工人是否偷懒，博弈属于哪种类型？用得益矩阵或扩展形表示该博

弈并作简单分析。

（1）完全信息动态博弈。

博弈结果应该是工人偷懒，老板克扣。

（2）完全信息静态博弈，结果仍然是工人偷懒，老板克扣。

27、举一个你在现实生活中遇到的囚犯两难困境的例子。

答：在校园的人行道交叉路口，无需红绿灯。现在两人分别骑车从东西方向和南北方向通过路口。若同时往前冲，必定相撞，各自支付为（-2，-2）；若同时停下，都不能按时前进，支付为（0，0）；若一人前进一人停下，支付为（2，0）或（0，2）。相应的策略和支付矩阵如下表。

乙前进停下前进 -2，-2 2，0 甲停下 0，2 0，0 28、给定两家酿酒企业A、B的收益矩阵如下表： A企业白酒啤酒白酒 700，600 900，1000 B企业啤酒 800，900 600，800 表中每组数字前面一个表示B企业的收益，后一个数字表示B企业的收益。（1）求出该博弈问题的均衡解，是占优策略均衡还是纳什均衡？

（2）存在帕累托改进吗？如果存在，在什么条件下可以实现？福利增量是多少？

（3）如何改变上述A、B企业的收益才能使均衡成为纳什均衡或占优策略均衡？如何改变上述A、B企业的收益才能使该博弈不存在均衡？

答：（1）有两个纳什均衡，即（啤酒，白酒）、（白酒，啤酒），都是纳什均衡而不是占优策略均衡。

（2）显然，（白酒，啤酒）是最佳均衡，此时双方均获得其最大收益。若均衡解为（啤酒，白酒），则存在帕累托改善的可能。方法是双方沟通，共同做出理性选择，也可由一方向另一方支付报酬。福利由800+900变为900+1000，增量为200。

（3）如将（啤酒，白酒）支付改为（1000，1100），则（啤酒，白酒）就成为占优策略均衡。比如将（啤酒，白酒）支付改为（800，500），将（白酒，啤酒）支付改为（900，500），则该博弈就不存在任何占优策略均衡或纳什均衡。

30、在纳税检查的博弈中，假设A为应纳税款，C为检查成本，F是偷税罚款，且C

（1）写出支付矩阵。

（2）分析混合策略纳什均衡。答：（1）该博弈的支付矩阵如下表：纳税人逃税不逃税检查 A-C+F， -A-F A-C，-A 税收机关不检查 0，0 A，-A （2）先分析税收检查边际：因为S为税务机关检查的概率，E为纳税人逃税的概率。给定E，税收机关选择检查与否的期望收益为：

K(1,E)?(A?C?F)E?(A?C)(1?E)?EF?A?C

K(0,E)?0?E?A(1?E)?A(1?E)

解K(1,E)?K(0,E)，得：E?C/(A?F)。

如果纳税人逃税概率小于E，税收机关的最优决策是不检查，否则是检查。再分析逃税边际：给定S，纳税人选择逃税与否的期望收益是：

K(S,1)?(?A?F)S?0?(1?S)??(A?F)S

K(S,0)??AS?(?A)(1?S)??A

解K(S,1)?K(S,0)，得：S?A/(A?F)。即如果税收机关检查的概率小于S，纳税人的最优选择是逃税，否则是交税。因此，混合纳什均衡是（S，E），即税收机关以S的概率查税，而纳税人以E的概率逃税。

31、判断下列说法正确：

（1）斯塔克博格产量领导者所获得的利润的下限是古诺均衡下它得到的利润。

（2）由于两个罪犯只打算犯罪一次，所以被捕后才出现了不合作的问题即囚徒困境。但如果他们打算重复合伙多次，比如说20次，那么对策论预测他们将采取彼此合作的态度，即谁都不招供。答：（1）正确。在斯塔克博格模型中，领导者可以根据跟随者的反应曲线来制定自己的最优产量。其利润一定不会小于古诺均衡下的利润，否则，领导者将采取古诺博弈中双方同时行动的策略而获得古诺均衡的利润。

（2）错误。只要两囚犯只打算合作有限次，其最优策略均为招供。比如最后一次合谋，两小偷被抓住了，因为将来没有合作机会了，最优策略均为招供。回退到倒数第二次，既然已经知道下次不会合作，这次为什么要合作呢。依此类推，对于有限次内的任何一次，两小偷均不可能合作。

32、简要评论博弈论在微观经济学运用中的优缺点。答：博弈论是描述和研究行为者之间策略相互依存和相互作用的一种决策理论。它被广泛应用于政治、外交、军事、经济等研究领域，但在微观经济学中的应用是最成功的。博弈论的研究方法和特征与经济学结合得非常紧密。它强调个人理性，即在给定的约束条件下追求效用最大化。但博弈论又比传统的经济学更进一步，它研究的不是面临非人格化的价格参数下的决策问题，而是研究效用随各个主体的行为改变而改变的效用最大化问题。除了国际贸易、金融、拍卖等经济领域，博弈论在企业理论特别是寡头竞争研究方法方面做了大量的有益工作。 20世纪80年代以来，博弈论开始出现在西方经济学的教科书中，都将其作为经济学研究的最新成果与前沿。特别是产业组织理论方面的教材，几乎都是以博弈论为基础的。博弈论反映了经济学的研究对象越来越个体化、微观化；反映了经济学越来越重视人与人之间关系与相互作用的研究，特别是协调人际的利益与冲突的最佳制度安排倾向；反映了经济学越来越重视信息，即接近现实的有关信息不完全对个人选择与制度安排及其影响的倾向。总之，博弈论在经济学中的广泛应用，大大提高了经济学对现实的解释能力。应该看到，博弈论在微观经济学运用中还存在许多疑难问题。它无法提供唯一解，无法完整地探讨个人发展与社会发展之间的相互依存关系。现有的博弈论结构可强有力地证明“合作比不合作好”这一命题，但无法解释清楚在现实中冲突与合作之间的复杂关系，认为个人组成的集团会采取合作行动以实现他们共同的利益。实际上，除非一个集团中的人数很少或者存在强制或其他某些特殊手段以使个人按照他们的共同利益行事，有理性的、寻求个人利益最大化的个人不会采取行动以实现共同的利益。即使他们采取行动实现共同的利益之后都能获益，他们也仍然可能不会自愿地采取合作行动以实现共同利益的目标。 33、“囚徒困境”的内在根源是什么？举出现实中囚徒的困境的具体例子。答八：内在根源是个体之间存在行为和利益相互制约的博弈结构中，个体理性与集体理性的矛盾。

34、假设古诺的双寡头模型中双寡头面临如下一条线性需求曲线：

P=30-Q

其中Q为两厂商的总产量，即Q=Q1+Q2。

2TR1?PQ1?(30?Q)Q1?30Q?Q1?Q1Q2再假设边际成本为零，即 MC1=MC2=0

解释并讨论此例的纳斯均衡，为什么其均衡是一种囚徒困境。

厂商1的总收益TR1由下式给出：

2TR1?PQ1?(30?Q)Q1?30Q?Q1?Q1Q2厂商1的边际收益MR1为： MR1=30-2Q1-Q2

利用利润最大化条件MR1=MC1=0，得厂商1的反应函数(reaction function)或反应曲线为：

Q1=15-0.5Q2 (6-1) 同理可得厂商2的反应曲线为： Q2=15-0.5Q1 (6-2)

均衡产量水平就是两反应曲线交点Q1和Q2的值，即方程组6-1和6-2的解。可以求得古诺均衡时的均衡产量水平为：Q1=Q2=10。

因此，在本例中，两个寡头的总产量Q为Q1+Q2=20，均衡价格为P=30-Q=10。刚才我们讨论了两寡头厂商相互竞争时的均衡产量。现在我们放松第(6)条不能串谋的假设，假定两寡头可以串谋。它们能共同确定产量以使总利润最大化。

这时，两厂商的总收益TR为： TR=PQ=(30-Q)Q=30Q-Q2 其边际收益MR为：

MR=30-2Q

根据利润最大化条件MR=MC=0，可以求得当Q=15时总利润最大。如果两厂商同意平分利润，每个寡头厂商将各生产总产量的一半，即Q1=Q2=7.5。其实，任何相加为15的产量Q1和Q2的组合都使总利润最大化，因此，把Q1+Q2=15称为契约曲线，而Q1=Q2=7.5是契约曲线上的一个点。

我们还可以求得当价格等于边际成本时，Q1=Q2=15，各厂商的利润为零。

35、两家电视台竞争周末黄金时段晚8点到10点的收视率，可选择把较好的节目放在前面还是后面。他们决策的不同组合导致收视率如下：

(1)如果两家是同时决策，有纳什均衡吗?

有（前面，后面）

(2)如果双方采用规避风险的策略，均衡的结果是什么? 此题应用的思想是最大最小收益法：

也就是说，在对手采取策略时，所获得的最小收益中的最大值。电视台1：对方采取前面战略的最小收益为18 对方采取后面战略的最小收益为16

固电视台1 会选择收益为18的战略——前面电视台2：前面的策略是一个优超策略——前面策略均衡为（前面，前面）

(3)如果电视台1先选择，结果有什么?若电视台2先选择呢?

(4)如果两家谈判合作，电视台1许诺将好节目放在前面，这许诺可信吗？结果能是什么？

电视台1 许诺将好节目放在前面的许诺不可信。因为电视台2，前面为占优策略，

而在电视台2 ，选择前面的时候，电视台1 选择后面的收益要大于前面的收益。所以，最终结果为（前面，后面）

36、如果将如下的囚徒困境博弈重复进行无穷次，惩罚机制为触发策略，贴现因子为δ。试问δ应满足什么条件，才存在子博弈完美纳什均衡？

乙坦不坦白甲白坦白 4,4 0,5 不坦白 5,0 1,1 参考答案：

由划线法求得该博弈的纯策略纳什均衡点为(不坦白,不坦白)，均衡结果为(1,1)，采用触发策略，局中人i的策略组合s的最好反应支付

?i(s)?maxPi(s?i,si)=5,Pi(s*)=4，Pi(s)=1。若存在子博弈完美纳什均衡，必须满

si?Sic

?i(s*)?Pi(s*)5?41足：?????i(s*)?Pi(sc)5?14，即只有当贴现因子?>1/4时，才存在子博弈完美

纳什均衡。

37、在Bertrand价格博弈中，假定有n个生产企业，需求函数为P=a-Q，其中P是市场价格，Q是n个生产企业的总供给量。假定博弈重复无穷多次，每次的价格都立即被观测到，企业使用“触发策略”(一旦某个企业选择垄断价格，则执行“冷酷策略”)。求使垄断价格可以作为完美均衡结果出现的最低贴现因子δ是多少。并请解释δ与n的关系。分析：此题可分解为3个步骤

（1）n个企业合作，产量总和为垄断产量，价格为垄断价格，然后平分利润。（2）其中一个企业采取欺骗手段降价，那个这家企业就占有的全部市场，获得垄断利润

（3）其他企业触发战略，将价格降到等于边际成本，所有的企业利润为零。参考答案：

（1）设每个企业的边际成本为c，固定成本为0 P=a-Q

TR=P*Q=(a-Q)*Q MR=a-2Q 因为：MR=MC a-2Q=c

则:Q=(a-c)/2 P=(a+c)/2

π=(P-c)*Q=(a-c)2/4

每家企业的利润为(a-c)2/4n

（2）假设A企业自主降价，虽然只是微小的价格调整，但足以占领整个市场，获得所有的垄断利润——(a-c)2/4

（3）其他企业在下一期采取冷酷策略，使得所有企业的利润为0 考虑：

A企业不降价： (a-c)2/4n， (a-c)2/4n， ?? A企业降价： (a-c)2/4， 0， ?? 使垄断价格可以作为完美均衡结果，就要使得不降价的贴现值大于等于降价的贴现值。

设贴现因子为δ

A不降价的贴现值： [(a-c)2/4n][1/(1- δ)] A降价的现值： (a-c)2/4

于是：[(a-c)2/4n][1/(1- δ)]≥ (a-c)2/4 解得： δ≥1-1/n

38、假设某劳动市场为完全竞争市场,其供求函数如下: SL:W=120+2L DL:W=360-L 已知某厂商(在完全竞争市场下)的生产函数为 f(L,K)=10LK且其产品的需求与供给函数分别为 D:P=60-2q S: P=20+2q

0.5

(K=100)

试求 (a)该厂商的ACL,MCL及VMPL各为多少? (b)劳动工资为多少?厂商会雇用多少劳动? 由：SL=DL解得：W=280

由于产品市场为完全竞争市场，且要素市场也为完全竞争市场所以，满足：产品市场均衡：P=MR=MC=W/MPL 要素市场均衡：W= ACL=MCL=VMPL 得到：ACL=MCL=VMPL=280 由：D=S解得：P= 40，q=10 厂商追求利润最大化的情况下： W*=VMPL=P*MPL=P*50/L

L*=[100/2*PW*]=51 (取整数)

论述题（每小题20分，共20分）

解释“囚犯困境”，并举商业案例说明。

囚徒困境是博弈论里最著名的例子之一，几乎所有的博弈论著作中都要讨论这个例子。这个例子是这样的：两囚徒被指控是一宗罪案的同案犯。他们被分别关在不同的牢房无法互通信息。各囚徒都被要求坦白罪行。如果两囚徒都坦白，各将被判入狱5年；如果两人都不坦白，则很难对他们提起刑事诉讼，因而两囚徒可以期望被从轻发落入狱2年；另一方面，如果一个囚徒坦白而另一个囚徒不坦白，坦白的这个囚徒就只需入狱1年，而不坦白的囚徒将被判入狱10年。表6-2给出了囚徒困境的策略式表述。这里，每个囚徒都有两种策略：坦白或不坦白。表中的数字分别代表囚徒甲和乙的得益。(注意，这里的得益是负值。)

表6-2 囚徒困境囚徒乙坦白不坦白坦白 -5， -5 -1， -10 囚徒甲不坦白 -10， -1 -2， -2 在囚徒困境这个模型中，纳什均衡就是双方都坦白，给定甲坦白的情况下，乙的最优策略是坦白；给定乙坦白的情况下，甲的最优策略也是坦白。而且这里双方都坦白不仅是纳什均衡，而且是一个上策(dominant strategy)均衡，即不论对方如何选择，个人的最优选择是坦白。因为如果乙不坦白，甲坦白的话就被轻判1年，不坦白的话就判2年，坦白比不坦白要好；如果乙坦白，甲坦白的话判5年，不坦白的话判10年，所以，坦白仍然比不坦白要好。这样，坦白就是甲的上策，当然也是乙的上策。其结果是双方都坦白。这个组合是纳什均衡。

寡头垄断厂商经常发现它们自己处于一种囚徒的困境。当寡头厂商选择产量

0.5

时，如果寡头厂商们联合起来形成卡特尔，选择垄断利润最大化产量，每个厂商都可以得到更多的利润。但卡特尔协定不是一个纳什均衡，因为给定双方遵守协议的情况下，每个厂商都想增加生产，结果是每个厂商都只得到纳什均衡产量的利润，它远小于卡特尔产量下的利润。

解释“智猪博弈(boxed pigs)”，并举商业案例说明。

智猪博弈的例子讲的是：猪圈里有一头大猪和一头小猪，猪圈的一头有一个猪食槽，另一头安装一个按扭，控制着猪食的供应。每按一下按扭会有10个单位的猪食进槽，但谁按按扭谁就要付2个单位的成本并且晚到猪食槽。若大猪先到猪食槽，大猪吃到9个单位，小猪只能吃到1个单位；若小猪先到猪食槽，大猪吃到6个单位，小猪吃4个单位；若同时到，大猪吃到7个单位，小猪只能吃3个单位。表6-3列出了对应于不同策略组合的得益水平。例如，表中第一格表示大猪小猪同时按按扭，从而同时走到猪食槽，大猪吃7个，小猪吃3个，除去2个单位成本，得益分别为5和1。

表6-3 智猪博弈小猪按不按按 5， 1 4， 4 大猪不按 9， -1 0， 0 从表6-3可以看到，对于小猪来说，如果大猪按，它则不按更好；如果大猪不按，它不按也更好，所以，不论大猪按还是不按，它的最优策略都是不按。给定小猪不按，大猪的最优选择只能是按。所以，纳什均衡就是大猪按，小猪不按，各得4个单位猪食。

市场中的大企业与小企业之间的关系类似智猪博弈。大企业进行研究与开发，为新产品做广告，而对小企业来说这些工作可能得不偿失。所以，小企业可能把精力花在模仿上，或等待大企业用广告打开市场后再出售廉价产品。

解释““夫妻博弈”(battle of the sexes)”，并举商业案例说明。

“夫妻博弈”(battle of the sexes)的例子讲的是一对谈恋爱的男女安排业余活动，他们有二种选择，或去看足球比赛，或去看芭蕾舞演出。男方偏好足球，女方偏好芭蕾，但他们宁愿在一起，不愿分开。表6-6给出了这个博弈的得益矩阵。在这个博弈中，如果双方同时决定，则有两个纳什均衡，即都去看足球比赛和都去看芭蕾演出。但是到底最后他们去看足球比赛还是去看芭蕾演出，并不能从中获得结论。如果假设这是个序列博弈，例如，当女方先作出选择看芭蕾演出时，男方只能选择芭蕾；当女方先选择了看足球比赛时，男方也只能选择足球。反之，当男方先选择了看足球比赛时，女方只能选择看足球比赛；当男方先选择了看芭蕾演出时，女方只能选择芭蕾。

表6-6 夫妻博弈女足球芭蕾足球 2，1 0，0 男芭蕾 0，0 1，2 在这个博弈例子中，先行动者具有明显的优势，女方通过选择芭蕾造成一种既成事实，使得男方除了一起去看芭蕾之外别无选择。这就是我们在斯塔克尔伯

格模型中提到的先动优势(first mover advantage)。在那个模型中，先行动的厂商选择一个很高的产量水平，从而使它的竞争对手除了选择小的产量水平之外没有多大的选择余地。

解释古诺模型。

解释斯塔克尔伯格模型。

? 斯塔克尔贝里(1934)提出一个双头垄断的动态模型，其中一个支配企业(领导者)首先行动，然后从属企业(追随者)行。比如在美国汽车产业发展史中的某些阶段，通用汽车就扮演过这种领导者的角色(这一例子把模型直接扩展到允许不止一个追随企业，如福特、克莱斯勒等等)。根据斯塔克尔贝里的假定，模型中的企业选择其产量，这一点和古诺模型是一致的(只不过古诺模型中企业是同时行动的，不同于这里的序贯行动)。

博弈的时间顺序如下:(1)企业1选择产量q1 >0; (2)企业2观测到然后选择产量q2 >0(3)企业1的收益由下面的利润函数给出：

? 这里P(Q)=a-Q，是市场上的总产品Q=q1+q2时的市场出清价格，c是生产的边际成本，为一常数(固定成本为0)。

? 为解出这一博弈的逆向归纳解，我们首先计算企业2对企业1任意产量的最优反应，R2(q1)应满足:

? 对上面的通过求极值可得：

? 已知q1< a-c,在前面我们分析同时行动的古诺博弈中，得出的R2(q1)和上式完全一致，两者的不同之处在于这里的R2(q1)是企业2对企业1已观测到的产量的真实反应，而在古诺的分析中， R2(q1)是企业2对假定的企业1的产量的最优反应，且企业1的产量选择是和企业2同时作出的。

? 由于企业1也能够像企业2一样解出企业2的最优反应，企业1就可以预测到他如选择q1，企业2将根据R2(q1)选择产量。那么在博弈的第一阶段，企业1的问题就可表示为：

? 解得：

? 这就是斯塔克尔贝里双头垄断博弈的逆向归纳解。 ? 对斯塔科尔贝里双头垄断博弈的逆向归纳解的评价： ? 回顾在古诺博弈的纳什均衡中，每一企业的产量为(a一c)/3,也就是说，斯塔克尔贝里博弈中逆向归纳解的总产量3(a-c)/4，比古诺博弈中纳什均衡的总产量2(a-c)/3要高，从而斯塔克尔贝里博弈相应的市场出清价格就比较低。不过在斯塔克尔贝里博弈中，企业1完全可以选择古诺均衡产量(a一c)/3 ，这时企业2的最优反应同样是古诺均衡的产量，也就是说在斯塔克尔贝里博弈中，企业1完全可以使利润水平达到古诺均衡的水平，而却选择了其他产量，那么企业1在斯塔克尔贝里博弈中的利润一定高于其在古诺博弈中的利润。但斯塔克尔贝里博弈中的市场出清价格降低了，从而总利润水平也会下降，那么和古诺博弈的结果相比，在斯塔克尔贝里博弈中，企业1利润的增加必定意味着企业2福利的恶化。

? 和古诺博弈相比，斯塔克尔贝里博弈中企业2利润水平的降低，揭示了单人决策问题和多人决策间题的一个重要不同之处。在单人决策理论中，占有更多的信息决不会对决策制定者带来不利，然而在博弈论中，了解更多的信息(或更为精确地说，是让其他参加者知道一个人掌握更多的信息)却可以让一个参与者受损。

解释里昂惕夫的工会模型。

? 在里昂惕夫(1946)模型中，讨论了一个企业和一个垄断的工会组织(即作为企业劳动力惟一供给者的工会组织)的相互关系:工会对工资水平说一不二，但企业却可以自主决定就业人数(在更符合现实情况的模型中，企业和工会间就工资水平讨价还价，但企业仍自主决定就业，得到的定性结果与本模型相似)。工会的效用函数为U(W, L)，其中W为工会向企业开出的工资水平，L为就业人数。

? 假定U(W, L)是W和L的增函数。企业的利润函数为

，其中R (L)为企业雇佣L名工人可以取

得的收入(在最优的生产和产品市场决策下)，假定R (L)是增函数，并且为凹函数。

? 假定博弈的时序为:(1)工会给出需要的工资水平W;(2)企业观测到(并接受)W，随后选择雇佣人数L;(3)收益分别为U(W, L)和

。

即使没有假定U(W, L)和R (L)的具体的表达式，从而无法明确解出该博弈的逆向归纳解，但我们仍可以就解的主要特征进行讨论。

? 首先，对工会在第一阶段任意一个工资水平w，我们能够分析在第二阶段企业最优反应L*(W)的特征。给定w，企业选择L*(W)满足下式:

? 一阶条件为：

? 为了满足上述一阶条件，假设R’(0)=∞; R’(∞)=0.

? 下面的图把L *(w)表示为w的函数(但坐标轴经过旋转以便于和以后的数据相比较)，并表示出它和企业每条等利润线交于其最高点。若令L保持不变，

? L保持不变，w降低时企业的利润就会提高，于是较低的等利润曲线代表了较高的利润水平。

? 这张图描述了工会的无差异曲线，若令L不变，当w提高时工会的福利就会增加。于是较高的无差异曲线代表了工会较高的效用水平。 ? 下面我们分析工会在第一阶段的问题，由于工会和企业同样可以解出企业在第二阶段的问题，工会就可预测到如果它要求的工资水平为w1，企业最优反应的就业人数将会是L*(w1)。那么，工会在第一阶段的问题可以表示为:

? 表现在图中的无差异曲线上就是，工会希望选择一个工资水平w，由此得到的结果(w， L*(w))处于可能达到的最高的无差异线上。这一最优化间题的解为w*，这样一个工资要求将使得工会通过(w*， L*(w*))的无差异曲线与L*(w)相切于该点，如图所示。从而(w*， L*(w*))就是这一工资与就业博弈的逆向归纳解。

? 更进一步我们还可以看出，(w‘*,L*(w*))是低效率的，在上图中，如果w和L处于图中阴影部分以内，企业和工会的效用水平都会提高。这种低效率对实践中企业对雇佣工人数量保持的绝对控制权提出了质疑。(允许工人和企业就工资相互讨价还价，但企业仍对雇佣工人数量绝对控制，也会得到相似的低效率解)。

解释伯特兰德模型。

用“小偷与守卫的博弈”说明“激励悖论”。

犯罪和防止犯罪是罪犯和警察之间进行博弈的一场游戏。警察可以加强巡逻，或者休息。犯罪者可以采取作案、不作案两种策略。如果罪犯知道警察休息，他的最佳选择就是作案；如果警察加强巡逻，他最好还是不作案。对于警察，如果他知道犯罪者想作案，他的最佳选择是加强巡逻，如果犯罪者采取不作案，自己最好去休息。当然，犯罪者和警察都不可能完全知晓对方将采取的行动，因此他们都将估计对方采取某种行动的概率，从而决定自己要采取的行动。结果是，他们将以一定的概率随机地采取行动，这叫“混合策略”。我们可以简单地分析一下混合策略（对数字不感兴趣的读者可以不看下面一段）。下面是犯罪者与警察的支付矩阵（假定犯罪者在警察休息时一定作案成功，在警察巡逻时作案一定会被抓住）：

犯罪者不作案作案

警察巡逻 0，0 2，-2 休息 2，0 -1，1

这个矩阵的数字含义可以表示，警察巡逻，犯罪者不作案，双方都没有收益也没有损失；警察巡逻，犯罪者作案，警察因抓到罪犯受到表彰，得到效用2单位，罪犯被判刑丧失效用2单位；警察休息，犯罪者不作案，警察休息的很愉快得到效用2单位，犯罪者没有收益也没有损失；警察休息，犯罪者作案，警察因失职被处分而丧失效用1单位，罪犯犯罪成功获得效用1单位。这个博弈是没有纳什均衡的。

但是，如果警察知道犯罪者以p的概率选择作案(不作案概率就为1-p)，他该怎样采取自己的行动？对警察而言，巡逻的预期效用为0×（1-p）+2p=2p，休息的预期效用为2×（1-p）-1×p=2-3p。显然，当2p>2-3p即p>0.4的时候,警察最好选择巡逻;反之2p<2-3p即p<0.4的时候,警察宁愿选择休息。假设警察应以q的概率巡逻（休息的概率就为1-q），那么犯罪者最好的行动是什么？他作案的预期效用是-2×q+1×（1-q）=1-3q，不作案的预期效用为0×q+0×（1-q）=0。显然，当1-3q>0即q<0.33时，他的理性选择是作案，反之不作案。在这个博弈中，警察以0.33的概率巡逻0.67的概率休息，犯罪者以0.4 的概率作案0.6的概率不作案构成一个混合纳什均衡。

上述混合纳什均衡可以这样理解，如果警察以高于0.33的概率巡逻，犯罪者最好是躲避起来。犯罪者一旦躲避，警察就没有收获，于是降低巡逻的概率，于是犯罪者重新活跃，于是警察又提高巡逻概率??从一个长期来看，两者的均衡将维持在警察以0.33的概率巡逻犯罪者以0.4的概率作案上面。现实中，我们看到，当严打的时候（警察出击的概率较高），犯罪分子便收敛一阵（降低作案概率）；严打的时期一过，犯罪分子又开始兴风作浪，在不能容忍罪犯过分猖狂的时候，警界不得不再次开始严打。

在上述例子中，可能大家觉得警察和犯罪者都根据一定概率采取自己的行动不太好理解，那么可以尝试这样理解他们：作案的犯罪者越多，那么出动的警察将会越多，作案的犯罪者越少，出动的警察将越少；反过来，出动的警察越多，作案的犯罪者就越少，出动的警察越少，作案的犯罪者就越多。极端地假设一个例子（它有助于我们的理解），警局有100名警察，犯罪集团有100名犯罪者，那么上例博弈中，警察以0.33的概率巡逻而犯罪者以0.4 的概率作案这一纳什均衡可以理解为：在巡逻的警察少于33人时，犯罪集团最好派40名以上的犯罪者作案；在巡逻警察多于33人时，犯罪集团最好派40名以下的犯罪者作案；反过来，犯罪集团派40名以下犯罪者作案，警局最优选择出动33名以下的警察；犯罪集团派40名以上犯罪者作案，警局最优选择出动33名以上的警察。当然，如果犯罪集团倾巢出动，那么警察的选择也是全部出动，但警察一旦全部出动，犯罪者最好选择全部不作案，犯罪者一旦选择全部不作案，警察最好全部选择休息??最后长期的均衡状态是，警局派33名警察巡逻，犯罪集团派40个人作案。这可以解释现实中，为什么警界总安排有巡逻力量，而犯罪者也总保持一定的作案数量。

总之，这种警察和犯罪者的博弈所揭示出：加重对罪犯的处罚在长期中并不能抑制犯罪（而只能使警察偷懒）；加重处罚失职警察恰恰是会降低犯罪发生的概率。这种警察和犯罪者的博弈所揭示的，政策目标和政策结果之间的这种意外关系，常被称为“激励的悖论”。

本文来源：https://www.bwwdw.com/article/52s6.html

相关文章：

正在阅读：

博弈论复习题及答案05-31

地母经《玉匣记》（六十年地母经占分野所属年岁丰歉歌）12-13

教学Microsoft Word 文档12-18

汽车营销类外文文献翻译、英文翻译汽车行业渠道的转变07-04

2016石油大学网络大学《管理学》在线考试(开卷)试题课件03-08

一只青蛙的旅行作文06-23

BD电信cdma网移动通信性能统计体系V3_1_.1.1__Alcatel-Lucent-g_04-16

数字化变电站报告04-05

化学精校版湖南省辰溪博雅实验学校2018-2019学年高一上学期8月月07-11

实习指导书-VB10-18

上一篇：2018-2019年春北师大版小学三年级语文下册全册导学案下一篇：永威学校的成功在于精细化管理