耶鲁公开课--博弈论笔记

更新时间：2023-07-20 12:46:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

耶鲁公开课—博弈论笔记

第一节、

名词解释

优势策略（Dominant strategy ）：不论其他局中人采取什么策略，优势策略对一个局中人而言都是最好的策略。

即某些时候它胜于其他策略，且任何时候都不会比其他策略差。

注：1、“优势策略”的优势是指你的这个策略对你的其他策略占有优势，而不是无论对手采用什么策略，都占有优势的策略。

2、采用优势策略得到的最坏的结果不一定比采用另外一个策略得到的最佳的结果略胜一筹。

严格劣势策略(strictly dominated strategy)：被全面的严格优势策略压住的那个策略，也就是说不是严格优势策略以外的策略。

弱劣势策略：原来不是严格劣势策略，但是经过剔除严格劣势策略后，这个策略就成了严格劣势策略。

例：囚徒困境

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

例：协和谬误

20世纪60年代，英法两国政府联合投资开发大型超音速客机，即协和飞机。该种飞机机身大、装饰豪华并且速度快，其开发可以说是一场豪赌，单是设计一个新引擎的成本就可能高达数亿元。难怪政府也会被牵涉进去，竭力要为本国企业提供更大的支持。

项目开展不久，英法两国政府发现：继续投资开发这样的机型，花费会急剧增加，但这样的设计定位能否适应市场还不知道；但是停止研制也是可怕的，因为以前的投资将付诸东流。随着研制工作的深入，他们更是无法做出停止研制工作的决定。协和飞机最终研制成功，但因飞机的缺陷（如耗油大、噪音大、污染严重等）以及运营成本太高，不适合市场竞争，英法政府为此蒙受很大的损失。

在研制过程中，如果英法政府能及早放弃，本来可以使损失减少，但他们没能做到。最后，英国和法国航空公司宣布协和飞机退出民航市场，才算是从这个无底洞中脱身。这也是“壮士断腕”的无奈之举。

人们往往会陷入类似的误区：一项工作的成本越大，对它的后续投入就越多。其实不仅是在制造协和飞机这样的重大项目上，就是在日常的生活中，人们在决定是否继续做一件事情的时候，不仅是看它对自己有没有好处，而且也过于注意自己是不是已经在这件事情上面有过投入。

我们把那些已经发生、不可收回的支出，如时间、金钱、精力称为“沉没成本”。沉没的意思是说，你在正式完成交易之前投入的成本，如果一旦交易不成，就会白白损失掉。但如果对沉没成本过分眷恋，就会继续原来的错误，造成更大的亏损。

在第一节课中得出的五个结论：1、不要选择劣势策略

2、理性选择导致次优结果

3、站在他人立场分析他们会怎么做

4、先弄清你想要的，才能得到你想要的

5、人人都是自私的

第二节、

囚徒困境的解决之道：1、多次博弈；2、设立规章制度，惩罚违规者；3、思想教育（效果待定）。

博弈的要素：参与者i；策略S；收益U。

符号的定义：

Si表示参与者i的策略。S-i表示除参与者i以外其他人的策略。Ui表示i的收益。名词解释：

共同知识：我知道这件事；你也知道这事；我知道你知道这事；你知道我知道你知道这事这事；此后循环。

案例：老师在课堂上让每位学生从1-100中选择一个数字。选择到最接近全班平均数的2/3的学生为胜利者。学生共有50个左右。胜利者平分奖金5美元。

解决方案：step1、假设每个人都选择100，平均数100*2/3＝66.66。所以不能选择67-100之间的数（严格劣势策略）。现实中有两名学生选择了。

step2、剔除了step1中的严格劣势策略后，重复迭代，66*2/3＝44。所以不能选择44-67之间的数（弱劣势策略）。现实中有四名学生选择了。

step3、44*2/3＝29，所以不能选择29-44之间的数。现实中有13个左右选择了30-34区间，。选择这个数区间的学生想法是1-100平均数是50，50*2/3＝33，所以选择33附近的数可能比较接近。这些学生低估了其同班同学的智商。

step4、29*2/3＝19，所以不能选择19-29之间的数。现实中有12个选择了。选择这个区间的学生就像螳螂捕蝉中的螳螂，却没有想到还有更多的黄雀在后。 ...

...

这么一直迭代下去，理论上如果所有学生都是理性人。平均数应当是1。现实中有12个学生选择了1。应该说选择了1的学生都看出了这个博弈的窍门。但是他们的选择不是最接近平均数的。因为在现实中不可能所有人都是理性人。

最终12是最接近平均数2/3的数。有9人选择了这个数。

结论：迭代剔除劣势策略是个好的方法，但在现实中不能过度迭代。因为不是所有人都是理性人，而且不是所有人都有共同知识（概念见前述）。

应用案例：中间选民定理

两个政治候选人，为了选举须确定自己的政治立场。共有10个立场：1、2、3、4、5、6、7、8、9、10。第个立场都有10%选票。两个候选人要在一系列的政治主张中选择一个。

规则：选民会投票给观点最相近的候选人。距离相等，该立场平分选票。候选者希望选票最大化。

step1：试证明:S2优于S1。比较1号候选人选择S1,S2其利益U1的大小。

当2号候选人选择1号策略S1时

U1(1、1)[表示2号候选人选择S1，1号候选人选择S1]为50% < U1(2、1)[表示2号候选人选择S1，1号候选人选择S1]为90%

当2号候选人选择2号策略S2时

U1(1,2)=10% < U1(2,2)=50%

当2号候选人选择3号策略S3时

U1(1,3)=15% < U1(2,3)=20%

当2号候选人选择4号策略S4时

U1(1,4)=20% < U1(2,4)=25%

... ...

下面选择S2得票率都比S1大5%，所以S2严格优于S1。同理S9优于S10。

step2：试证明：S3优于S2

剔除劣势策略S1，S10

当2号候选人选择2号策略S2时

U1(2,2)=50% < U1(3,2)=80%

当2号候选人选择3号策略S3时

U1(2,3)=20% < U1(3,3)=50%

当2号候选人选择4号策略S4时

U1(2,4)=25% < U1(3,4)=30%

当2号候选人选择5号策略S5时

U1(2,5)=30% < U1(3,5)=35%

... ...

下面选择S3得票率都比S2大5%，所以S3严格优于S2。同理S8优于S9。

所以S2是弱劣势策略，以下同理可证S4优于S3，S5优于S4。迭代剔除后将剩下S5，S6。结论：政治家为了赢得更多选票，尤其是大量关键的“中间选民”，会表现的趋中，各个政治家之间的差别会变得很小。如美国选举时议题是：0.3%的税收差别，给不给移民发驾照，同性恋能否结婚之类对生活不会有重大影响的事项。

缺陷：在现实中每个立场的选民数非均匀分布；非所有人都投票；选民不只考虑政治立场，还有性格，甚至外貌；政治候选人的口号与实际行动未必一致；候选人不止两位。

第三节、

之前的几节课中，各个案例都是有严格劣势策略的。接下来的几个案例中没有严格劣势策略，通过对这些没有严格劣势策略案例，可以模拟更复杂的现实情况，同时对数学的要求会加深。例：

S1=u,m,d S2=L,R 表格中的数值为play1,2选择不同策略时的得分，两个玩家都想得到更高的得分。

在这个博弈中没有严格劣势策略，因为当play2选择不同策略时，play1的策略中没有一个是始终劣势于其他策略的。

我们可以用画图的方式来分析没有严格劣势策略时Play1应该如何选择策略的案例。

如图：X轴P（r）表示、play2选择R策略的概率；Y轴表示play1的预期得分。

当P（r）＝0时，就是说play2选择L策略。play1选择u,m,d 时的得分分别是5，1，3。当P（r）＝100%时，就是说play2选择R策略。play1选择u,m,d 时的得分分别是0，4，2。将这六个点分别在图中标出，然后连成直线。就得出了三个函数：

U1(u,p(r))=5-5p(r); ... ...(play1选择u策略时，得分随play2选择R策略的概率变化而变化的函数)

U1(m,p(r))=3p(r)+1;

U1(d,p(r))=-2p(r)+4.

其中三条直线有三个交点，分别位于P（r）＝1/3；1/2；3/5 三处。