耶鲁公开课--博弈论笔记
更新时间:2023-07-20 12:46:01 阅读量: 实用文档 文档下载
耶鲁公开课—博弈论笔记
第一节、
名词解释
优势策略(Dominant strategy ):不论其他局中人采取什么策略,优势策略对一个局中人而言都是最好的策略。
即某些时候它胜于其他策略,且任何时候都不会比其他策略差。
注:1、“优势策略”的优势是指你的这个策略对你的其他策略占有优势,而不是无论对手采用什么策略,都占有优势的策略。
2、采用优势策略得到的最坏的结果不一定比采用另外一个策略得到的最佳的结果略胜一筹。
严格劣势策略(strictly dominated strategy):被全面的严格优势策略压住的那个策略,也就是说不是严格优势策略以外的策略。
弱劣势策略:原来不是严格劣势策略,但是经过剔除严格劣势策略后,这个策略就成了严格劣势策略。
例:囚徒困境
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方沉默、背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。
例:协和谬误
20世纪60年代,英法两国政府联合投资开发大型超音速客机,即协和飞机。该种飞机机身大、装饰豪华并且速度快,其开发可以说是一场豪赌,单是设计一个新引擎的成本就可能高达数亿元。难怪政府也会被牵涉进去,竭力要为本国企业提供更大的支持。
项目开展不久,英法两国政府发现:继续投资开发这样的机型,花费会急剧增加,但这样的设计定位能否适应市场还不知道;但是停止研制也是可怕的,因为以前的投资将付诸东流。随着研制工作的深入,他们更是无法做出停止研制工作的决定。协和飞机最终研制成功,但因飞机的缺陷(如耗油大、噪音大、污染严重等)以及运营成本太高,不适合市场竞争,英法政府为此蒙受很大的损失。
在研制过程中,如果英法政府能及早放弃,本来可以使损失减少,但他们没能做到。最后,英国和法国航空公司宣布协和飞机退出民航市场,才算是从这个无底洞中脱身。这也是“壮士断腕”的无奈之举。
人们往往会陷入类似的误区:一项工作的成本越大,对它的后续投入就越多。其实不仅是在制造协和飞机这样的重大项目上,就是在日常的生活中,人们在决定是否继续做一件事情的时候,不仅是看它对自己有没有好处,而且也过于注意自己是不是已经在这件事情上面有过投入。
我们把那些已经发生、不可收回的支出,如时间、金钱、精力称为“沉没成本”。沉没的意思是说,你在正式完成交易之前投入的成本,如果一旦交易不成,就会白白损失掉。但如果对沉没成本过分眷恋,就会继续原来的错误,造成更大的亏损。
在第一节课中得出的五个结论:1、不要选择劣势策略
2、理性选择导致次优结果
3、站在他人立场分析他们会怎么做
4、先弄清你想要的,才能得到你想要的
5、人人都是自私的
第二节、
囚徒困境的解决之道:1、多次博弈;2、设立规章制度,惩罚违规者;3、思想教育(效果待定)。
博弈的要素:参与者i;策略S;收益U。
符号的定义:
Si表示参与者i的策略。S-i表示除参与者i以外其他人的策略。Ui表示i的收益。 名词解释:
共同知识:我知道这件事;你也知道这事;我知道你知道这事;你知道我知道你知道这事这事;此后循环。
案例:老师在课堂上让每位学生从1-100中选择一个数字。选择到最接近全班平均数的2/3的学生为胜利者。学生共有50个左右。胜利者平分奖金5美元。
解决方案:step1、假设每个人都选择100,平均数100*2/3=66.66。所以不能选择67-100之间的数(严格劣势策略)。现实中有两名学生选择了。
step2、剔除了step1中的严格劣势策略后,重复迭代,66*2/3=44。所以不能选择44-67之间的数(弱劣势策略)。现实中有四名学生选择了。
step3、44*2/3=29,所以不能选择29-44之间的数。现实中有13个左右选择了30-34区间,。选择这个数区间的学生想法是1-100平均数是50,50*2/3=33,所以选择33附近的数可能比较接近。这些学生低估了其同班同学的智商。
step4、29*2/3=19,所以不能选择19-29之间的数。现实中有12个选择了。选择这个区间的学生就像螳螂捕蝉中的螳螂,却没有想到还有更多的黄雀在后。 ...
...
这么一直迭代下去,理论上如果所有学生都是理性人。平均数应当是1。现实中有12个学生选择了1。应该说选择了1的学生都看出了这个博弈的窍门。但是他们的选择不是最接近平均数的。因为在现实中不可能所有人都是理性人。
最终12是最接近平均数2/3的数。有9人选择了这个数。
结论:迭代剔除劣势策略是个好的方法,但在现实中不能过度迭代。因为不是所有人都是理性人,而且不是所有人都有共同知识(概念见前述)。
应用案例:中间选民定理
两个政治候选人,为了选举须确定自己的政治立场。共有10个立场:1、2、3、4、5、6、7、8、9、10。第个立场都有10%选票。两个候选人要在一系列的政治主张中选择一个。
规则:选民会投票给观点最相近的候选人。距离相等,该立场平分选票。候选者希望选票最大化。
step1:试证明:S2优于S1。比较1号候选人选择S1,S2其利益U1的大小。
当2号候选人选择1号策略S1时
U1(1、1)[表示2号候选人选择S1,1号候选人选择S1]为50% < U1(2、1)[表示2号候选人选择S1,1号候选人选择S1]为90%
当2号候选人选择2号策略S2时
U1(1,2)=10% < U1(2,2)=50%
当2号候选人选择3号策略S3时
U1(1,3)=15% < U1(2,3)=20%
当2号候选人选择4号策略S4时
U1(1,4)=20% < U1(2,4)=25%
... ...
下面 选择S2得票率都比S1大5%,所以S2严格优于S1。同理S9优于S10。
step2:试证明:S3优于S2
剔除劣势策略S1,S10
当2号候选人选择2号策略S2时
U1(2,2)=50% < U1(3,2)=80%
当2号候选人选择3号策略S3时
U1(2,3)=20% < U1(3,3)=50%
当2号候选人选择4号策略S4时
U1(2,4)=25% < U1(3,4)=30%
当2号候选人选择5号策略S5时
U1(2,5)=30% < U1(3,5)=35%
... ...
下面 选择S3得票率都比S2大5%,所以S3严格优于S2。同理S8优于S9。
所以S2是弱劣势策略,以下同理可证S4优于S3,S5优于S4。迭代剔除后将剩下S5,S6。 结论:政治家为了赢得更多选票,尤其是大量关键的“中间选民”,会表现的趋中,各个政治家之间的差别会变得很小。如美国选举时议题是:0.3%的税收差别,给不给移民发驾照,同性恋能否结婚之类对生活不会有重大影响的事项。
缺陷:在现实中每个立场的选民数非均匀分布;非所有人都投票;选民不只考虑政治立场,还有性格,甚至外貌;政治候选人的口号与实际行动未必一致;候选人不止两位。
第三节、
之前的几节课中,各个案例都是有严格劣势策略的。接下来的几个案例中没有严格劣势策略,通过对这些没有严格劣势策略案例,可以模拟更复杂的现实情况,同时对数学的要求会加深。 例:
S1=u,m,d S2=L,R 表格中的数值为play1,2选择不同策略时的得分,两个玩家都想得到更高的得分。
在这个博弈中没有严格劣势策略,因为当play2选择不同策略时,play1的策略中没有一个是始终劣势于其他策略的。
我们可以用画图的方式来分析没有严格劣势策略时Play1应该如何选择策略的案例。
如图:X轴P(r)表示 、play2选择R策略的概率;Y轴表示play1的预期得分。
当P(r)=0时,就是说play2选择L策略。play1选择u,m,d 时的得分分别是5,1,3。 当P(r)=100%时,就是说play2选择R策略。play1选择u,m,d 时的得分分别是0,4,2。 将这六个点分别在图中标出,然后连成直线。就得出了三个函数:
U1(u,p(r))=5-5p(r); ... ...(play1选择u策略时,得分随play2选择R策略的概率变化而变化的函数)
U1(m,p(r))=3p(r)+1;
U1(d,p(r))=-2p(r)+4.
其中三条直线有三个交点,分别位于P(r)=1/3;1/2;3/5 三处。
结论:从图中可以看出,Play1要得分最高,要根据Play2的P(r)不同分三段来选择策略。 当P(r)小于1/3时,应该选择u策略;当P(r)大于1/3小于3/5时;应该选择中间的线外外代表的策略d;当P(r)大于3/5时,应该选择m策略。
上面这个案例是一个纯理论阐述,下面介绍足球比赛中点球时,射手应该如何选择的问题。这个案例的数据是基于实际比赛中的统计数据。
例:点球
表格中前列数字表示射手射中球的概率,如4表示40%中球率。L表示左,R表示右,M表示中。
用前例中的方法画图:
从图中可得出:为得到最高的点球成功率,当P(r)<50%时,应该射手应该选择踢左边;当P(r)》50%时,应该射手应该选择踢右边;表示踢中路成功率的那条线始终没有最高概率,所以射手最好不要选择踢中路。
这个模型的缺陷:没有考虑射手踢球的习惯;没有考虑守门员守中路的情况(考虑三个要素很复杂,而且中路是可以排除的严格劣势策略);没有考虑球速。
比赛中的真实概率数据:
最佳对策定义:Ui(Si^,S-i)>=Ui(Si`.S-i) 或者 Si^=Max Ui(Si,S-i)
Si^表示对手策略S-i的最佳对策。Si`表示Play i的其它对策。
第四节、
例 合伙人博弈:
2个股东都持有公司50%股份;两者平分利润;每个股东要选择为公司投入多少时间,用工作小时数代表双方策略Si=(0,4)[0~4是连续的数,而非只能选整数],双方可以在0至4个小时之间选择。
这家公司利润: 4*[S1+S2+b*S1*S2] (0<b<1/4); {S1+S2可以表示两个股东工作时间的简单相加对利润的贡献,b*S1*S2可以表示由于两个股东相互协作对利润的贡献;考虑到了这两个部分,所以这个公式可以很好的反映现实的情况}
所以,U1(s1,s2)=1/2[4*(S1+S2+b*S1*S2)]-S1的平方。{S1的平方表示股东1的努力成本} 假设S2给定 对U1(s1,s2)求导数 U1(s1,s2)`=2(1+bS2)-2S1 当U1(s1,s2)`=0时U1(s1,s2)值最大。
所以当S1=bS2+1时,U1(s1,s2)最大。也就是S1的最佳策略(BR)。同理S2=bS1+1是S2的最佳策略。[BR意为best response ]
给定b=1/4 画出BR的函数图
在0<S1<1 和 2<S1<4 这两个区间里play1没有最佳策略,所以play1不会选择这两个区间,从图上可以看出BR2(S2)只能选择红色一段。
同理BR1(S1)也只能选择红色一段。
将剩下的红色区间放大,并重复上一阶段剔除,如图:
在1<S1<5/4和 3/2<S1<2 这两个区间里play1没有最佳策略,所以play1不会选择这两个区间,从图上可以看出BR2(S2)只能选择红色一段。
同理BR1(S1)也只能选择红色一段。
不断重复以上过程,最终会得到两直线交叉的那一点:S1=S2=1/(1-b)
结论:1、在合伙中,个人的努力获得的边际效益不断减少,所以每个人都倾向于少工作;2、协同程度减少,会使人减少努力。
在这个案例中S1=S2这个点就是著名的纳什均衡点(每个人都采用了各自最佳策略,或者说如果某情况下无一参与者可以独自行动而增加收益)。
正在阅读:
耶鲁公开课--博弈论笔记07-20
从新人教版小学数学三年级下册《小数的初步认识》教学设计04-26
虚拟现实之虚拟导览实际案例分享(一)05-23
笔记本电脑维护常识04-07
(VR虚拟现实)虚拟现实技术实验指导书04-12
2017年高考任务驱动型作文写作方法04-22
视频传输通道指标测试方法08-19
高中美术- 第三模块测试题04-17
广州市青少年游泳女运动员与普通女学生身体成分对比分析05-24
审计助理面试自我介绍02-24
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 耶鲁
- 博弈论
- 开课
- 笔记
- 加快小城镇建设是增加农民收入的重要途径
- 四年级数学教学质量的提高措施
- 中外合资企业合同范本
- 子宫颈癌预防的现代策略-郎景和
- 深圳市芯易元电子有限公司
- 中国电影市场竞争现状及发展前景展望(2014-2019)
- 涪陵乌江大桥连续刚构梁施工方案
- 2012年3月份中国—东盟双边贸易情况
- 韩师专插本《古代文学》考纲及样卷(2011-2014)整理
- 计算机文化基础实验教程(第七版)
- 新目标七年级英语下册期中测试
- 加强施工项目管理创新工作的思考
- 地区人力资源分析
- 工作许可制度1111
- 2015年春新课标人教版 二年级数学下册期末调研考查试卷4-试题-试卷 4
- 顺序结构与逻辑运算
- 霍尔线性器件SS3503使用手册
- 全国中小学班主任工作经验交流暨心理健康培训心得体会
- 国际商法试卷答案
- 备战2012中考语文知识点精选精炼---语音