囚徒困境的根源与启示

更新时间：2023-04-24 01:21:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

如同博弈论的其他例证，囚徒困境假定每个参与者(即“囚徒”)都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”,理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

试想像囚徒困境的情况进行十次。我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次别人保持沉默，建立了互信的关系，你也会保持沉默，达致帕累托最优。当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。这种想法合理吗？在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象

在个体之间存在行为和利益相互制约的博弈结构中，以个体理性和个体选择为基础的分散决策方式，无法有效地协调各方面的利益，并实现整体、个体利益共同的最优。简单地说，“囚徒的困境”问题都是个体理性和集体理性的矛盾引起的。

“ 囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均

衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋(串供)时，才可以得到最短时间的监禁的结果。

“纳什均衡”对亚当· 斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。《国富论》中有这样一句名言：“通过追求 ( 个人的 ) 自身利益，他常常会比其实际上想做的那样更有效地促进社会利益”。从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。

从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此，从“纳什均衡”中我们还可以悟出一条真理：合作是有利的 “利己策略”。但它必须符合以下黄金定律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。

囚徒困境的现实意义

囚徒困境的现实意义就是个人理性导致集体非理性。在囚徒博弈的模型中，只存在一个纳什均衡，即：在参与者理性的情况下，坦白为最优策略。这同时导致了集体利益的最小化。事实上，在囚徒困境中的最佳策略取决于对方采用的策略，特别是取决于这个策略为双方合作留出多大的余地。而这个原则的基础是：以后对于现在的权重足够大，即：未来是重要的。

囚徒困境的现实意义简单的说，就是如果你认为以后大家还要相处，那么最好选择合作；反之，如果你认为以后不再会相遇或对你以后的利益不太关心，那么就选择背叛(把对方供出来)。这样又回到问题的原点：如果未来是重要的，那么就要选择合作，而合作的策略取决于对方的策略。于是结论是：没有最优策略!

囚徒困境的现实意义

在囚徒困境中，参与者会受到背叛(坦白)的短期诱惑，但是通过与对方建立长期的合作的模式，可以获得更多的长期的好处。所以，要破解囚徒困境，就要跳出这个模型本身，从更高的层面上给以制度性的约束，或让大家都明白合作的好处。

1984年，美国联邦预算赤字实在太高了。裁减必要的巨额开支在政治上并不可行，因此，大幅增税应该是不可避免的。不过，谁愿意带头主张这么做呢？民主党总统候选人沃尔特· 蒙代尔在竞选活动中提出增税政策，却被罗纳德· 里根打得落花流水，因为里根许诺绝不

加税。里根当选之后，这个议题陷入僵局，无论你怎么划分政治派别，民主党对共和党，众议院对参议院，还是政府对国会，各方都希望把提出加税的主动权推给对方。双方都知道，联合起来共同倡议加税和削减开支，可以共同分享荣誉，分担谴责。这么做与同时坚守被动，眼看巨额赤字上升而无所作为相比，显然会对整个国家更有利，即便对他们自己的政治生涯从长期而言也会有好处。但是，假如自己提出这样的政策,而对方并不附和,则自己会落得糟糕的下场。显而易见，对每一方而言，保持被动是一个优势策略。而这正是真实发生的情况：这一届国会根本没有作出任何加税决定。这就是为什么美国是世界上最富有的国家，却同时又是最大的债务国的原因。

举例来是说，我是供应商，你是大超市，你可以选择拖欠货款，我也可以选择延迟发货或较低的质量，套用上面的模型：

不合作供应商合作

不合作 -5 -5 -8 2

超市合作 2 -8

在这个假设的模型里，超市会想：如果供应商合作，我只要不合作，就可以得到2个单位的利润，而合作却只有1个单位的利润，显然不合作比合作好；如果供应商不合作，我若合作，则要损失8个单位的利润，但不合作却只损失5个单位的利润，显然还是不合作比较好。无论供应商是否合作，超市的最佳策略都是不合作。自然，供应商也会如此推理。按照博弈论的观点，这是唯一的平衡点，在这一点上，任何一方改变策略，都会得到更差的结果。

囚徒困境的实际运用

但是，这与我们的日常经验不符合。为什么现实中的供应商与经销商都会选择合作呢? 原因在于： 1.不嫉妒，现实中的博弈大多是非零合的。大家赚取自己应有的利润，没有理由去嫉妒对方的高额利润，因为对方的成功是你成功的前提。 2.不首先背叛，对合作或背叛都要给于惩罚。在契约社会，有法律、行规的制约，背叛是要付出巨大的代价的。再回到囚徒困境中，则是黑社会团伙对囚犯家属的行动。这会让囚徒在做决策时,偏向于合作。当双方尝到合作的甜头，又知道背叛的惩罚后，合作就会成为第一选择。囚徒困境的解决方法应该在困境本身之外。

囚徒困境的实际运用

大家都合作，大家都赢利，长期利益；一方不合作，一方盈利，短期利益；都不合作全都陪钱，没有利益；一般情况下，长期赢利都会比短期赢利要高的多。

假设此博弈的参加者为电信运营商A与B, 一开始的价格都是P0。A(中国电信)是老牌企业，实力雄厚，占据了绝大多数的市场份额；B(中国联通)则刚成立不久，翅膀还没有长硬，

是政府为了打破垄断鼓励竞争而筹建起来的。正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中B的价格可以比P0低 10%。这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。这时候，A该怎么做？不妨假定： A降价而B维持，则A获利15,B损失5,整体获利10; A维持且B也维持，则A获利5,B获利10,整体获利15; A维持而B降价，则A损失10,B获利15,整体获利5; A降价且B也降价，则A损失5,B损失5,整体损失10。从A角度看，显然降价要比维持好，降价至少可以保证比B好，在概率均等的情况下，A降价的收益为15×50%-5×50%=5,维持的收益为5×50%-10×50%=-2.5,为了自身利益的最大化，A就不可避免地选择了降价。从B角度看，效果也一样，降价同样比维持好，其降价收益为 5,维持收益为2.5,它也同样会选择降价。在这轮博弈中，A、B都将降价作为策略，因此各损失5,整体损失10,整体收益是最差的。这就是此博弈最终所出现的纳什均衡。我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象，各个局部都寻求利益的最大化，而整体利益却不是最优，甚至是最差。

对电信价格竞争的博弈分析中，只是一次性的“囚徒困境”博弈，因此得到了互相降价的纳什均衡。而在现实生活当中，信任与合作很少达到如此两难的境地，无论在自然界还是在人类社会，“合作”都是一种随处可见的现象。比如中东石油输出国组织(OPEC)的成立，本身就是要限制各石油生产国的产量，以保持石油价格，以便获取利润，是合作的产物。OPEC之所以能够成立，各组织成员国之间之所以能够合作，是因为囚徒困境如果是一次性博弈(One shot game)的话，基于个人利益最大化，得到纳什均衡解，但如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解，这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。但合作的可能性不是必然性。博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺(Credible commitment) ,向另一方表示合作的善意，努力把这个善意表达清楚，并传达出去。如果该困境同时涉及多个对手，则要在博弈对手中形成声誉，并用心地维护这个声誉。这里“可信的承诺”是一个很牵强的翻译，“Credible commitment”并不是什么空

口诺言，而是实实在在的付出。所以合作是非常困难的。所以OPEC组织经常会有成员国不遵守组织的协定，私自增加石油产量。每个成员国都这样想，只要他们不增加产量，我增加一点点产量对价格没什么影响，结果每个国家都增加产量，造成石油价格下跌，大家的利润都受到损失。当然，一些产量增加较少的国家损失更多，于是也更加大量生产，造成价格进一步下降--结果，陷入一个困境：大家都增加产量，价格下跌，大家再增加产量，价格再下跌……。理论上，几乎所有的卡特尔都会遭到失败，原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一个纳什均衡，没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了？理论上，如果是无限期的合作，双方考虑长远利益，他们的合作是会成功的。但只要是有限次的合作，合作就不会成功。比如合作10次，那么在第九次博弈参与人就会采取不合作态度，因为大家都想趁最后一次机会捞一把，反正以后我也不会跟你合作了。但是大家料到第九次会出现不合作，那么就很可能在第八次就采取不合作的态度。第八次不合作会使大家在第七次就不合作……一直到，从第一次开始大家都不会采取合作态度。

数十道“减负令”难见效中小学生课业负担不减反增仅1985年至2000年的15年里，中央就下达" 减负令"49次。减轻中小学生过重负担喊了20多年，实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。

本文来源：https://www.bwwdw.com/article/255q.html

相关文章：

正在阅读：

囚徒困境的根源与启示04-24

检验科生化SOP文件01-13

积极向上的人生格言08-19

2017-2018新人教版小学数学2二年级上册教案10-31

论文论北京地铁广告资源的开发利用08-19

吉林省农村集体资产管理条例04-08

试用期工作总结10篇03-13

操作系统实验报告410-10

XXX司法所7月份矛盾纠纷和稳定形势研判报告12-15

REDOT 功率测试仪操作说明04-01

上一篇：光变应性接触性皮炎简述每日一练(2014.8.25) 下一篇：天大15秋季《操作系统原理》在线作业一答案