囚徒困境的根源与启示

更新时间:2023-04-24 01:21:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

如同博弈论的其他例证,囚徒困境假定每 个参与者(即“囚徒”)都是利己的,即 都寻求最大自身利益,而不关心另一参与 者的利益。参与者某一策略所得利益,如 果在任何情况下都比其他策略要低的话, 此策略称为“严格劣势”,理性的参与者 绝不会选择。另外,没有任何其他力量干 预个人决策,参与者可完全按照自己意愿 选择策略。

单次发生的囚徒困境,和多次重复的囚徒困境结果 不会一样。 在重复的囚徒困境中,博弈被反复地进行。因 而每个参与者都有机会去“惩罚”另一个参与者前 一回合的不合作行为。这时,合作可能会作为均衡 的结果出现。欺骗的动机这时可能被受到惩罚的威 胁所克服,从而可能导向一个较好的、合作的结果。 作为反复接近无限的数量,纳什均衡趋向于帕累托 最优。

试想像囚徒困境的情况进行十次。 我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也 会指控对方。相反,如果第一次 别人保持沉默,建立了互信的关系,你也会保持沉默,达致帕累托最优。 当然,两个囚徒都会有相似的想法,在第一局保持沉默,以期望建立互 信关系,所以双方都会保持沉默。第二局时,双方亦应有相似的想法,继续 保持沉默,以期继续在互信的情况下进行第三局,以致余下的八局。 这种想法合理吗? 在第十局时,互信的关系明显是没有意义的,因为十局已经完结,囚徒 没有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会 背叛对方的,理由和只有一局囚徒困境一样。 问题是,既然大家都知道在第十局,无论如何对方都会背叛自己的,你 在第九局保持沉默也是没有意思的,要知道,保持沉默(友好关系)的原因是 为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。 下一个问题是,双方都有相同的想法,明知第九局对方会背叛自己,所 以第八局保持沉默也是没有意思的,第七局亦然,如此类推,纳什均衡是十 局都会互相背叛,建立互信关系是没有可能的。 只有在囚徒困境的局数大家都不肯定的情况下,上述的推论才不会发生, 才会出现互相保持沉默的现象

在个体之间存在行为和利益相互制约的博弈 结构中,以个体理性和个体选择为基础的分 散决策方式,无法有效地协调各方面的利益, 并实现整体、个体利益共同的最优。简单地 说,“囚徒的困境”问题都是个体理性和集 体理性的矛盾引起的。

“ 囚徒的两难选择”有着广泛而深刻的意义。个 人理性与集体理性的冲突,各人追求利己行为而 导致的最终结局是一个“纳什均

衡”,也是对所 有人都不利的结局。他们两人都是在坦白与抵赖 策略上首先想到自己,这样他们必然要服长的刑 期。只有当他们都首先替对方着想时,或者相互 合谋(串供)时,才可以得到最短时间的监禁的结 果。

“纳什均衡”对亚当· 斯密的“看不见的手”的原 理提出挑战。按照斯密的理论,在市场经济中, 每一个人都从利己的目的出发,而最终全社会 达到利他的效果。《国富论》中有这样一句名 言:“通过追求 ( 个人的 ) 自身利益,他常常会 比其实际上想做的那样更有效地促进社会利 益”。从“纳什均衡”我们引出了“看不见的 手”的原理的一个悖论:从利己目的出发,结 果损人不利己,既不利己也不利他。两个囚徒 的命运就是如此。

从这个意义上说,“纳什均衡”提出的悖论实际 上动摇了西方经济学的基石。因此,从“纳什均 衡”中我们还可以悟出一条真理:合作是有利的 “利己策略”。但它必须符合以下黄金定律:按 照你愿意别人对你的方式来对别人,但只有他们 也按同样方式行事才行。也就是中国人说的“己 所不欲勿施于人”。但前提是人所不欲勿施于我。

囚徒困境的现实意义

囚徒困境的现实意义就是个人理性导致集体非理 性。 在囚徒博弈的模型中,只存在一个纳什均 衡,即:在参与者理性的情况下,坦白为最优策 略。这同时导致了集体利益的最小化。 事实上,在囚徒困境中的最佳策略取决于对 方采用的策略,特别是取决于这个策略为双方 合作留出多大的余地。而这个原则的基础是:以 后对于现在的权重足够大,即:未来是重要的。

囚徒困境的现实意义简单的说,就是如果你认为以后大家还要相 处,那么最好选择合作;反之,如果你认为以后不 再会相遇或对你以后的利益不太关心,那么就 选择 背叛(把对方供出来)。这样又回到问题的原点: 如果未来是重要的,那么就要选择合作,而合作的 策略取决于对方的策略。 于是结论是:没有最优策略!

囚徒困境的现实意义

在囚徒困境中,参与者会受到背叛(坦白)的 短期诱惑,但是通过与对方建立长期的合作的 模式,可以获得更多的长期的好处。 所以,要破解囚徒困境,就要跳出这个模型本 身,从更高的层面上给以制度性的约束,或让 大家都明白合作的好处。

1984年,美国联邦预算赤字实在太高了。裁减必要的巨 额开支在政治上并不可行,因此,大幅增税应该是不可避免 的。不过,谁愿意带头主张这么做呢? 民主党总统候选人沃尔特· 蒙代尔在竞选活动中提出增税 政策,却被罗纳德· 里根打得落花流水,因为里根许诺绝不

加 税。 里根当选之后,这个议题陷入僵局,无论你怎么划分政 治派别,民主党对共和党,众议院对参议院,还是政府对国 会,各方都希望把提出加税的主动权推给对方。 双方都知道,联合起来共同倡议加税和削减开支,可以 共同分享荣誉,分担谴责。这么做与同时坚守被动,眼看巨 额赤字上升而无所作为相比,显然会对整个国家更有利,即 便对他们自己的政治生涯从长期而言也会有好处。 但是,假如自己提出这样的政策,而对方并不附和,则自己会落得糟糕的下场。显而易见,对 每一方而言,保持被动是一个优势策略。而这正是真实发生的情况:这一届国会根本没有作出任 何加税决定。这就是为什么美国是世界上最富有的国家,却同时又是最大的债务国的原因。

举例来是说,我是供应商,你是大超市,你可 以选择拖欠货款,我也可以选择延迟发货或较低的 质量,套用上面的模型:

不合作 供应商 合作

不合作 -5 -5 -8 2

超市 合作 2 -8

1

1

在这个假设的模型里,超市会想:如果供应 商合作,我只要不合作,就可以得到2个单位的 利润,而合作却只有1个单位的利润,显然不合 作比合作好;如果供应商不合作,我若合作,则 要损失8个单位的利润,但不合作却只损失5个单 位的利润,显然还是不合作比较好。无论供应商 是否合作,超市的最佳策略都是不合作。 自然,供应商也会如此推理。按照博弈论的 观点,这是唯一的平衡点,在这一点上,任何一 方改变策略,都会得到更差的结果。

囚徒困境的实际运用

但是,这与我们的日常经验不符合。为什么现 实中的供应商与经销商都会选择合作呢? 原因在于: 1.不嫉妒,现实中的博弈大多是非零合的。大家赚 取自己应有的利润,没有理由去嫉妒对方的高额 利润,因为对方的成功是你成功的前提。 2.不首先背叛,对合作或背叛都要给于惩罚。在契 约社会,有法律、行规的制约,背叛是要付出巨 大的代价的。再回到囚徒困境中,则是黑社会团 伙对囚犯家属的行动。这会让囚徒在做决策时,偏 向于合作。当双方尝到合作的甜头,又知道背叛 的惩罚后,合作就会成为第一选择。 囚徒困境的解决方法应该在困境本身之外。

囚徒困境的实际运用

大家都合作 ,大家都赢利,长期利益; 一方不合作,一方盈利,短期利益; 都不合作全都陪钱,没有利益; 一般情况下,长期赢利都会比短期赢利要高的 多。

假设此博弈的参加者为电信运营商A与B, 一开始的价格都是P0。A(中国电信)是老牌企业, 实力雄厚,占据了绝大多数的市场份额;B(中国联通)则刚成立不久,翅膀还没有长硬,

是政 府为了打破垄断鼓励竞争而筹建起来的。 正因为B是政府扶植起来鼓励竞争的,所以B得到了政府的一些优惠,其中B的价格可以比P0低 10%。这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。在这样的市场分配 下,A、B可以达到平衡,但由于B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造 成了影响。这时候,A该怎么做?不妨假定: A降价而B维持,则A获利15,B损失5,整体获利10; A维持且B也维持,则A获利5,B获利10,整体获利15; A维持而B降价,则A损失10,B获利15,整体获利5; A降价且B也降价,则A损失5,B损失5,整体损失10。 从A角度看,显然降价要比维持好,降价至少可以保证比B好,在概率均等的情况下,A降价的 收益为15×50%-5×50%=5,维持的收益为5×50%-10×50%=-2.5,为了自身利益的最 大化,A就不可避免地选择了降价。从B角度看,效果也一样,降价同样比维持好,其降价收益为 5,维持收益为2.5,它也同样会选择降价。在这轮博弈中,A、B都将降价作为策略,因此各损 失5,整体损失10,整体收益是最差的。这就是此博弈最终所出现的纳什均衡。我们构造的这一 电信业价格战博弈模型是典型的囚徒困境现象,各个局部都寻求利益的最大化,而整体利益却不 是最优,甚至是最差。

对电信价格竞争的博弈分析中,只是一次性的“囚徒困境”博弈,因此得到了互相降价的纳什均衡。而 在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,“合作”都是一种 随处可见的现象。比如中东石油输出国组织(OPEC)的成立,本身就是要限制各石油生产国的产量,以 保持石油价格,以便获取利润,是合作的产物。OPEC之所以能够成立,各组织成员国之间之所以能够合作, 是因为囚徒困境如果是一次性博弈(One shot game)的话,基于个人利益最大化,得到纳什均衡解,但如果是 多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。连续的合作有可能成为 重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。 但合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好 是实力更强的一方)必须主动通过可信的承诺(Credible commitment) ,向另一方表示合作的善意,努力把这 个善意表达清楚,并传达出去。如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护 这个声誉。这里“可信的承诺”是一个很牵强的翻译,“Credible commitment”并不是什么空

口诺言,而是 实实在在的付出。所以合作是非常困难的。 所以OPEC组织经常会有成员国不遵守组织的协定,私自增加石 油产量。每个成员国都这样想,只要他们不增加产量,我增加一点点产量对价格没什么影响,结果每个国家 都增加产量,造成石油价格下跌,大家的利润都受到损失。当然,一些产量增加较少的国家损失更多,于是 也更加大量生产,造成价格进一步下降--结果,陷入一个困境:大家都增加产量,价格下跌,大家再增加产量, 价格再下跌……。 理论上,几乎所有的卡特尔都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一个纳 什均衡,没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了?理论上,如果是无限期的合作,双 方考虑长远利益,他们的合作是会成功的。但只要是有限次的合作,合作就不会成功。比如合作10次,那 么在第九次博弈参与人就会采取不合作态度,因为大家都想趁最后一次机会捞一把,反正以后我也不会跟你 合作了。但是大家料到第九次会出现不合作,那么就很可能在第八次就采取不合作的态度。第八次不合作会 使大家在第七次就不合作……一直到,从第一次开始大家都不会采取合作态度。

数十道“减负令”难见效 中小学生课业负担不减反增仅1985年至2000年的15年里,中央就下达" 减负令"49次。减轻中小学生过重负担喊了20多年, 实际情况却是学生课业负担不但没减下来,反倒呈现 出越演越烈之势,致使学生作业做到深夜、节假日仍 然上课、业余时间奔忙于各种补习班等。

本文来源:https://www.bwwdw.com/article/255q.html

Top