悠悠小说网 > 都市白领 > 重生学霸日常 > 第四十九章

重生学霸日常第四十九章

作者：阮闲分类：都市白领更新时间：2025-08-22 18:23:49 来源：武林小说网

;;

囚徒困境（ra）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

或者说在一个群体中，个人做出理性选择却往往导致集体的非理性。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去“惩罚”

另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的主旨为，囚徒们彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在无法沟通的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。

但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

1950年，由就职于兰德公司的梅里尔·弗勒德（d）和梅尔文·德雷希尔（melvindresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（alberttucker）以囚徒方式阐述，并命名为“囚徒困境”

经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方（相关术语称“背叛”

对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默（相关术语称互相“合作”

），则二人同样判监半年。

若二人都互相检举（互相“背叛”

），则二人同样判监2年。

美国政治学家罗伯特·阿克塞尔罗德（robertmarshallaxelrod）在其著作中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”

（ipd）。

在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。

阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。

参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”

策略趋向于减少，而比较“利他”

策略更多地被采用。

他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是“以牙还牙”

这是俄裔美籍数学心理学家阿纳托尔·拉*特（lrapoport）开发并运用到锦标赛中的方法。

它是所有参赛程序中最简单的，只包含了四行basic语言，并且赢得了比赛。

设置

手机

换源

听书

重生学霸日常 第四十九章