首页 全部 玄幻奇幻 都市白领 武侠仙侠 言情说爱 军事历史 游戏竞技 排行 专题 用户中心 原创专区
悠悠小说网 > 都市白领 > 重生学霸日常 > 第四十九章

重生学霸日常 第四十九章

作者:阮闲 分类:都市白领 更新时间:2025-08-22 18:23:49 来源:武林小说网

;;

囚徒困境(ra)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中,博弈被反复地进行。

因而每个参与者都有机会去“惩罚”

另一个参与者前一回合的不合作行为。

这时,合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

囚徒困境的主旨为,囚徒们彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在无法沟通的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。

但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

1950年,由就职于兰德公司的梅里尔·弗勒德(d)和梅尔文·德雷希尔(melvindresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(alberttucker)以囚徒方式阐述,并命名为“囚徒困境”

经典的囚徒困境如下:

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

若一人认罪并作证检控对方(相关术语称“背叛”

对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

若二人都保持沉默(相关术语称互相“合作”

),则二人同样判监半年。

若二人都互相检举(互相“背叛”

),则二人同样判监2年。

美国政治学家罗伯特·阿克塞尔罗德(robertmarshallaxelrod)在其著作中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”

(ipd)。

在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。

阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。

参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”

策略趋向于减少,而比较“利他”

策略更多地被采用。

他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是“以牙还牙”

这是俄裔美籍数学心理学家阿纳托尔·拉*特(lrapoport)开发并运用到锦标赛中的方法。

它是所有参赛程序中最简单的,只包含了四行basic语言,并且赢得了比赛。

目录
设置
设置
阅读主题
字体风格
雅黑 宋体 楷书 卡通
字体风格
适中 偏大 超大
保存设置
恢复默认
手机
手机阅读
扫码获取链接,使用浏览器打开
书架同步,随时随地,手机阅读
收藏
换源
听书
听书
发声
男声 女生 逍遥 软萌
语速
适中 超快
音量
适中
开始播放
推荐
反馈
章节报错
当前章节
报错内容
提交