一个囚徒困境博弈的游戏,看看有多少人有兴趣

ari H.-avatar

ari H.

2021-04-14T02:11:14+00:00

首先简单科普一下囚徒困境:
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。
在这个例子里,对于这个犯罪团伙来说,最佳结局是两个人都抵赖。问题在于对于任意一个嫌犯来说,最佳的策略都是坦白:如果同伙坦白,自己抵赖判10年而坦白只判8年;如果同伙抵赖,抵赖判1年而坦白无罪释放。如果两个人都选择了自己的最佳策略坦白,那么两个人都判8年,无法达到最佳结果。这种在博弈中每个人都选择了对自己来说的最佳策略,结果导致整体上利益受损的情况,就叫做囚徒困境。
下图是一个典型的囚徒困境博弈的收益表
[img]https://img.nga.178.com/attachments/mon_202104/18/-7Q16v-gejvKiT3cSjd-62.jpg[/img]

表中竖排是甲的策略,横行是乙的策略。4组收益数字,每一组第一个数字是甲的收益,第二个数字是乙的收益。
举例来说,坐上角的数字(3,3)是甲乙双方都选择合作时的收益,甲的收益是3,乙的收益也是3;右上角是甲选择合作,乙选择背叛时的收益,甲是0,乙是5;左下角是甲选择背叛,乙选择合作的收益,甲是5,乙是0;右下角是双方都选择背叛时的收益,双方都是1。
可以看到,对于甲乙这个整体来说,合作时最佳选择,因为这时双方的收益之和是6;但是对于甲或者乙个人来说,背叛都是最佳选择:如果对方合作,自己选择合作收益是3,选择背叛收益是5;如果对方选择背叛,自己选择合作收益是0,选择背叛收益是1。无论对方怎么选择,自己的最佳选择都是背叛。甲乙双方都选择背叛,博弈的结果就是(1,1),双方收益之和只有2。

下面说一下重复囚徒博弈。甲乙双方坐下来,不是进行一次囚徒困境的博弈,而是连续进行100次博弈,每个人的收益就是这100次博弈的收益之和。在这种情况下,背叛就不一定是最佳策略,因为对方可能在下一个回合同样选择背叛来惩罚你;在这样的情况下,双方有可能达成一定的默契,都选择合作从而摆脱囚徒困境,达到双赢。

以上就是《合作的进化》这本书的理论基础。在这本书里,作者提出了一个锦标赛的模式:参与者每个人提出一个参加100次重复博弈的策略,然后这些策略依次与其它的参赛策略进行重复博弈。比如说一共有30个策略参赛,那么每个策略都要与其它29个策略进行一次重复100回合的囚徒困境博弈。最后获得最多收益的策略就是冠军。

那么下面就是本次锦标赛策略的要求:提交的策略不能接触博弈对象的源代码;可以获得博弈双方在本轮的博弈结果,比如说在每轮博弈的第2轮,可以知道第1轮双方的选择,第30轮的时候可以知道双方在前29轮的选择,在100轮时可以知道双方在前99轮的选择;可以使用概率性策略(比如30%的几率选择合作70%的几率选择背叛);不能使用对方在其它轮次的结果,比如说本轮策略A与策略B博弈,下一轮策略A与策略C博弈,这个时候策略C无法知道前一轮A与B的博弈结果。

假如你有兴趣,可以自己写一个你认为可以获胜的策略,注意最好用汉语来写,或者用伪代码的形式。真的自己用代码实现的话请做好我无法理解还要回去问你的准备。
策略请发到 1500978475@qq.com 请注明自己策略想要用的名字,或者以无名氏的身份参赛。
假如参与者足够多,我会在一周内完成编程(其实有别人写好的包,自己随便调整一下就行),并写一个报告出来。
ari H.-avatar

ari H.

沉的好快,话说随便一个概率问题都能盖几百楼,博弈问题就没人有兴趣吗?
GoldenNubian-avatar

GoldenNubian

没奖品也叫参赛吗?
Dingo-avatar

Dingo

你太高看大专论坛的水平了

这已经是我读研时候学的内容了[s:ac:喷]
Marved Meat Massager-avatar

Marved Meat Massager

老实人只要吃一次亏,就再也不会选择合作。
まけるな-avatar

まけるな

这实验不是有人做过吗……
初级标准来看,最稳的就是“一报还一报”,你合作我也合作,你背叛那我也背叛
StepBroNate-avatar

StepBroNate

我不记得在哪里看过了,有不同的策略比如重复对面上一回合的行为
GonnnaWingIt-avatar

GonnnaWingIt

之前已经有人做过类似的模型报告了啊

还生动的做成了动画的表现形式···
buncon-avatar

buncon

以牙还牙就完了 这不基本是结论么 楼主来骗钱了?
The Prowler-avatar

The Prowler

我手机上有个游戏叫 信任的进化 感觉跟你说的很像。。
Wolvzy-avatar

Wolvzy

先把国家说下吧,没个保护计划。谁敢坦白。
Stawwp-avatar

Stawwp

首先你来一个铁内鬼
然后来个瞎选的
来个根据前面对方结果几率瞎选的
来个抄对方作业的
差不多就没多少了吧
Ace シッピー-avatar

Ace シッピー

[quote][pid=508849124,26379677,1]Reply[/pid] Post by [uid=39523523]毁灭的喷射白光![/uid] (2021-04-18 10:38):
先把国家说下吧,没个保护计划。谁敢坦白。[/quote]我猜是美国。
brunoyap-avatar

brunoyap

纳什均衡.exe
Steph-avatar

Steph

大伙帮做做作业系列?
ari H.-avatar

ari H.

Reply to [pid=508848427,26379677,1]Reply[/pid] Post by [uid=41976622]理性蒸发:EX[/uid] (2021-04-18 10:35)

确实有人做过,而且做过很多。但是一报还一报也还是有很多变种的,而且一个策略的成绩其实也跟参赛的其它策略数量有关,很多时候一报还一报是拿不到冠军的。
CauzeMania-avatar

CauzeMania

不喜欢囚徒困境这个问题就是因为这收益不对啊,两人合作事实上都可能无罪。这是已经被定罪了的前提,事实上正常社会不是零和决策
ari H.-avatar

ari H.

Reply to [pid=508849664,26379677,1]Reply[/pid] Post by [uid=39231981]Gyrodrill[/uid] (2021-04-18 10:40)
肯定会有几个经典策略参赛的,但是想看看泥潭的整活儿策略啊。而且也可以测试一下大伙儿的智商不好吗?[s:a2:doge]
Stawwp-avatar

Stawwp

[quote][pid=508851855,26379677,1]Reply[/pid] Post by [uid=60016884]andy201120112011[/uid] (2021-04-18 10:51):
肯定会有几个经典策略参赛的,但是想看看泥潭的整活儿策略啊。而且也可以测试一下大伙儿的智商不好吗?[s:a2:doge][/quote]你都不给整活了
真要整活的得给你整个改对方的策略