download: 马哥高端 Go 语言百万并发高薪班 / 微服务 / 分布式高可用 /Go 高并发
问题描述
囚徒困境是博弈论中经典问题,有两个囚徒有坦率未报的偷盗案件,在审讯过程中每个囚徒可能抉择抗拒不承认或者坦率承认。局势就是两个囚徒给出自己策略算一个局势,那么根据排列组合局势有
抗拒, 抗拒
坦率, 抗拒
抗拒, 坦率
坦率, 坦率
如果两个人都抗拒不承认每人会被判 1 年,如果两个人都坦率每个人会被判 3 年,如果一方坦率另一方抗拒,抗拒一方会被判 5 年而坦率会被开释。
局中人:
两个囚徒
策略
抗拒或者坦率
效用函数矩阵
抗拒 坦率
抗拒 -1,-1 -5,0
坦率 0,-5 -3,-3
每个人都会抉择最大化自己受害的最大化策略,那么对于囚徒最大化受害就是服刑工夫最短,为了这个目标怎么的策略才是感性的呢?
对于囚徒 (A 囚徒) 做出策略时还需要考虑到另一个囚徒 (B 囚徒) 的策略抉择,那么 B 囚徒抉择有两种可能别离是抗拒或者是坦率,这里就称为 B 囚徒,如果 B 囚徒坦率的前提,A 囚徒如果坦率将服刑 3 年如果抗拒则服刑 5 年,所以 A 最佳抉择是认罪。
假设后面策略 A 囚徒抉择了抗拒情况,B 囚徒抉择坦率收益为 0,当 A 囚徒抉择坦率情况,B 囚徒也会抉择坦率获取去收益最大。
对于 A 囚徒无论 B 囚徒做出什么策略,坦率都是 A 囚徒的占优策略。两个囚徒都不能通过双方面改变策略来减少自己的效益,因此谁都没有游离这个策略组合的动机。
占优策略
在抉择策略时,有一个策略的效用总是大于其余所有策略效用时,咱们就把这类策略称为占优策略(Dominant Strategy)
占优策略纳什均衡
当所有参与者的最优回应是抉择他们的占优策略时,这时达到的纳什均衡称为占优策略纳什均衡。