乐趣区

一家胡三家的人工智能来了

场景描述:微软发布了 一款打麻将的 AI 模型,在专业的竞技平台上成功达到最高段位。在这项风靡全国甚至全球的娱乐活动上,AI 雀神的诞生究竟克服了哪些困难,这项技术的诞生又有哪些深层的意义。

关键词:麻将 Suphx 深度强化学习

在今日举行的世界人工智能大会上,微软发布了一个「雀神 AI」——Suphx,在专业的麻将竞技平台上,实力胜过了顶级人类选手的平均水平。

Suphx,全称是 Super Phoenix(超级凤凰),于 2019 年 3 月登陆日本专业的麻将竞技平台「天凤」。

微软全球执行副总裁沈向洋现场介绍 Suphx

在这个最知名的麻将平台上,AI 能够参与的公开竞技「特上房」中,Suphx 与人类选手展开了 5000 余场四人麻将对局,逐渐打出了自己的实力和水准。

到了 6 月份,Suphx 达到了特上房的最高段位十段,而限制 Suphx 没能问鼎最十一段位「天凤位」的,只是平台还不允许 AI 系统进入最高级的房间对战。

天凤平台自 2006 年推出以来,四人麻将达到过十段的选手约有 180 位,而现役的十段人类选手也不过十几位。但在衡量实力水平的稳定段位上,Suphx 达到了 8.7 段,远远高出人类十段选手的 7.4 段。


Suphx 是天凤平台上所有 AI 里的最高水平

此前,天凤平台还活跃着另外两个麻将 AI 系统,分别是 2015 年由东京大学发布的「爆打」,以及 2018 年由 Dwango 发布的「NAGA25」,但二者的稳定段位均低于 6.5,被 Suphx 远远地甩在了身后。

千年历史的麻将:缓慢演进的大众休闲

麻将,也称「麻雀」或「雀牌」等,是正宗的国粹。

有关麻将起源的说法五花八门,至于其真相也无从考证,但可以确定的是,麻将自从问世后,作为全民娱乐项目,麻将一直流行于民间,经久不衰。


麻将的前身,最早可追溯到汉代的叶子戏牌

而麻将牌的符号和制作也历经了多次变迁,最早的麻将牌竹子和动物骨头制作,此后还有过纸牌的时期。

在达官贵人中,还曾用犀牛角,象牙,金银铜,青花瓷来制作,彼时的麻将牌由精工巧将们一张张雕刻而来。


LV、Prada、爱马仕这些国际品牌,都曾推出过高级定制麻将

直到 1960 年以后,塑料用品的普及,以及机械化的发展,使得麻将逐渐以材料被大量生产。

但除了制作工艺上的变化,麻将里的最高科技,除了 AI,可能就是自动麻将机了。

AI 胡牌,全靠推理

在 AI 研究之前,很多人一度认为麻将中,运气是决定性的因素。但其实麻将的竞技规则,是很复杂的问题。

136 张麻将的排列组合有许多种结果,同一玩家两次出牌之间,夹杂了其他 3 位玩家的出牌,还有自己的摸牌,而且还有「吃」、「碰」、「杠」都会让牌局产生动态变化。

其次这是一个非完美信息问题。每个玩家只能知道自己的 13 张手牌,以及被打出的牌,而其他人的牌和剩余底牌都是未知,这些隐藏信息导致了变数众多。


几种牌类游戏的复杂度对比

即便是很有经验的玩家,也难以理清已知牌面和最佳打法之间的逻辑关系,丰富的隐藏信息会导致游戏的复杂度加剧。

这需要在整个过程中,做好策略的规划,比如在局势不利的情况下,战略性地「放炮」让第四名玩家获胜,以防止被总分第二名的反超。

因此,想要打造一个高手麻将 AI,只有强大的算力是不够的,更需要的还在于,让 AI 具有直觉、预测、推理和模糊决策的能力。

成为一代雀神,靠深度强化学习

针对上述难点,微软利用深度强化学习打造的 Suphx,通过最新的算法,一步步在学习和调试中,晋升成了竞技麻将的最强雀神。

雀神 Suphx 是这么做到的

首先是「初始化」阶段,利用「天凤」平台的公开数据,研究人员通过有监督学习,得到一个初始模型,并在模型基础上,用自我博弈的方式进行强化学习训练。

随后,针对非完美信息博弈的挑战,Suphx 创新性地尝试了先知教练技术来提升强化学习的效果。

在训练阶段,利用不可见的隐藏信息,引导 AI 模型的训练方向,让它的学习路径更加清晰、贴近完美信息意义下的最优路径,从而促使 AI 模型深入理解可见信息,从中找到有效的策略。

经典的搜索树结构,AI 希望最小化对手的最大收益,但不适用于麻将游戏

此外,对于麻将复杂的牌面表达和计分机制,他们利用全盘预测技术,搭建起每轮比赛和 8 轮过后的终盘结果之间的桥梁。

通过精巧设计的预测器,模型能够理解每轮比赛对最终结果的影响,从而有全局性的决策视角。

研究团队还引入了新的机制,能够对牌局的过程进行动态调控,让 Suphx 在推理阶段根据最新信息进行策略调整,作出自适应的决策。

最后就是进入实战,通过不断参与到人类玩家的对局中,让 AI 不断学习以提升自己的技能。

该局中,Suphx 不仅胡牌还是大三元

自 3 月进入天凤平台之后,Suphx 一直在不断的自我进化。目前,在平衡攻击和防御方面,Suphx 能够实现比顶尖人类玩家更明智的策略,战略性地完成短期损失与长期收益之间的权衡,并根据已有的模糊信息进行快速决策。

麻将 AI:不止是牌桌上的胜负

得益于其新算法和训练技巧,Suphx 在打法和风格上独树一帜。

天凤平台上的的顶级人类玩家,就在社交媒体上盛赞 Suphx,他觉得自己看了很多 Suphx 的比赛,学到了很多不曾见过的技术。

此外,还有很多玩家都说在 Suphx 的对战中,学到了实用的对战技巧,因此也纷纷将其称为「麻将教科书」、「Suphx 老师」。

136 张的麻将带来的技术启示

对于麻将的输赢,市井百姓享受的是运气和经验的快感,而高手享受的是智力的较量。

这样一个「雀神」AI,除了打造一个无敌的麻将教练,还能打开全新的视角,让我们从数据算法的维度,去解析这项娱乐。

不再像一个赌徒般依赖于运气,而在脑力的光环之下,逐渐抛下那些随机的不定的东西,探索出一套胜利的规律。

这不正是 AI 发展之路上,最迷人的一束光吗?

退出移动版