关于人工智能:踢碎破局陷阱来一场酣畅淋漓的-SLG

SLG 作为深度策略游戏品类的代表，始终是展示人类智慧之光的最佳舞台之一。观赏顶尖玩家间的对决是一场大脑的狂欢，奇谋频出、神机莫测般的对局让人不禁跃跃欲试，蠢蠢欲动。但当咱们关上游戏时，往往是高玩难觅，人机相陪，敌人闲隙不常有，而人机却全是数值怪。

想打一场酣畅淋漓，气贯长虹的对局怎么这么难？！

可不可以让人机也像人一样聪慧刁滑，巧计随发？

为什么大多数 SLG 中的人机，都这么笨？！

在绝大多数 SLG 游戏中，决策个别由两个层级组成：城市、国家。

城市次要波及微操，如资源采集、募兵。
国家次要负责宏观决策，如外交关系、军事行动。

城市与国家之间的决策须要亲密关联，能力最大限度地施展一个国家的实力。因为 SLG 中丰盛的元素，在不同的态势下，一个国家的最优决策链亦大不相同，如开局在蛮荒之野 vs 膏腴之地，边远之陲 vs 四战之地。在不同的开局条件下，一个国家的决策从顶层设计到微操实现都有着极大的区别，并且随着工夫的变动，亦须要一直调整一个国家的策略方向，“入则无法家拂士，出则无敌国外患者，国恒亡”。

这为基于规定的行为树带来了极大的挑战，从事实的角度来说，书写如此宏大的行为树是不事实的，也容易导致“财政赤字”。在绝大多数 SLG 游戏中，有一个能够应酬绝大多数场景的万金油规定便足够了，“什么？玩家感觉咱们的 AI 太弱了？加数值！给 AI 开局 50000 骑兵！”

这便带来了 SLG 中广泛的痛点：

破局陷阱
玩家的次要体验被集中在了后期破局中，而因为 AI 的高数值与策略繁多，被很多玩家戏称为“做题”——必须依照攻略一步一步走，不能有任何分差；而玩家一旦“破局”胜利，游戏将彻底进入垃圾工夫——毕竟 AI 只是会打劣势局的数值怪。

导致 SLG 游戏陷入破局陷阱的起因有很多，但其中的基本便是：

基于规定的行为树无奈笼罩一局残缺的游戏周期，如果不给予行为树极高的数值，因为行为树的策略繁多且强度有余，玩家简直在整局游戏中都不会体验到无效的反抗，从而导致游戏的垃圾工夫占比十分高。应用高数值的办法更像一种斗争：既然咱们无奈给予 AI 聪慧的大脑，那只能给予它强健的身材了。

这会带来什么问题？

游戏在中后期彻底进入垃圾工夫。

大多数玩 SLG 的玩家，都有一些指挥若定的情怀：我后期辛辛苦苦种田发育，好不容易熬成一方霸主，倾一国之力来和人机决一雌雄，心愿能打一场青史留名的大会战！而不是无论我摆出怎么的阵型，设下了几路伏兵，他却只会从地方冲破。

当我使出浑身解数，拿出看家本领的时候，心愿对方能给予相应的 ” 尊重 ”。而这份 ” 尊重 ”，基于规定的行为树是无奈给予的。

SLG 游戏中人机对策略的深度和广度都很不足，而这恰好是能够被深度强化学习训练的 AI 所填补的。

对于 SLG 类游戏 AI，一套通用的技术计划如下：

AI Brain（以下简称为 AI）以国王的角度负责一个国家的决策，具体到执行时会分化出不同的执政官，如大将军，外交官，总督等；每一位执政官负责游戏内一个畛域的决策，大将军负责军事行动，外交官负责国家关系，总督负责城市治理等。

所有执政官应用同一个神经网络模型，朝着独特的指标通力合作，如外交官想要发动宣战，总督会令各个城市开始生产军事资源，并将军事资源集中运输到边陲城市，大将军会让军队向两国边陲集结，一旦外交官宣战，立即开始军事行动。

在具体的强化学习建模上，咱们以三国为游戏背景的大多数 SLG 游戏为例。

对存在非凡玩法或资源的游戏内容，须要进行针对性的补充。

因为 SLG 广泛以策略的深度和广度见长，因此其动作空间计划显著区别于其余品类游戏；具体来讲，咱们会将游戏中须要决策的局部依照职责划分成数个方向，随后调配给相应的执政官来执行。

大将军：负责所有的军事决策。

总督：负责城市倒退建设。

外交官：负责国家外交关系。

贸易长：负责商业贸易。

SLG 相比于其余品类的游戏，在技术计划中一个显著的区别点在于其须要决策数量不定的单位，如城市、军队，并且与 RTS 不同，SLG 中的单位难以对立批量决策，因此须要在回合内对所有单位进行遍历决策，这对训练所需的样本数量提出了较高的要求。

在执政官构造计划中，尽管所有的执政官均共用同一个神经网络模型，但每一位执政官均应用独立的马尔可夫链。应用对立的神经网络模型和处分函数确保了执政官之间指标的一致性和合作性，同时减少了特征提取效率；而独立的马尔可夫链则为每一位执政官调配了与其适应的状态转移矩阵，极大地升高了将来处分期望值的方差。

因为 SLG 游戏中广泛以城市作为游戏的外围单元，因而咱们抉择了基于势能的城市处分。特地地，对于能够新建或者覆灭城市的游戏玩法，能够批改为毁灭国家或领土面积。

在绝大多数的 SLG 游戏中，攻陷一座敌人的城市并不是一件”动动手指即可”的容易事，往往须要后期大量的筹备工作，这便意味着在训练的后期阶段，AI 是很难摸索到攻占城市的，这导致了强化学习中经典的稠密处分问题（Sparse Reward），针对该问题，咱们应用了两种解决办法。

Random Initial State in Markov Decision Process

稠密处分问题的实质是以后 state 与存在无效处分的 state 在马尔科夫链中的间隔过大，因为智能体在训练后期阶段是随机策略，因此很难摸索到无效处分。据此，咱们应用的办法是，让智能体从无效处分 state 左近开始摸索，具体来说：

如让智能体开局便领有一支十万人的军队，给予军队所需的资源，并将这支军队部署在敌人城市左近，智能体仅需简略的摸索即可进入“胜利霸占城市”的状态；进一步，可将智能体与无效处分 state 的间隔逐渐增大，比方让智能体开局便领有一支十万人的军队，给予军队所需的资源，但将这支军队部署在远离敌人城市的地位；直至智能体齐全把握从零组建军队至攻占敌人城市的残缺决策链。

Inspirer

导致稠密处分的另一个次要起因是：智能体在训练后期是随机策略。那么咱们能够从此着手，让智能体在训练后期应用或者借鉴专家策略；前者，是模拟学习，后者，咱们称之为启发者（Inspirer）。

因为游戏可能还没有上线，抑或不足高玩数据的起因，模拟学习的利用存在着肯定的限度。

在 Inspirer 办法中，咱们减少了一个预训练的模型，该模型的动作空间与以后模型雷同，在训练时，每条轨迹有 ρ 的概率令其中的 action 均为预训练的模型产生；ρ 会随着两个模型 KL 散度的增大而减小。预训练模型的取得形式有很多种，比方由训练较长时间取得，亦或退出局部疏导处分取得。

退出预训练模型的目标是心愿为模型的后期摸索减少无效样本，当以后模型与预训练模型策略差别增大时（KL 散度增大），代表模型失去了新策略，此时通过缩小预训练模型生成的样本比例来防止预训练模型对以后模型的策略产生烦扰；ρ 的设置亦不应过大，否则会对 critic 的拟合带来较大偏差。

在历史向的 SLG 游戏中，君主的人设是十分重要的组成部分，共性显明的君主会让玩家的历史代入感霎时爆发，亦为游戏体验减少了更多的新鲜感。

具体地，咱们会为强化学习模型设置多个与人设相干的指标，在训练阶段的每场游戏中，为每位君主赋予不同的指标权重，并将这些指标权重退出神经网络模型的输出中，由此咱们的模型便能够学会不同的指标权重与相应策略的映射关系。

在训练实现后，针对有固定人设的君主，咱们能够为他配置相应的指标权重，比方侵略似火的成吉思汗、养精蓄锐的汉文帝、不思进取的南唐后主等，针对非历史向游戏，咱们能够为每个君主赋予性情迥异的人设，从而极大晋升游戏的丰盛水平。

上面以某款三国 SLG 游戏为背景，介绍 AI 机器人在游戏中的决策案例。

游戏整体以上图所示进行强化学习建模，图中整体以中国地形为根底，其中每个方格中的图案代表的信息如下，不同色彩的部队及城市代表其属于不同的国家，箭头代表部队防御的方向，每个国家的指标为霸占所有城市，对立中国。

1）在以后局势中，孙权的实力最为强盛，AI 预测获胜偏向最高（1.5），刘备与曹操首次结盟，独特抵制孙权。

2）在通过长达 188 回合的拉锯战后，孙权被压抑在东南与蜀地，刘备尝试入川但损失惨重，于是趁曹操的主力部队仍在中原与孙权相持时撕毁盟约，奇袭曹操前方，曹操此时在长江以南仅留有驻防合肥的三支缺额休整部队。

3）曹操遭刘备背刺，前方奄奄一息，在留下大量部队与孙权相持后，立即集结中原军团驰援南线；孙权见曹刘破裂，趁机向曹操抛出橄榄枝邀请结盟，却遭曹操严词拒绝（3.2>>0.5)

4）趁刘备曹操在江南混战，孙权养精蓄锐再度崛起，大有重出潼关之势；曹操摒弃前嫌，向刘备申请结盟，曹刘在解盟不久后再度结盟。

大敌当前，仍需风雨同舟。

5）和平进行了百余回合，孙权一度攻占河北，但终因两线作战，双拳难敌四手；刘备乘胜盘踞河北，正欲与孙权在东南决战；曹操在三峡逡巡不前，迟迟不肯入蜀开拓抗孙第二战场，在刘备抽调了中原的所有主力后，曹操果决撕毁盟约，偷袭刘备前方。

6）刘备虽知曹操偷袭，但东南决战曾经打响，抽身乏术，被迫坐视曹操强占整个南方；东南决战，刘备惨胜，曹操趁机大军压境，刘备欲守潼关但曹操仿历史三国新闻由浦阪津渡河，关中已无险可守，此诚危急存亡之秋。孙权刘备尽管刚结为盟友但远水难救近火，刘备背水一战，带领最初的九只精锐部队东出潼关，以曹操在黄河南岸的三只新军为突破口冲出重围。

7）刘备解围后暂栖江南，曹操一统南方，大举伐吴，孙权退无可退死守阳平关，同时向刘备告急；刘备集结最初的力量，倾国北伐。

8）蜀道难，难于上青天。曹操久攻阳平关不下，遭孙刘合围于陈仓道，全军覆没。刘备撕毁盟约，携灭国之威一举攻破阳平关，孙权覆灭在即。

9）滚滚长江东逝水，浪花淘尽英雄。

下面的案例中，次要展现了 AI 在军事指挥及内政联盟方面的能力，两面能力互相配合，井水不犯河水，从而在一局游戏内打出精彩的反转。

作为 SLG 骨灰级玩家，咱们深深为其中的高数值低智能人机所折磨，无数次的鼠标悬停在开始游戏，又无数次的质问本人，“你想的这些新招数，人机却只会那些老套路，有什么意思呢？”

如果问咱们最想给 SLG 带来什么，咱们心愿给每一位酷爱深度策略的 SLG 玩家酣畅淋漓的对决，让玩家的每次“突围黄百韬”，都会取得“先打中野”般的回应。

作为一站式企业服务提供商，网易智企基于网易游戏的 AI 技术与实战经验，交融了最先进的 AIGC 技术，积淀转化出多个品类的游戏 AI 机器人解决方案。包含 MMORPG、MOBA、SPG、FPS/TPS、ACT、SLG、RTS、棋牌卡牌等，切实帮忙游戏行业搭档们以最低的老本接入最先进的 AI 服务，紧跟最新 AI 技术倒退并享受其带来的红利。

心愿在这场 AI 带来的 SLG 游戏反动中，咱们能够携手同行！

关于人工智能:踢碎破局陷阱来一场酣畅淋漓的-SLG

SLG 的破局陷阱

基于深度强化学习的 SLG AI

神经网络框架

状态特色计划

动作空间计划

处分函数

Sparse Reward

性情迥异的君主

AI 决策案例

游戏背景

结语

Just My Socks（注册教程内含优惠码）

关于人工智能:踢碎破局陷阱来一场酣畅淋漓的-SLG

SLG 的破局陷阱

基于深度强化学习的 SLG AI

神经网络框架

状态特色计划

动作空间计划

处分函数

Sparse Reward

性情迥异的君主

AI 决策案例

游戏背景

结语

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）