关于人工智能:有道围棋-AI智能匹配儿童棋力的良师益友

有道纵横是网易有道旗下专为 4 - 8 岁孩子量身打造的在线少儿围棋产品，于 2019 年启动，自研了全国首部在线交互式围棋动漫课程，从孩子的理解力和爱好登程，采纳直播互动的课程模式将围棋常识变得简略乏味、易懂好学，帮忙孩子把握围棋的各类规定和技巧。不仅如此，课后还设有 AI 对弈性能，可能智能辨认孩子的段位程度匹配对局练习，从本源造就孩子的思维习惯。每局对弈完结后的智能剖析，会从大局观、计算力、稳定性、战斗和棋型五方面进行全方位剖析，帮忙孩子在复盘中提高。

Google 旗下 Deepmind 提出的 AlphaGo、AlphaGo Zero、AlphaZero 系列算法展现了深度强化学习在棋类畛域超常的能力。2016 年 AlphaGo 横空出世击败欧洲围棋冠军樊麾二段，2017 年以 4：1 击败韩国围棋职业九段，14 个世界冠军得主李世石，2018 年无师自通的 AlphaGo Zero 以 3：0 击败最年老的六冠王柯洁九段。至此当前再无人质疑 AI 在围棋畛域的霸主位置，同时引发了职业棋手学习 AI 招法的热潮。在职业围棋赛场上，时常呈现“狗招”，学习、钻研 AI 招法的背地的逻辑，已是职业棋手的必修课。

Github 上曾经有了 Leela Zero、KataGo 等基于 AlphaZero 系列算法的优良围棋 AI 开源我的项目，它们的次要指标是晋升 AI 的棋力，目前上述围棋 AI 的棋力已远超人类职业棋手。然而当强 AI 利用在少儿围棋教学时，呈现了“水土不服”的景象，比方：
• AI 切实是太强了，人很难在与 AI 对弈的过程中领会到“旗鼓相当”的感觉，这极易引起用户的挫败感。
• 授人以鱼而未授人以渔，AI 只通知人应该这么下，而不教会人为什么这么下。
• AI 的学习门路与人天壤之别，一些在人晚期围棋学习阶段就能够把握的常识（如征子），AI 在训练前期才把握。

有道围棋 AI 团队隶属于有道人工智能语音组，负责有道纵横产品与围棋 AI 相干的研发、落地工作，次要发力点在于 AI 的人机对弈和复盘。现有的工作成绩援用一段 CEO 周枫的话：

有道纵横做到了什么？
总体上有道纵横是一个面向孩子的围棋启蒙课程，大班直播、名师教学，在边学边练过程中有丰盛的互动，同时也具备 AI 对弈能力。与此同时，有道纵横将教、学、练、测、评五个环节做了十分好的整合，造成了这个产品的全貌。
这外面有一个大家也会十分关怀的问题，即 AI 老师到底有没有用？
技术团队永远都说 AI 老师特地有用，能够解决个性化教学的问题，能够因材施教；老师背景的团队往往感觉 AI 老师就是洪水猛兽，既没有用而且骗了很多 VC 的钱。
AI 老师到底有没有用？
纵横我的项目当中做了比拟多的 AI 老师的思考和实际。咱们认识是，公众对于 AI 的认知，其实对于产品团队来说是个双刃剑，只有意识到双刃剑的作用能力做出正确的设计。
什么是双刃剑？一方面 AI 是一个十分好的营销抓手；另外一方面，用户不懂做产品，团队必须去本人寻找真正的 AI 价值点。如果你听用户对哪个货色兴奋就做哪个，最初往往掉坑里了。
在 AI 场景下，咱们思考了十分久。首先想到 AlphaGo，不论多牛都下得过你，但这么和用户讲显然不可能，所以自身对弈的难度和棋力不是教学当中 AI 的指标，而是如何升高难度，怎么可能灵便的调整难度。
所以，第一，咱们团队花了大量功夫做难度可控的、棋力可控的围棋 AI；第二，可控棋力的 AI 和复盘能力；第三，咱们推的是学员和学员、学员和老师之间的对弈，强调人人对弈而不是人机对弈，人机对弈只是找不到人对弈时候的补充伎俩。
通过这样的伎俩，咱们实现了自主研发的围棋 AI，教学过程当中可能代替掉人的局部工作，进步了团队的生产效率。

一个现实的人机对弈教学系统具备如下特点：
• AI 的招法有逻辑性，用户很难感触到是 AI 在下棋。
• 正当管制 AI 的程度，防止一边倒的场面。
• AI 能够配合教学进度，帮忙用户坚固教学内容（如定式）。

一些其余计划在实现人机对弈零碎时，个别应用 AI 训练过程晚期的模型，而后应用模型的 top- n 输入，随机抽样进行落子行为，防止 AI 落子过于繁多。

这种计划除了易于想到之外没有其余长处，因为晚期模型训练量不大，采纳 top- n 的采样办法会导致 AI 的招式没有条理，用户很容易诱导出这种落子逻辑的破绽（如征子）。其次，在对弈过程中，AI 模型和落子策略是固定的，但咱们在实践中发现，AI 对于围棋中的布局、中盘、收官等阶段的招法学习速度并不相同，AI 对布局的把握速度远远超出中盘、收官，应用雷同的模型和策略会导致 AI 在整盘棋的体现差别极大。再者，AI 的自对弈训练中，没有定式的概念（定式是围棋高手在某些部分的经验总结，用户学习定式走法能够疾速晋升棋力），低水平的 AI 很难在部分中下出最优解，而人能够通过学习高手的棋谱疾速把握部分最佳下法，即便人的程度并没有达到提出该定式的围棋高手程度。 上述问题的本源在于 AI 与人的学习门路天壤之别，难以间接移植。

思考到以上问题后，围棋 AI 团队做了以下工作：
• 弃用 top- n 随机抽样的落子策略，应用 AI 引擎的 policy 输入，按概率采样。保障了 AI 招法逻辑性、连贯性。
• 在不同手数阶段，联合胜率和目差信息，调用不必的 AI 模型。保障 AI 在不同阶段的程度体现相近。
• 联合教学内容，实现 AI 模型和定式模板的混合输入。坚固用户学到的定式常识。

复盘指对局结束后，复演该盘棋的记录，以查看对局中招法的优劣与得失要害。个别用以自学，或请高手给予领导剖析。下围棋的高手都有复盘的习惯。复盘就是每次博弈完结当前，单方棋手把方才的对局再反复一遍，这样能够无效地加深对这盘对弈的印象，也能够找出单方攻守的破绽，是进步本人程度的好办法。在有道纵横产品中，AI 承当了复盘老师的角色。

一些其余计划中，AI 复盘次要是展现整局棋的胜率或目差曲线、AI 的举荐变动图、以及一些根底的统计数据，这些内容更适宜业余的用户，业余用户的需要在于疾速定位本人下的不好的棋，而后依据 AI 提供的变动图等推理 AI 的落子逻辑，此类用户仅依据围棋 AI 引擎的原始数据就能够实现自我学习。

 然而当用户群体定位到少儿时，上述的解决方案成果就会大打折扣，少儿用户很难了解统计数据背地的意义，同时对 AI 提供的变动图的逻辑不足剖析能力，甚至注意力很难集中在变动图上，仅关注整局棋的胜率、目差的变动。此外，其余计划采纳的复盘应用的 GPU 资源耗费很大，有的用户甚至须要半天工夫能力拿到对局的复盘后果。思考到以上问题后，围棋 AI 团队做了以下工作：

• 引入语音组的 TTS 技术，将复盘后果翻译成少儿用户易于承受的文案，晋升用户的注意力。
• 性能优化，在少儿用户的应用场景中，用户并不需要高算力 AI 产生的复盘后果，咱们指定了依据场面的复杂程度调配算力的计划。
• 联合用户以往的复盘记录，刻画用户的围棋程度，造成长期的学情报告。

目前围棋 AI 的技术次要集中于晋升 AI 程度上，这诚然为业余用户自我训练提供了极大的便当，但因为高水平 AI 背地的行棋逻辑较为浅近，当围棋 AI 为少儿用户提供服务时，少儿用户很难间接从高水平 AI 获取常识。
接下来咱们心愿能够在人机对弈场景中，为用户提供程度更适合、逻辑更连贯的 AI 陪练；在复盘场景中，为用户提供更清晰易懂的复盘报告。

关于人工智能:有道围棋-AI智能匹配儿童棋力的良师益友

1 背景

2 现有 AI 技术存在的问题

3 有道围棋 AI 团队的成绩

4 解决方案及思路

4.1 人机对弈

4.2 复盘

5 总结与瞻望