关于人工智能:AlphaZero如何学习国际象棋的

35次阅读

共计 2479 个字符,预计需要花费 7 分钟才能阅读完成。

DeepMind 和 Google Brain 钻研人员以及前世界国际象棋冠军 Vladimir Kramnik 通过概念摸索、行为剖析和对其激活的查看,摸索了人类常识是如何取得的,以及国际象棋概念如何在 AlphaZero 神经网络中示意。

AlphaZero 在短短四个小时内把握了所有国际象棋专业知识。AlphaZero 不仅要颠覆国际象棋世界,还要颠覆整个世界 战略决策畛域。AlphaZero 胜利者代表了另一个重要方面的冲破:这是一种能够推广到其余学习工作的算法。

家喻户晓,深度神经网络能够学习人类无奈了解的不通明、无法解释的示意。因而从迷信和实际的角度来看,摸索像 AlphaZero 这样自学成才的超人类神经网络代理实际上在学习什么以及如何学习,才是最重要的。

在新论文 Acquisition of Chess Knowledge in AlphaZero 中,DeepMind 和 Google Brain 钻研人员以及前世界国际象棋冠军 Vladimir Kramnik 摸索了 AlphaZero 如何以及在多大程度上获取人类常识,以及如何在其网络模型中示意国际象棋概念。他们通过全面的概念摸索、行为剖析和对 AlphaZero 激活的查看来做到这一点。

像 AlphaZero 这样简单的神经网络代理能学到什么? 这个问题既有迷信意义又有实际意义。如果强神经网络的示意与人类的概念没有相似之处,咱们了解对其决策的解释的能力将受到限制,最终也会限度在神经网络可解释性方面的成就。在这项工作中,论文证实了 AlphaZero 神经网络在下棋时能够取得人类常识。通过摸索宽泛的人类国际象棋概念,论文展现了这些概念在如何在 AlphaZero 网络中示意。还提供专一于开局的行为剖析,包含定性分析国际象棋巨匠 Vladimir Kramnik。最初,对 AlphaZero 示意的底层细节进行了初步查看,并将后果的行为剖析和示意剖析放到网上。

钻研人员的钻研前提是:如果像 AlphaZero 这样的强神经网络的示意与人类概念没有相似之处,咱们了解其决策的解释的能力将受到限制,最终限度了咱们能够通过神经网络可解释性实现的指标。

该团队的钻研旨在进步对以下方面的了解:

  • 人类对于常识的编码
  • 如何在训练中获取常识
  • 通过编码国际象棋概念从新解释价值函数
  • AlphaZero 的进化与人类历史的比拟
  • AlphaZero 的棋子下一步挪动候选策略的演变
  • 无监督概念发现和证实

该团队从大型输出数据集的网络激活中检测人类概念,在 AlphaZero 的国际象棋自我对弈训练过程中,在每个块和多个检查点上探测每个概念。这使他们可能建设一张图片,理解在训练期间学习的内容以及计算网络的地位。

用于抉择 Stockfish 8 和自定义概念的工夫地点图。下图,咱们将一个 ResNet“块”算作一个层。

该团队应用稠密线性探测办法查看国际象棋常识是如何逐步获取和示意的,这样能够确定 AlphaZero 如何示意宽泛的人类国际象棋概念。他们通过阐明在训练工夫学习什么概念以及在“什么工夫什么地点”图中的网络来可视化这种概念常识的获取。

在钻研内部表征是如何随着工夫变动的之后,该团队接着钻研了这些变动的表征是如何导致行为的变动的,办法是测量一组指定的棋位的挪动概率的变动; 通过将自我游戏训练中的进化与人类顶级游戏中挪动抉择的进化进行比拟。

最初,思考到曾经建设的用于预测人类概念的 AlphaZero 的激活,通过应用非负矩阵合成 (NMF) 来间接查看这些激活,将 AlphaZero 的示意合成为多个因素,以取得 AlphaZero 网络正在计算的内容的补充视图。

下图的确是咱们看到的,它将人类历史与 AlphaZero 在训练期间的历史偏好进行了比拟。

如果训练不同版本的 AlphaZero,失去的棋手可能会有不同的偏好。乏味的是,这意味着不存在“举世无双”的优良棋手! 下表显示了四种不同 AlphaZero 神经网络的偏好:

上表的先验是在 100 万次训练步骤后给出的。有时 AlphaZero 收敛成为喜爱 3…a6 的玩家,有时 AlphaZero 收敛成为喜爱用 3…Nf6 的玩家。

然而 AlphaZero 到底是怎么想的呢?AlphaZero 如何评估地位?AlphaZero 的神经网络评估函数没有 Stockfish 的评估函数那样的构造档次:Stockfish 将一个地位合成为一系列概念 (例如 king safety, mobility, and material),并将这些概念联合起来,以达到对地位的整体评估。而 AlphaZero 输入的值函数范畴从 -1(肯定会失败) 到 +1(肯定会胜利),没有明确的两头步骤。尽管神经网络评估函数在计算一些货色但并不分明是什么。为了理解正在被计算的内容,DeepMind 和谷歌 Brain 的钻研人员应用 Stockfish 概念值来尝试预测 AlphaZero 的地位评估函数(相似于通过预测游戏后果取得棋子值的形式)。

这种办法容许钻研人员估算 AlphaZero 在某个地位的值,以及这种评估是如何随着自训练的停顿而倒退的。如上图所示,material 在 AlphaZero 的评估中较早呈现为重要因素,但在前期的训练中,随着 king safety 等更简单的概念的重要性回升,material(子力)的重要性逐步降落。这种进化与人类惊人地类似: 在学习国际象棋的晚期过程中,咱们只是通过棋子子力来评估地位,而后随着咱们理解的更多对地位的其余方面有了更丰盛的了解。

该团队对 AlphaZero 神经网络从初始化到训练完结的过程的钻研得出了以下见解:

1)在 AlphaZero 网络中能够找到许多人类概念;

2)通过“what-when-where plots”出现训练过程中常识获取的具体画面;

3)概念的应用和绝对概念价值随着工夫的推移而演变,AlphaZero 最后次要关注子力,更简单和奥妙的概念在训练中才呈现作为价值函数的重要预测指标;

4) 与历史人类游戏的比拟表明,人类游戏的倒退形式存在显着差别,但在 AlphaZero 的自我游戏策略的演变方面也有惊人的相似之处。

论文地址:https://arxiv.org/abs/2111.09259

正文完
 0