关于人工智能:使用-PyNeuraLogic-超越-Transformers

展现神经符号编程的力量

在过来的几年里，咱们看到了基于 Transformer 的模型的衰亡，并在自然语言解决或计算机视觉等许多畛域获得了胜利的利用。在本文中，咱们将摸索一种简洁、可解释和可扩大的形式来表白深度学习模型，特地是 Transformer，作为混合架构，即通过将深度学习与符号人工智能联合起来。为此，咱们将在名为 PyNeuraLogic 的 Python 神经符号框架中实现模型。

将符号示意与深度学习相结合，填补了以后深度学习模型的空白，例如开箱即用的可解释性或短少推理技术。兴许，减少参数的数量并不是实现这些预期后果的最正当办法，就像减少相机百万像素的数量不肯定会产生更好的照片一样。

PyNeuraLogic 框架基于逻辑编程——逻辑程序蕴含可微分的参数。该框架非常适合较小的结构化数据（例如分子）和简单模型（例如 Transformers 和图形神经网络）。另一方面，PyNeuraLogic 不是非关系型和大型张量数据的最佳抉择。

该框架的要害组成部分是一个可微分的逻辑程序，咱们称之为模板。模板由以形象形式定义神经网络构造的逻辑规定组成——咱们能够将模板视为模型架构的蓝图。而后将模板利用于每个输出数据实例，以生成（通过根底和神经化）输出样本独有的神经网络。这个过程与其余具备预约义架构的框架齐全不同，这些框架无奈针对不同的输出样本进行自我调整。

咱们通常偏向于将深度学习模型实现为对批处理成一个大张量的输出令牌的张量操作。这是有情理的，因为深度学习框架和硬件（例如 GPU）通常针对解决更大的张量而不是形态和大小不同的多个张量进行了优化。Transformers 也不例外，通常将单个标记向量示意批处理到一个大矩阵中，并将模型表示为对此类矩阵的操作。然而，这样的实现暗藏了各个输出标记如何互相关联，这能够在 Transformer 的注意力机制中失去证实。

注意力机制形成了所有 Transformer 模型的外围。具体来说，它的经典版本应用了所谓的多头缩放点积注意力。让咱们用一个头（为了分明起见）将缩放的点积注意力分解成一个简略的逻辑程序。

注意力的目标是决定网络应该关注输出的哪些局部。留神通过计算值 V 的加权和来实现，其中权重示意输出键 K 和查问 Q 的兼容性。在这个特定版本中，权重由查问 Q 和查问的点积的 softmax 函数计算键 K，除以输出特征向量维数 d_k 的平方根。

(R.weights(V.I, V.J) <= (R.d_k, R.k(V.J).T, R.q(V.I))) | [F.product, F.softmax_agg(agg_terms=[V.J])],
(R.attention(V.I) <= (R.weights(V.I, V.J), R.v(V.J)) | [F.product]

在 PyNeuraLogic 中，咱们能够通过上述逻辑规定充沛捕获注意力机制。第一条规定示意权重的计算——它计算维度的平方根倒数与转置的第 j 个键向量和第 i 个查问向量的乘积。而后咱们用 softmax 聚合给定 i 和所有可能的 j 的所有后果。

而后，第二条规定计算该权重向量与相应的第 j 个值向量之间的乘积，并对每个第 i 个标记的不同 j 的后果求和。

在训练和评估期间，咱们通常会限度输出令牌能够参加的内容。例如，咱们想限度标记向前看和关注行将到来的单词。风行的框架，例如 PyTorch，通过屏蔽实现这一点，行将缩放的点积后果的元素子集设置为某个非常低的正数。这些数字强制 softmax 函数将零指定为相应标记对的权重。

(R.weights(V.I, V.J) <= (R.d_k, R.k(V.J).T, R.q(V.I), R.special.leq(V.J, V.I)
)) | [F.product, F.softmax_agg(agg_terms=[V.J])],

应用咱们的符号示意，咱们能够通过简略地增加一个身材关系作为束缚来实现这一点。在计算权重时，咱们限度第 j 个指标小于或等于第 i 个指标。与掩码相同，咱们只计算所需的缩放点积。

当然，象征性的“掩蔽”能够是齐全任意的。咱们大多数人都据说过基于稠密变换器的 GPT-3⁴（或其应用程序，例如 ChatGPT）。⁵ 稠密变换器的注意力（跨步版本）有两种类型的注意力头：

一个只关注前 n 个标记 (0 ≤ i − j ≤ n)
一个只关注每第 n 个前一个标记 ((i − j) % n = 0)

两种类型的头的实现都只须要渺小的扭转（例如，对于 n = 5）。

(R.weights(V.I, V.J) <= (R.d_k, R.k(V.J).T, R.q(V.I),
    R.special.leq(V.D, 5), R.special.sub(V.I, V.J, V.D),
)) | [F.product, F.softmax_agg(agg_terms=[V.J])],

(R.weights(V.I, V.J) <= (R.d_k, R.k(V.J).T, R.q(V.I),
    R.special.mod(V.D, 5, 0), R.special.sub(V.I, V.J, V.D),
)) | [F.product, F.softmax_agg(agg_terms=[V.J])],

咱们能够走得更远，将对相似图形（关系）输出的注意力进行概括，就像在关系注意力中一样。⁶ 这种类型的注意力在图形上运行，其中节点只关注它们的街坊（由边连贯的节点）。查问 Q、键 K 和值 V 是边嵌入与节点向量嵌入相加的后果。

(R.weights(V.I, V.J) <= (R.d_k, R.k(V.I, V.J).T, R.q(V.I, V.J))) | [F.product, F.softmax_agg(agg_terms=[V.J])],
(R.attention(V.I) <= (R.weights(V.I, V.J), R.v(V.I, V.J)) | [F.product],

R.q(V.I, V.J) <= (R.n(V.I)[W_qn], R.e(V.I, V.J)[W_qe]),
R.k(V.I, V.J) <= (R.n(V.J)[W_kn], R.e(V.I, V.J)[W_ke]),
R.v(V.I, V.J) <= (R.n(V.J)[W_vn], R.e(V.I, V.J)[W_ve]),

在咱们的例子中，这种类型的注意力与之前显示的缩放点积注意力简直雷同。惟一的区别是增加了额定的术语来捕捉边缘。将图作为注意力机制的输出仿佛很天然，这并不奇怪，因为 Transformer 是一种图神经网络，作用于齐全连贯的图（未利用掩码时）。在传统的张量示意中，这并不是那么显著。

当初，当咱们展现 Attention 机制的实现时，构建整个 transformer 编码器块的缺失局部绝对简略。

咱们曾经在 Relational Attention 中看到了如何实现嵌入。对于传统的 Transformer，嵌入将十分类似。咱们将输出向量投影到三个嵌入向量中——键、查问和值。

R.q(V.I) <= R.input(V.I)[W_q],
R.k(V.I) <= R.input(V.I)[W_k],
R.v(V.I) <= R.input(V.I)[W_v],

查问嵌入通过跳过连贯与注意力的输入相加。而后将生成的向量归一化并传递到多层感知器 (MLP)。

(R.norm1(V.I) <= (R.attention(V.I), R.q(V.I))) | [F.norm],

对于 MLP，咱们将实现一个具备两个暗藏层的全连贯神经网络，它能够优雅地表白为一个逻辑规定。

(R.mlp(V.I)[W_2] <= (R.norm(V.I)[W_1])) | [F.relu],

最初一个带有规范化的跳过连贯与前一个雷同。

(R.norm2(V.I) <= (R.mlp(V.I), R.norm1(V.I))) | [F.norm],

咱们曾经构建了构建 Transformer 编码器所需的所有局部。解码器应用雷同的组件；因而，其施行将是相似的。让咱们将所有块组合成一个可微分逻辑程序，该程序能够嵌入到 Python 脚本中并应用 PyNeuraLogic 编译到神经网络中。

R.q(V.I) <= R.input(V.I)[W_q],
R.k(V.I) <= R.input(V.I)[W_k],
R.v(V.I) <= R.input(V.I)[W_v],

R.d_k[1 / math.sqrt(embed_dim)],
(R.weights(V.I, V.J) <= (R.d_k, R.k(V.J).T, R.q(V.I))) | [F.product, F.softmax_agg(agg_terms=[V.J])],
(R.attention(V.I) <= (R.weights(V.I, V.J), R.v(V.J)) | [F.product],

(R.norm1(V.I) <= (R.attention(V.I), R.q(V.I))) | [F.norm],
(R.mlp(V.I)[W_2] <= (R.norm(V.I)[W_1])) | [F.relu],
(R.norm2(V.I) <= (R.mlp(V.I), R.norm1(V.I))) | [F.norm],

在本文中，咱们剖析了 Transformer 架构并演示了它在名为 PyNeuraLogic 的神经符号框架中的实现。通过这种办法，咱们可能实现各种类型的 Transformer，只需对代码进行渺小的更改，阐明每个人都能够如何疾速转向和开发新鲜的 Transformer 架构。它还指出了各种版本的 Transformers 以及带有 GNN 的 Transformers 的显著相似之处。

本文由 mdnice 多平台公布

关于人工智能:使用-PyNeuraLogic-超越-Transformers

1. 简介

2. Symbolic Transformers

3. Attention 机制

4. Attention Masking

5. 非标准 Attention

6. Encoder

总结