关于深度学习:LayerNorm-在-Transformers-中对注意力的作用研究

LayerNorm 始终是 Transformer 架构的重要组成部分。如果问大多人为什么要 LayerNorm，个别的答复是：应用 LayerNorm 来归一化前向流传的激活和反向流传的梯度。

其实这只是局部正确：Brody、Alon 和 Yahav 的一篇题为“On the Expressivity Role of LayerNorm in Transformer’s Attention”的新论文表明，LayerNorm 的作用要深得多。

LayerNorm 其实为 Transformer 的 Attention 提供了两个重要的性能：

1、Projection：LayerNorm 帮忙 Attention 设计一个注意力查问，这样所有的 Key 都能够平等地拜访。它通过将 Key 向量投影到同一个超平面上来实现这一点，从而使模型可能将查问对齐。这样一来，Attention 组件就无需本人学习如何执行此操作。

论文蕴含了更精密的细节，比方论文中的这图片能够让咱们进行可视化的查看

2、Scaling：这是更显著的局部，LayerNorm 从新缩放输出。但这种从新缩放做了什么呢？依据这篇论文潜在的益处是有两个益处：

每个 Key 都有可能取得“最高”关注

没有 Key 能够在“un-selectable”区域完结。

论文中的第二张图片在视觉上给了咱们答案：

他们还留神到：Attention 之后的 LayerNorm 依然实现了雷同的目标，然而作用是用于下一个 Attention 块的。并且在较大的 Transformer 模型中，这些益处仿佛并不那么显著。论文认为这是因为更大尺寸的模型可能找到代替解决方案（也就是下面说的 Attention 不须要帮忙而是本人学习到了如何执行这个操作）。

然而 LayerNorm 确实隐含地具备两个外围性能，即投影和缩放。这篇论文的细节要多得多，本文的总结并以直观的模式展现这两个次要发现，因为这论文中这两个图能够间接的表白这个内容。

如果你像具体浏览，论文地址：

https://avoid.overfit.cn/post/ac6bbc9b20fb4bd292009d0a5370bb46

作者：Less Wright