共计 880 个字符,预计需要花费 3 分钟才能阅读完成。
LayerNorm 始终是 Transformer 架构的重要组成部分。如果问大多人为什么要 LayerNorm,个别的答复是:应用 LayerNorm 来归一化前向流传的激活和反向流传的梯度。
其实这只是局部正确:Brody、Alon 和 Yahav 的一篇题为“On the Expressivity Role of LayerNorm in Transformer’s Attention”的新论文表明,LayerNorm 的作用要深得多。
LayerNorm 其实为 Transformer 的 Attention 提供了两个重要的性能:
1、Projection:LayerNorm 帮忙 Attention 设计一个注意力查问,这样所有的 Key 都能够平等地拜访。它通过将 Key 向量投影到同一个超平面上来实现这一点,从而使模型可能将查问对齐。这样一来,Attention 组件就无需本人学习如何执行此操作。
论文蕴含了更精密的细节,比方论文中的这图片能够让咱们进行可视化的查看
2、Scaling:这是更显著的局部,LayerNorm 从新缩放输出。但这种从新缩放做了什么呢?依据这篇论文潜在的益处是有两个益处:
每个 Key 都有可能取得“最高”关注
没有 Key 能够在“un-selectable”区域完结。
论文中的第二张图片在视觉上给了咱们答案:
他们还留神到:Attention 之后的 LayerNorm 依然实现了雷同的目标,然而作用是用于下一个 Attention 块的。并且在较大的 Transformer 模型中,这些益处仿佛并不那么显著。论文认为这是因为更大尺寸的模型可能找到代替解决方案(也就是下面说的 Attention 不须要帮忙而是本人学习到了如何执行这个操作)。
然而 LayerNorm 确实隐含地具备两个外围性能,即投影和缩放。这篇论文的细节要多得多,本文的总结并以直观的模式展现这两个次要发现,因为这论文中这两个图能够间接的表白这个内容。
如果你像具体浏览,论文地址:
https://avoid.overfit.cn/post/ac6bbc9b20fb4bd292009d0a5370bb46
作者:Less Wright