关于自然语言处理:Transformers-发展一览

2次阅读

共计 1206 个字符，预计需要花费 4 分钟才能阅读完成。

动动发财的小手，点个赞吧！

Transformers 钻研概览

近年来，深度学习的钻研步调显着放慢，因而越来越难以跟上所有最新倒退。尽管如此，有一个特定的钻研方向因其在自然语言解决、计算机视觉和音频解决等多个畛域获得的胜利而备受关注。这在很大水平上归功于其高度适应性的架构。该模型称为 Transformer，它利用了该畛域的一系列机制和技术（即注意力机制）。

迄今为止，基于 vanilla Transformer 摸索了一系列全面的模型，大抵可分为三类：

网络结构批改
预训练方法
利用

下面的每个类别都蕴含其余几个子类别，我将在接下来的局部中对其进行彻底钻研。图 2. 阐明了钻研人员批改 Transformers 的类别。

自注意力在 Transformer 中起着根本作用，只管它在实践中有两个次要毛病。

复杂性：对于长序列，该模块成为瓶颈，因为其计算复杂度为 O(T²·D)。
构造先验：它不解决输出的构造偏差，须要将额定的机制注入训练数据，稍后它能够学习（即学习输出序列的程序信息）。

因而，钻研人员摸索了各种技术来克服这些毛病。

稠密注意力：该技术试图通过思考输出的一小部分而不是整个输出序列来升高注意力机制的计算工夫和内存要求，从而生成与残缺矩阵相同的稠密矩阵。
线性化注意力：应用内核特色映射解开注意力矩阵，该办法试图以相同的程序计算注意力，以将资源需要升高到线性复杂度。
原型和内存压缩：这一行批改试图缩小查问和键值对，以实现更小的注意力矩阵，从而缩小工夫和计算复杂度。
Low-rank self-attention：通过应用参数化或用低秩近似替换它来显式地建模自注意力矩阵的低秩属性，试图进步 transformer 的性能。
先验注意力：利用其余起源的先验注意力散布，这种办法将其余注意力散布与从输出中取得的注意力散布相结合。
改良的多头机构：有多种办法能够批改和进步多头机构的性能，能够纳入该钻研方向。

总之，Transformer 的分类学和注意力机制的各种提高显着扩大了基于 Transformer 的模型的能力和效率。稠密注意力技术，例如基于地位和基于内容的稠密注意力，以及线性化注意力，曾经解决了传统密集注意力的计算局限性。查问原型和内存压缩办法引入了翻新的办法来进步注意力机制的效率。低秩自注意力启用了参数化和近似技术，以实现更无效的注意力计算。联合先验，例如局部性建模、较低的模块先验和多任务适配器，曾经在改善注意力机制方面显示出可喜的后果。最初，对多头机制的批改，例如头部行为建模、限度跨度、精密聚合和其余变体，显示出进一步提高基于 Transformer 的模型性能的后劲。

留神机制的这些提高为将来在自然语言解决、计算机视觉和机器翻译等各个领域的钻研和利用提供了令人兴奋的前景。通过利用这些翻新技术，基于变压器的模型能够持续突破性能和效率的界线，为高级机器学习利用开拓新的可能性。

本文由 mdnice 多平台公布

正文完