关于计算机视觉:Mega-改进序列模型引入移动平均捕捉时空依赖

出品人：Towhee 技术团队顾梦佳

Transformer 注意力机制的设计包含弱演绎偏置和简单的二次计算，限度了它对长序列建模的利用。为了更好地应用单个模型捕获序列数据中的长距离依赖， 挪动均匀单头门控注意力（Mega）尝试沿工夫维度，应用经典的指数滑动均匀（EMA）办法引入偏差，并提出了一种具备线性复杂度的变体。 通过在宽泛的序列建模基准上进行试验，比方 Long Range Arena、神经机器翻译、自回归语言建模以及图像和语音分类，Mega 相比其余序列模型（Transformer 的变种和最近的状态空间模型）体现出了显著的改良。

Mega Architecture

Mega 是一种简略的、有实践根底的、装备有（指数）挪动均匀的单头门控注意力机制，将地位感知的部分依赖的演绎偏差纳入与地位无关的注意力机制。Mega 变体则进一步将输出序列划分为固定大小，同时最小化上下文信息的损失。它提供了线性的工夫和空间复杂性，但只产生最小的品质损失，通过无效地将整个序列宰割成具备固定长度的多个块。

相干材料：

代码地址：[https://github.com/facebookre…]
论文链接：<Mega: Moving Average Equipped Gated Attention>
更多材料：滑动均匀门控注意力