出品人:Towhee 技术团队 顾梦佳
Transformer 注意力机制的设计包含弱演绎偏置和简单的二次计算,限度了它对长序列建模的利用。为了更好地应用单个模型捕获序列数据中的长距离依赖, 挪动均匀单头门控注意力(Mega)尝试沿工夫维度,应用经典的指数滑动均匀(EMA)办法引入偏差,并提出了一种具备线性复杂度的变体。 通过在宽泛的序列建模基准上进行试验,比方 Long Range Arena、神经机器翻译、自回归语言建模以及图像和语音分类,Mega 相比其余序列模型(Transformer 的变种和最近的状态空间模型)体现出了显著的改良。
Mega Architecture
Mega 是一种简略的、有实践根底的、装备有(指数)挪动均匀的单头门控注意力机制,将地位感知的部分依赖的演绎偏差纳入与地位无关的注意力机制。Mega 变体则进一步将输出序列划分为固定大小,同时最小化上下文信息的损失。它提供了线性的工夫和空间复杂性,但只产生最小的品质损失,通过无效地将整个序列宰割成具备固定长度的多个块。
相干材料:
- 代码地址:[https://github.com/facebookre…]
- 论文链接:<Mega: Moving Average Equipped Gated Attention>
- 更多材料:滑动均匀门控注意力