乐趣区

关于机器学习:transformers的近期工作成果综述

基于 transformer 的双向编码器示意 (BERT) 和微软的图灵自然语言生成 (T-NLG) 等模型曾经在机器学习世界中宽泛的用于自然语言解决 (NLP) 工作,如机器翻译、文本摘要、问题答复、蛋白质折叠预测,甚至图像处理工作。

在本文中,对基于 transformer 的工作成绩做了一个简略的总结,将最新的 transformer 研究成果 (特地是在 2021 年和 2022 年发表的研究成果) 进行具体的调研。

这张图与一篇考察论文 [Tay 2022] 中的图类似,但被调 transformers 会更新并且它们的整体分类也有很大的不同。

如图所示,次要类别包含计算复杂度、鲁棒性、隐衷性、近似性和模型压缩等等。本文文字和专业术语较多,并且均翻译自论文原文,如有谬误(很可能)请谅解。

计算复杂度

一些钻研方向是以各种形式解决 transformer 的 O(N2)计算复杂度。transformer 的关键问题之一是它与输出序列长度相干的二次复杂度。这意味着咱们必须为每一层和留神头计算 N * N 个留神矩阵。人们尝试了各种办法来升高这种 O(N2)复杂度,包含应用缓存体系结构。

Sparse transformer 是解决这种复杂性的风行办法之一。每个输入地位从输出地位的一个子集计算权重。如果子集是√(N),那么 transformer 的复杂度升高到 O(N *√(N)),并容许它解决更大范畴的依赖关系。

Longformer 应用了带窗口的部分注意力 (对于窗口大小为 w 的窗口,每个令牌会留神到两边的 w / 2 个令牌,而不是整个输出) 并且应用非凡令牌的工作驱动的全局注意力进行组合。

另一项被称为 BigBird [Manzil 2020]的工作应用了图稠密化技术。它应用一种称为 Watts-Strogatz 图的非凡图,它近似于一个残缺的图能够实现输出序列的线性复杂度。作者表明在规范精度假如下,BigBird 是图灵齐备的。他们还评估 BigBird 在远距离依赖的工作上的体现,特地是在提取基因组序列 (如 DNA) 和预测后果染色质谱方面

Linformer 应用线性投影和低秩因子合成的组合迫近点积留神运算[Wang2020]。

下面许多基于稠密矩阵操作的 transformer 可能须要稠密矩阵乘法操作,这种形式并不是在所有体系结构上都可用。他们也偏向于重叠更多的注意力层来补救稠密性,从而导致总体上的算力的减少。对于某些操作,如 softmax 操作也可能不容易; 还有多项式 probit 运算也不容易稠密化。

谷歌提出了一个狭义留神框架 Performer,能够依据不同的相似性度量或内核来指定宽泛的注意力机制。他们通过踊跃的正交随机特色(Favor+)算法来实现注意力的机制。他们还表明能够通过指数函数和随机高斯投影的组合来近似一般的 softmax 留神。Performer 在蛋白质序列预测工作等方面优于规范模型。

Wang 等 [Wang 2021] 提出了一种用于无卷积的密集预测的金字塔视觉 transformer(PVT)。这一问题克服了基于 VIT 的模型在将密集的预测工作时遇到了艰难,PVT 有助于各种像素级密度预测,并且不须要卷积和非最大克制,如指标检测办法。采纳渐进式膨胀金字塔和空间缩小注意力能够很容易地连贯 transformer。最初在图像分类、指标检测、实例和语义宰割等工作中 PVT 也是可用的。

Liu 等人 [Liu 2021] 探讨了 transformer 从语言畛域到视觉畛域的适应问题,办法包含大量视觉实体的差别和与文本中的文字相比的图像的高分辨率像素差别。为了解决这个问题,作者提出了 Swin Transformer [Lui 2021],这是一种分层办法,其示意是应用移位窗口计算。该技术更无效地克服了自注意力部分窗口不重叠的问题。

Chu 等人 [Chu 2021] 探讨了空间留神对于 transformer 在各种工作中的性能胜利的重要性。作者提出了两个简略而高效的体系结构:twin – pcpvt 和 twin – svt。twin -pcpvt 应用可拆散的深度卷积留神机(depth-wise convolution attention machine),又被称为空间拆散自注意力(spatial-separable self-attention – SSSA)。SSSA 应用两种类型的注意力操作:本地分组的自注意力(LSA)和全局次采样的注意力(GSA)。LSA 解决细粒度和短距离信息,而 GSA 则解决长距离序列和全局信息。另一个办法 twin – svt 同时应用 LSA 和带有矩阵乘法的 GSA。

光谱的复杂性

通过将自留神网络替换为混合输入令牌的线性转换,能够设计高效的 transformer 来减速编码器架构。transformer 的自留神层被参数化的傅里叶变换 (Fnet) 取代[Lee-Thorp 2022],而后是一个非线性和前馈网络。与 BERT 相比,该网络速度快 80%,能够达到传统 transformer 性能的 92% 到 97%。

The Global Frequency network(GFnet) [Rao 2022]提出了一种用于令牌混合的深度全局卷积。GFnet 波及三个步骤: 通过疾速傅里叶变换 (FFT) 进行空间令牌混合、频率门控和反 FFT 进行令牌合成。GFnet 不波及信道混合,随着序列长度的减少,对于高像素的图像来说耗费十分大,而且不具备自适应能力。

Guibias 等人 [Guibias 2022] 将令牌混合工作定义为一种操作符学习工作,该工作是学习在有限尺寸空间中连续函数之间的映射。Li 等人 [Li 2020] 探讨了应用傅里叶神经算符 (FNO) 求解偏微分方程(PDE)。FNO 在间断域中工作良好。

将 FNO 利用于高分辨率图像输出的视觉域,须要对 PDE 的 FNO 设计体系结构进行批改。这是因为高分辨路图像因为边缘和其余构造而具备不连续性。信道混合 FNO 与信道大小无关,具备二次复杂度。信道混合权重采纳块对角线构造来解决信道混合问题。作者在 MLP 层的令牌之间共享权重以进步参数效率,并应用软阈值在频域引入稠密性以进行泛化。这些解决方案联合称为自适应傅里叶神经算子(AFNO)。

Bai 等人 [Bai 2022] 提出了 HAT 办法 (High-frequency components via Adversarial Training),该办法在训练阶段对组件进行高频扰动。HAT 办法通过增加对抗性扰动扭转训练图像的高频成分,而后用扭转后的图像训练 ViT [Bai 2022] 模型,这样能够进步模型性能,使模型更鲁棒。

鲁棒性

Shao 等 [Shao 2021] 利剖析了 transformer 模型的鲁棒性。作者应用白盒攻打进行了一个试验。他们察看到与卷积神经网络 (CNNs) 相比,ViT 具备更好的反抗鲁棒性。ViT 特色蕴含低层信息,对反抗攻打提供了优越的鲁棒性,并指出与减少尺寸或减少层数的纯 transformer 模型相比,cnn 和 transformer 的组合具备更好的鲁棒性。他们还发现预训练更大的数据集并不能进步鲁棒性。对于一个持重的模型,状况正好相同。

Bhojanapalli 等人 [Bhojanapalli 2021] 考察了 ViT 模型和 resnet 模型针对反抗实例、天然实例和常见毁坏的各种鲁棒性度量。作者钻研了对输出和模型扰动的鲁棒性。无论是从输出还是从模型中去除任何一层,transformer 都是鲁棒的。

Paul 等人 [Paul 2022] 钻研了 ViT [Dosovitskiy 2020]、cnn 和 Big Transformer[Kolesnikov 2020]办法的鲁棒性。Paul 等人 [Paul 2022] 在 ImageNet 数据集上对 ViTs 的鲁棒性进行了基准测试。后果在表 r 中。通过 6 个试验,作者验证了与 CNN 和 Big Transformer 相比,ViT 在鲁棒性方面有了进步。这些试验的后果包含:

  • 试验 1: 注意力是进步鲁棒性的要害。
  • 试验 2: 预训练的作用很重要。
  • 试验 3:ViT 对图像遮蔽具备较好的鲁棒性。
  • 试验 4: 傅里叶频谱剖析显示 ViT 的灵敏度较低。
  • 试验 5: 对抗性扰动在能量谱中扩散得更广。
  • 试验 6:ViT 对输出扰动有更平滑的损失。

依据 Park 等人 [Park 2022] 的钻研,与 cnn 相比 ViT [Dosovitskiy 2020]在捕捉图像高频成分方面的效率较低。HAT [Bai 2022]是对现有 transformer 模型在频率角度的影响进行进一步钻研的后果。HAT 应用 RandAugment 办法对输出图像的进行高频重量扰动。Wu 等人 [Wu 2022] 钻研了易受反抗实例影响的 transformer 模型的问题。这个问题 (对对抗性噪声的脆弱性) 在 cnn 中是通过对抗性训练来解决的。但在 transformer 中,因为自留神计算的二次复杂度,反抗训练的计算成本很高。AGAT 办法采纳了一种无效的留神疏导反抗机制,在反抗训练过程中应用留神疏导降落策略去除每一层嵌入的确定性补丁。

隐衷

预训练的 transformer 模型部署在云上。基于云的模型部署中的一个次要问题与数据中隐衷问题无关。次要的隐衷问题是用户数据 (如搜寻历史、医疗记录和银行账户) 的裸露。目前的钻研重点是在 transformer 模型推理中爱护隐衷。

论文 [Huang 2020] 介绍了 TextHide,一种爱护隐衷的联邦学习技术,但这种办法实用于基于句子的工作,如机器翻译、情绪剖析、转述生成工作),而不是基于令牌的工作(如名称实体辨认和语义角色标记)。

DP-finetune [Kerrigan 2020]差分隐衷 (DP) 办法容许量化爱护数据敏感性的水平。然而训练 DP 算法会升高模型的品质,然而能够在公有数据集上应用公共根底模型进行调优来局部解决。

Gentry 等人 [Gentry 2009] 提出了一种用 homomorphic encryption(HE)中的密文爱护隐衷的办法。然而 transformer 的模型中 GELU [Hendrycks 2016]激活的计算复杂性,HE 解决方案只反对加法和乘法。

论文 [Chen 2022] 在 transformer 中基于 HE [Boemer 2019, Boemer 2020]的解上提出了一种通过级数迫近的 The – x 办法。the – x 办法在 SoftMax 和 GELU 等层的帮忙下,用一系列近似代替非多项式操作,去掉池器层,增加归一化层,应用常识蒸馏技术。THE- X 办法应用 BERT-Tiny Model 进行评估 [Wang 2018],并对 CONLL2003 [Sang2003] 工作进行了基准测试。

Li 等人 [Li 2022] 应用差分隐衷算法解决了性能降落和高计算开销的问题。这样能够应用更大的预训练语言模型来解决,也能够通过在中等语料库上应用 DP 优化进行微调的对齐预训练过程来进行微调。

近似性

论文 [Ruthotto 2019] 是最早为 ResNets 等深度神经网络提供基于偏微分方程 (PDEs) 的实践根底的论文之一。更具体地说,作者证实了残差 cnn 能够解释为时空微分方程的离散化。在实践表征的根底上,Ruthotto 还提出了具备非凡性质的双曲和抛物线 cnn 等新模型。

残差网络也被解释为常微分方程的欧拉离散化。但欧拉法求解精度不高,因为是一阶办法,存在截断误差。ODE Transformers [Bei 2022]的作者应用了经典的高阶办法 (Runge Kutta) 来构建 Transformer 块。他们在三个序列生成工作上评估了 ODE Transformers。这些工作证实了 ODE 是无效的,包含形象摘要、机器翻译和语法纠正。在这个方向上的另一项致力是 TransEvolve [Dutta 2021],它提供了一个 Transformer 架构,与 ODE 相似,但以多粒子动静零碎为模型。

Transformers 曾经被证实相当于通用计算引擎 [Kevin 2022]。作者提出了一种称为 Frozen pretrain transformer (FPT) 的构造,它能够在繁多模态 (如用于语言建模的文本数据) 上进行训练,并辨认跨模态有用的形象(如特色示意)。他们采纳 GPT,只对自然语言数据进行预训练,并对其输出和输入层以及层归一化参数和地位嵌入进行微调。这使得 FPT 在实现蛋白质折叠预测、数值计算甚至图像分类等各种工作时,能够与齐全从零开始训练的 transformer 进行比拟。

模型压缩

Touvron 等人 [Touvron 2021] 提出了一种基于蒸馏技术 (Deit) 的高效 transformer 模型。它应用一种依赖于蒸馏令牌的师生策略,以确保学生通过注意力从老师那里学习。

Bao 等人 [Bao 2021] 向预训练的 VIT 提出了一个遮蔽图像模型工作。作者提出了一种基于自监督的视觉示意模型,即来自图像 transformer 的双向编码器示意 (BEiT),它遵循了为自然语言解决畛域开发的 BERT [Kenton 2019] 办法。在这种办法中,每个图像被认为是两个视图: 一个是大小为 16 x 16 像素的图像补丁,另一个是离散的可视标记。将原始图像标记为可视标记,并对局部图像补丁进行随机掩码,而后将其馈送给预训练的骨干 transformer。训练 BEiT 后,模型能够针对上游工作进行微调。

援用

[Alexey 2021] Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit and Neil Houlsby.“An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale.”, International Conference on Learning Representation, 2021.

[Ashish 2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17). Curran Associates Inc., Red Hook, NY, USA, 6000–6010.

[Bai 2022]Bai, Jiawang, Liuliang Yuan, Shutao Xia, Shuicheng Yan, Zhifeng Li and W. Liu.“Improving Vision Transformers by Revisiting High-frequency Components.”Accepted to European Conference on Computer Vision 2022, available from https://arxiv.org/abs/2204.00…

[Beltagy 2020] Beltagy, I., Peters, M. E., and Cohan, A.,“Longformer: The Long-Document Transformer”, arXiv e-prints, 2020.

[Bei 2022] Bei Li, Quan Du, Tao Zhou, Yi Jing, Shuhan Zhou, Xin Zeng, Tong Xiao, Jingbo Zhu, Xuebo Liu, Min Zhang,“ODE Transformer: An Ordinary Differential Equation-Inspired Model for Sequence Generation”, 60th Annual Meeting of the Association of Computational Linguistics (ACL) (1) 2022: 8335–835.

[Bhojanapalli 2021] Bhojanapalli, S., Chakrabarti, A., Glasner, D., Li, D., Unterthiner, T., Veit, A.: Understanding robustness of transformers for image classification. In: Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 10231–10241 (2021).

[Boemer 2019] Boemer, F., Lao, Y., Cammarota, R., Wierzynski, C.: ngraph-HE: a graph compiler for deep learning on homomorphically encrypted data. In: Proceedings of the 16th ACM International Conference on Computing Frontiers, pp. 3–13 (2019).

[Boemer 2020] Boemer, F., Cammarota, R., Demmler, D., Schneider, T., Yalame, H.: Mp2ml: A mixed-protocol machine learning framework for private inference. In: Proceedings of the 15th International Conference on Availability, Reliability and Security, pp. 1–10 (2020).

[Chen 2022] Chen, T., Bao, H., Huang, S., Dong, L., Jiao, B., Jiang, D., Zhou, H., Li, J., Wei, F.: The-x: Privacy-preserving transformer inference with homomorphic encryption. In: Findings of the Association for Computational Linguistics: ACL 2022, pp. 3510–3520 (2022)

[Chu 2021] Chu, Xiangxiang & Tian, Zhi & Wang, Yuqing & Zhang, Bo & Ren, Haibing & Wei, Xiaolin & Xia, Huaxia & Shen, Chunhua. (2021). Twins: Revisiting Spatial Attention Design in Vision Transformers, NeurIPS 2021.

[Dosovitskiy 2020] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16×16 words: Transformers for image recognition at scale. In: International Conference on Learning Representations (2020).

[Dutta 2021] Subhabrata Dutta, Tanya Gautam, Soumen Chakrabarti, Tanmoy Chakraborty: Redesigning the Transformer Architecture with Insights from Multi-particle Dynamical Systems. NeurIPS 2021: 5531–5544.

[Gentry 2009] Gentry, C.: Fully homomorphic encryption using ideal lattices. In: Proceedings of the Forty-first Annual ACM Symposium on Theory of Computing, pp. 169–178 (2009)

[Guibas 2021] Guibas, J., Mardani, M., Li, Z., Tao, A., Anandkumar, A., Catanzaro, B.: Efficient token mixing for transformers via adaptive Fourier Neural operators. In: International Conference on Learning Representations (2021).

[Hendrycks 2016] Hendrycks, D., Gimpel, K.: Bridging nonlinearities and stochastic regularizers with gaussian error linear units (2016).

[Huang 2020] Huang, Y., Song, Z., Chen, D., Li, K., Arora, S.: Texthide: Tackling data privacy in language understanding tasks. In: Findings of the Association for Computational Linguistics: EMNLP 2020, pp. 1368–1382 (2020).

[Hugo 2021] Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A. & Jegou, H. (2021). Training data-efficient image transformers distillation through attention, Proceedings of the 38th International Conference on Machine Learning, in Proceedings of Machine Learning Research, 139:10347–10357 Available from https://proceedings.mlr.press…

[Kevin 2022] Kevin Lu, Aditya Grover, Pieter Abbeel, Igor Mordatch,“Frozen Pretrained Transformers as Universal Computation Engines,”Association for Advancement of Artificial Intelligence, AAAI 2022.

[Kerrigan 2020] Kerrigan, G., Slack, D., Tuyls, J.: Differentially private language models benefit from public pre-training. In: Proceedings of the Second Workshop Springer Nature 2021 LATEX template Survey on Efficient Transformers: Model, Datasets, and Evalution methods 25 on Privacy in NLP, pp. 39–45 (2020).

[Kolesnikov 2020] Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N.: Big transfer (bit): General visual representation learning. In: European Conference on Computer Vision, pp. 491–507 (2020). Springer.

[Lee-Thorp 2022] Lee-Thorp, J., Ainslie, J., Eckstein, I., Ontanon, S.: Fnet: Mixing tokens with Fourier Transforms, Proceedings of the North Americal Chapter of Association for Computational Linguistics NAACL, 2022.

[Li 2020] Li, Z., Kovachki, N.B., Azizzadenesheli, K., Bhattacharya, K., Stuart, A., Anandkumar, A., et al.: Fourier neural operator for parametric partial differential equations. In: International Conference on Learning Representations (2020).

[Li 2022] Li, X., Tramer, F., Liang, P., Hashimoto, T.: Large language models can be strong differentially private learners. In: International Conference on Learning Representations (2022).

[Liu 2021] Liu, Ze, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo.“Swin transformer: Hierarchical vision transformer using shifted windows.”In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 10012–10022. 2021.

[Manzil 2020] Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, and Amr Ahmed. 2020. Big bird: transformers for longer sequences. In Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS’20). Curran Associates Inc., Red Hook, NY, USA, Article 1450, 17283–17297.

[Park 2022] Park, Namuk and Songkuk Kim.“How Do Vision Transformers Work?”ArXiv abs/2202.06709 (2022), proceedings of International Conference on Learning Representations (ICLR 2022).

[Paul 2022] Paul, S., Chen, P.-Y.: Vision transformers are robust learners. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, pp. 2071–2081 (2022).

[Rao 2021] Rao, Y., Zhao, W., Zhu, Z., Lu, J., Zhou, J.: Global filter networks for image classification. Advances in Neural Information Processing Systems 34, 980–993 (2021).

[Ruthotto 2019] Ruthotto, L., & Haber, E. (2019). Deep Neural Networks Motivated by Partial Differential Equations. Journal of Mathematical Imaging and Vision, 62, 352–364.

[Sang 2003] Sang, E.T.K., De Meulder, F.: Introduction to the conll-2003 shared task: Language-independent named entity recognition. In: Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003, pp. 142–147 (2003).

[Shao 2022] Shao, Rulin, Zhouxing Shi, Jinfeng Yi, Pin-Yu Chen and Cho-Jui Hsieh.“On the Adversarial Robustness of Vision Transformers.”ArXiv abs/2103.15670 (2021).

[Sinong 2020] Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma: Linformer: Self-Attention with Linear Complexity. CoRR abs/2006.04768 (2020).

[Stanislaw 2020] Stanislaw Jastrzebski, Maciej Szymczak, Stanislav Fort, Devansh Arpit, Jacek Tabor, Kyunghyun Cho, Krzysztof J. Geras: The Break-Even Point on Optimization Trajectories of Deep Neural Networks. CoRR abs/2002.09572 (2020).

[Tay 2021a] Tay, Yi, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, and Donald Metzler.“Long range arena: A benchmark for efficient transformers.”International Conference on Learning Representations (2021).

[Tay 2022] Yi Tay, Mostafa Dehghani, Dara Bahri, and Donald Metzler. 2022. Efficient Transformers: A Survey. ACM Computing Surveys, Just Accepted (April 2022). https://doi.org/10.1145/3530811

[Wang 2018] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., Bowman, S.R.: Glue: A multi-task benchmark and analysis platform for natural language understanding. In: International Conference on Learning Representations (2018).

[Wang 2021] Wang, Wenhai, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao.“Pyramid vision transformer: A versatile backbone for dense prediction without convolutions.”In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 568–578. 2021.

[Wei 2022] Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., & Fedus, W. (2022). Emergent Abilities of Large Language Models. ArXiv, abs/2206.07682.

[Wu 2022] Wu, B., Gu, J., Li, Z., Cai, D., He, X., Liu, W.: Towards efficient adversarial training on vision transformers. arXiv preprint arXiv:2207.10498 (2022).

[Yu 2022] Yu, D., Naik, S., Backurs, A., Gopi, S., Inan, H.A., Kamath, G., Kulkarni, J., Lee, Y.T., Manoel, A., Wutschitz, L., et al.: Differentially private fine-tuning of language models. In: International Conference on Learning Representations (2022).

[Ze 2021] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proc. IEEE International Conference Computer Vision, pages 10012–10022, 2021.

https://avoid.overfit.cn/post/5f3133d94003428d95c54ef8ef8b2cda

作者:Dr. Vijay Srinivas Agneeswaran

退出移动版