共计 890 个字符,预计需要花费 3 分钟才能阅读完成。
Facebook AI Research(FAIR)开源了 Expire-Span,这是一种深度学习技术,能够学习输出序列中哪些项目应该被记住,从而升高 AI 的内存和计算要求。FAIR 表明,纳入 Expire-Span 的 Transformer 模型能够扩大到数万个我的项目的序列,与以前的模型相比,性能有所提高。
该钻研小组在行将举办的国内机器学习会议(ICML)上发表的一篇论文中形容了该技术和几个试验。Expire-Span 容许程序人工智能模型 “ 遗记 “ 那些不再相干的事件。当纳入自我关注模型,如 Transformer,Expire-Span 缩小了所需的内存量,使模型可能解决更长的序列,这是进步许多工作性能的要害,如自然语言解决(NLP)。应用 Expire-Span,该团队训练的模型能够解决高达 128k 的序列,比以前的模型多了一个数量级,与基线相比,准确性和效率都有所提高。钻研科学家和论文合著者 Angela Fan 和 Sainbayar Sukhbaatar 在 FAIR 的博客上写道。
Facebook 示意:作为咱们钻研更像人类的人工智能零碎的下一步,咱们正在钻研如何将不同类型的记忆融入神经网络。因而,从久远来看,咱们能够使人工智能更靠近人类的记忆,具备比以后零碎更快的学习能力。咱们置信 Expire-Span 是一个重要的、令人兴奋的提高,朝着这种将来的人工智能驱动的翻新迈进。
为了评估 Expire-Span 的性能,该团队抉择了三种基线 Transformer 模型 –Transformer-XL、Compressive Transformer 和 Adaptive-Span– 并比拟了模型的准确性以及 GPU 内存和训练速度。这些模型被用于几个强化学习(RL)和 NLP 工作。Expire-Span 在大多数试验中的体现优于基线;例如,在序列复制工作中,Expire-Span 扩大到 128k 的序列长度,达到 52.1% 的准确率,而 Transform-XL 在 2k 的序列长度上只有 26.7% 的准确率。
Expire-Span 我的项目 GitHub 地址:https://github.com/facebookre…