共计 6253 个字符,预计需要花费 16 分钟才能阅读完成。
随着最大的人工智能钻研会议 (NeurIPS 2022) 行将到来,咱们进入了 2022 年的最初阶段。让咱们回顾一下人工智能世界最近产生了什么。
在介绍举荐论文之前,先说一个很有意思的我的项目:
img-to-music: 设想图像听起来是什么样的模型! https://huggingface.co/spaces…。有趣味的能够看看。
上面咱们开始介绍 10 篇举荐的论文。这里将涵盖强化学习(RL)、扩散模型、主动驾驶、语言模型等主题。
1、Scaling Instruction-Finetuned Language Models
https://arxiv.org/abs/2210.11416
Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay et al.
一年前 Google 的 FLAN¹ 展现了如何通过将带标签的 NLP 示例从新表述为自然语言指令并将它们蕴含在预训练语料库中来进步语言模型 (LM) 的通用性。这篇论文则扩充该技术利用。
OpenAI 驰名的 GPT 系列的模型的一个胜利要害是应用未标记数据进行训练。但这并不意味着自回归 LM 不能应用标记数据进行训练:正文能够注入到模型的训练中而无需任何架构更改。这里的要害思维是:不是让分类头为输入输出标签,而是将带标签的例子从新表述为用自然语言编写的指令。例如,能够将带有标签的情感分类示例转换为具备以下模板的语句:
文本:The film had a terrific plot and magnific acting. 标签[POSITIVE]
改为:
The film [is good because it] had a terrific plot and magnific acting.
这里有一个问题,就是要将零样本性能与 GPT-3 等齐全自监督模型进行比拟,必须确保评估中应用的工作不蕴含在训练集中!(也就是数据泄露的问题)
最后的 FLAN 论文在 137B 参数模型上,应用了有来自几十个 NLP 工作的 30k 额定指令展现了这种技术的弱小性能。在本文中,他们通过将 (1) 工作数量扩大到 1836,(2) 模型大小扩大到 540B 参数,以及 (3) 增加思维链提醒来进入下一个级别。
结果表明,增加指令会进步性能,尤其是对于较小的模型,但模型规模依然是最大的因素。
残缺的模型在谷歌的 Research Github Repository 上公开公布:
https://github.com/google-res…
2、Recitation-Augmented Language Models
https://arxiv.org/abs/2210.01296
Zhiqing Sun, Xuezhi Wang, Yi Tay, Yiming Yang, and Denny Zhou.
提醒技术还在持续扩大预训练的语言模型的能力,而不须要新的简单的建模技术。
检索加强语言模型(Retrieval Augmented Language Models)³通常从语料库中检索段落,并将它们作为文本附加到提醒文本中。这使它们更加高效和正确,但代价是减少了训练和施行的复杂性。
RECITE 是语言模型是 prompting 的一个新版本,通过提醒模板使模型在生成答案之前从记忆中找到其训练语料库中的相干段落。通过在蕴含训练语料库段落的提醒中提供示例,模型通常会正确地找到其中的确切段落。
这种办法利用了大型 lm 的记忆能力,无需从语料库中进行显式检索,进步了答复问题的性能,。与之前现成的高级提醒技术 chain-of-thought²相似。
但有一个重要的问题! 这种办法不会开箱即用。为了让它运行良好通常须要多路径解码⁴,这包含在给定提醒的状况下对多个后果进行采样,而后依据多数票抉择答案,并且采样更多路径通常会带来更好的性能,但毛病是更高的推理老本。
3、Toward Next-Generation Artificial Intelligence: Catalyzing the NeuroAI Revolution
https://arxiv.org/abs/2210.08340
Anthony Zador and 26 other renowned researchers in AI and Neuroscience.
人工智能的创始人物,如 Turin 或 Minsky,是出于对大脑如何工作以及机器如何复制大脑的方向进行钻研的。相比之下古代 ML 从业者大多是以计算机科学家、逻辑学家和统计学家的身份思考,与大脑工作原理的钻研脱节。该畛域会从更严密的单干中受害吗?
更好地理解大脑将提供对如何构建智能机器的见解的想法并不陈腐,因为人脑和人工智能从一开始就分割在一起的。这个实践强调了人工智能的现有挑战,特地是在以正当的形式与世界互动方面。只管语言是常常描绘成人类智慧的高峰, 但学习人类感官能力还远未解决,但自然语言生成始终有惊人的停顿。
更好地了解神经计算将揭示智能的基本成分,并催化人工智能的下一次反动。
作为对这一挑战的回应,论文的作者倡议将具象图灵测试作为原始图灵测试的继承者: 一个更全面的测试,包含评估除显式推理能力外的感官技能。
解决下一代图灵测试的路线图依赖于 3 个次要支柱。(1)一个对两个畛域等同器重的人工智能课程,这样新一代的人工智能钻研人员就像看待神经科学一样看待计算机科学,(2)一个测试代理的共享平台,(3)减少对神经计算基础理论钻研的赞助。
4、You Only Live Once: Single-Life Reinforcement Learning
https://arxiv.org/abs/2210.08863
Annie S. Chen, Archit Sharma, Sergey Levine, and Chelsea Finn.
代理在部署时是否即时适应新环境?对于须要代理在看不见的环境中体现良好的问题,情景强化学习可能不是一个适合的框架。
论文作者制订了一个强化学习的模式,这是一种在看不见的环境中测试代理运行成果的范例。作者还提出了一种新算法,即 Q 加权对抗性学习 (QWALE),它应用“distribution matching”来利用以前的教训作为新状况下的领导。他们的办法大大优于基线,但与大多数具备范式挑战性的工作一样,目前尚不分明评估的抉择是否是为提出的特定模型量身定制的。
然而无论如何这种 RL 范式与零样本学习和泛化有乏味的相似之处,这些都是 ML 中越来越受欢迎的畛域,因为古老的监督学习技术的脆弱性曾经被发现。single-shot RL 会成为 RL 论文中必须蕴含的新评估机制吗?让咱们刮目相待
5、Model-Based Imitation Learning for Urban Driving
https://arxiv.org/abs/2210.07729
Anthony Hu, Gianluca Corrado, Nicolas Griffiths, Zak Murez, Corina Gurau, Hudson Yeo, Alex Kendall, Roberto Cipolla, and Jamie Shotton.
主动驾驶性能的飞跃(在模仿环境中!)
从与世界的互动中在线学习与从演示 (模拟学习) 中离线学习是 RL 中最根本的划分之一。狭义上讲,前者是持重但低效的,后者是高效但软弱的。
本文在 CARLA 35 模拟器上对模拟学习在主动驾驶中的利用进行了钻研。模拟学习的提高特地有用,因为它们能够更好地转化为事实世界所用。在事实世界中在线学习驾驶政策通常是十分危险和低廉的。没人违心每一次重置环境就买一辆新车!
论文提出的模型 (MILE) 通过尝试推断哪些潜在特色导致了训练中提供的专家察看后果,从而学习潜在空间中的世界动静。能够在下图中找到模型工作原理的概述。
MILE 在域外评估方面尤其突出: 例如数据集中不蕴含的的城镇路线和天气条件。
6、DreamFusion: Text-to-3D using 2D Diffusion
https://arxiv.org/abs/2209.14988
Ben Poole, Ajay Jain, Jonathan T. Barron, and Ben Mildenhall.
扩散模型的迅速崛起超过了以前的简略的文本到图像生成。
3D 生成是艰难的,因为不像 2D 图像没有那么多的 3D 模型来训练端到端 3D 生成器。在这项工作中,论文作者通过利用现有 2D 图像生成器来疏导 3D 物体的生成,从而绕过了这一限度。
应用 Score Distillation Sampling(SDS)。这种办法容许将 2D 文本到图像模型的输入转换为任何参数空间——例如 3D 模型(只有转换是可微的)。为了从文本合成一个场景,该办法随机初始化一个 NeRF 模型,并从不同的摄像机地位和角度为该 NeRF 反复渲染视图,而后应用这些渲染图作为扩散模型 +SDS 损失的输出再通过 NeRF 反向流传。这些视图看起来像乐音,但通过足够的扩散步骤,它们最终可能正确地示意 3D 对象的视图。
官网提供了演示:https://dreamfusion3d.github.io/,还有一个非官方的开源实现:https://github.com/ashawkey/s… 有趣味的能够看看,还挺好玩的
7、Imagic: Text-Based Real Image Editing with Diffusion Models
https://arxiv.org/abs/2210.09276
Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, Michal Irani.
应用扩散模型进行 p 图
扩散模型的弱小利用又被发现了:能够进行特定的图像编辑,例如条件修复或格调转移。这项工作展现了对图像利用不受约束的、简单的、语义相干的、文本疏导的编辑的能力。
该技术依赖于在输出图像和指标图像之间的嵌入空间的内插值。首先它们对齐文本和图像嵌入,这样在给定解冻的预训练扩散模型的状况下,类似的嵌入会产生类似的图像生成。而后在对齐嵌入上对扩散模型进行微调,最初对指标和对齐嵌入进行©插值,生成编辑后的图像。
这是一个十分有意思的我的项目,惋惜目前没有找到代码和演示
8、GoalsEye: Learning High-Speed Precision Table Tennis on a Physical Robot
https://arxiv.org/abs/2210.03662
Tianli Ding, Laura Graesser, Saminda Abeyruwan, David B. D’Ambrosio, Anish Shankar, Pierre Sermanet, Pannag R. Sanketi, Corey Lynch.
这是模拟学习的又一展现,它能够将杰出的性能转移到物理机器人上。
目前 RL 的最大挑战之一是让它们在真实世界中工作,而不是在模仿环境中。这一点尤其相干——正如咱们刚刚在主动驾驶汽车的论文种所提到的——因为 RL 中的在线学习通常在物理世界中是不可实现的: 它依然是效率低下的,并且咱们的设施会坏太屡次。
本文展现了如何应用迭代监督模拟学习来教机器人打网球,行将自我对弈与指标导向行为克隆相结合。论文胜利的要害是:(1) 从一个非指标导向的疏导数据集开始,该数据集展现了机器人刚刚击球的演示,这样能够改善低效的初始摸索阶段。(2) 而后从新标记指标条件行为复制(例如,记录球的击打形式和落地地位,而后将其用作指标)。(3) 以击中目标导向的迭代自监督游戏。
9、MTEB: Massive Text Embedding Benchmark
https://arxiv.org/abs/2210.07316
Niklas Muennighoff, Nouamane Tazi, Loïc Magne, and Nils Reimers.
因为目前已有大量现成的 NLP 嵌入模型,在其中进行抉择已成为一项挑战。这项工作则改善了这个过程。
泛化语言嵌入十分受欢迎的次要起因之一是其方便性: 在将文本转换为向量之后,执行诸如分类、语义类似、检索或聚类等 NLP 工作变得很容易。然而,让一个嵌入来统治所有工作还远远没有实现,这就是为什么对各种工作进行基准测试是为通用用例找到最佳模型的要害。
论文提出的基准由 8 个嵌入工作组成,笼罩了总共 56 个数据集和 112 种语言,并思考了 4 个根本准则:
- 多样性(8 个工作): 分类、聚类、配对分类、重排序、检索、语义文本相似性和摘要。
- 简略性: 基准能够通过即插即用的 API 拜访。
- 可扩展性: 有一个特定的语法和过程,能够通过 HuggingFace hub 轻松地向现有基准测试增加新数据集。
- 可复现性: 版本控制是该基准的发行版的一个内置个性,使得在基准的任何版本上从新运行任何评估成为可能。
论文结果显示了基于 transformer 的古代模型如何优于 GloVe 等经典模型,但也显示了性能如何经常以速度为代价,这对某些应用程序来说是不可承受的。能够在 HuggingFace 排行榜上查看最新的后果。
https://huggingface.co/spaces…
10、High Fidelity Neural Audio Compression
https://arxiv.org/abs/2210.13438
Alexandre Défossez, Jade Copet, Gabriel Synnaeve, and Yossi Adi.
压缩算法是互联网的面包和黄油。通过多年对神经编解码器的钻研,它们不仅在品质上而且在便捷性上都在追赶经典的计划。
Meta 提出的压缩音频的办法是由一个量化的主动编码器组成,训练联合了重建和反抗损失。重建损失既存在于原始音频信号上,也存在于 mel 谱图上,而反抗损失来自于鉴别器,它须要对压缩示意和生成的音频是否互相对应进行分类。最初在量化示意上减少一个额定的正则化损失来避免量化对压缩示意的适度扭转。
这个办法不是特地新鲜,但却通过了高度优化和并且泛化性十分好,能够在正当的音频品质下实现的压缩增益。音频编码到 6kbps,放弃与 64kbps mp3 编解码器相当的品质,而解码大概是 10 倍的实时因子。
性能并不是影响压缩编解码器的惟一因素,便捷性是经典编解码器难以超过的中央。从 Meta 对于这项钻研的来看,他们认为这是一项要害的使能技术,能够实现他们波及 Metaverse 的更宽泛的公司使命,所以咱们预计该公司将鼎力推动很快在生产中应用这些模型。
最初本文提到其余论文的援用:
[1]“Finetuned Language Models Are Zero-Shot Learners”by Jason Wei et al, 2021.
[2]“Chain of Thought Prompting Elicits Reasoning in Large Language Models”by Jason Wei et al, 2022.
[3]“REALM: Retrieval-Augmented Language Model Pre-Training”by Kelvin Guu et al. 2020.
[4]“Self-Consistency Improves Chain of Thought Reasoning in Language Models”by Xuezhi Wang et al. 2022.
https://avoid.overfit.cn/post/25ce9e587880476486c151a2920d37e6
作者:Sergi Castella i Sapé
https://pub.towardsai.net/10-…