乐趣区

关于人工智能:2023年3月的10篇论文推荐

三月有很多的重大产品公布,包含刚刚公布的 GPT4,还有 Meta 刚公布就被泄露的 LLaMA,midjourney V5,还有 ChatGPT 的 API(十分便宜)等等。

然而本文整顿的是本月应该浏览的 10 篇论文,将包含多模态语言模型、扩散模型、机器翻译等主题。

1、LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample

https://arxiv.org/pdf/2302.13971

开源的 LLaMA,并且凋谢了模型权重,然而须要申请才能够下载,不过有网友曾经将它全副公开下载了,这对咱们来说是个坏事。这个模型在超过一万亿令牌上进行训练,次要包含以下几个模型:

这些模型是在齐全公开的数据上进行训练的,它们在各种 QA 和常识推理工作中都能在零样本和少样本中获得杰出的体现。

这些开源的模型既没有通过微调,也没有 RLHF 化,所以还须要咱们自行调教,这也正好适宜咱们的弯道超车,下载地址咱们以前曾经公布过了,有趣味的能够去看看。

2、Consistency Models

Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever.

https://github.com/cloneofsimo/consistency_models

扩散模型的计算是十分耗时的,因为他们须要解码输入迭代屡次,使其比一次向前传递所容许的更具表现力。但这使得它们很慢,不像 GANs、vae 那样。

这个论文提出学习一个模型,该模型预测在任意深度程度上扩散过程的输入(见下图)。

构建这些模型的要害是意识到任何跳跃 f(x, t) 都须要与其步骤的组合保持一致;当从噪声到数据时,不同的跳跃须要以雷同的图像完结;这就是他们须要保持一致,所以才叫 Consistency Models。

在之前的 Progressive Distillation 钻研中曾经展现了一种将扩散模型提炼成须要更少解码步骤(例如,只有 4 个)的办法,但在本文中,提出了一种训练独立一致性模型的办法。

3、PaLM-E: An Embodied Multimodal Language Model

Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence.

https://arxiv.org/abs/2303.03378

这时 google 的多模态模型,为了编码图像,他们应用视觉转换器 (ViT) 和编码文本 PaLM,模型菜蔬高达 5620 亿个(别离为 22B + 540B)。

尽管这项工作标榜本人是端到端的解决方案,但事实是依然重大依赖于传统技术,而且语言模型只提供高级动作指令。

4、In-context Instruction Learning

Seonghyeon Ye, Hyeonbin Hwang, Sohee Yang, Hyeongu Yun, Yireun Kim, Minjoon Seo.

https://arxiv.org/abs/2302.14691

指令调优是一种以自然语言指令格局在训练语料库中蕴含标记数据集的技术,该技术已被证实能够推广到训练任务之外的新工作,并在人类给出指令时使 lm 更可用。

本文钻研了当在提醒中这样做时会产生什么; 给模型提供各种其余语言工作的例子,而后提醒执行一个新的工作,而不是增加手头工作的例子(即大量学习)。这再次证实了非常复杂的信息能够通过上下文学习引入

5、How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation

Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, and Hany Hassan Awadalla.

https://arxiv.org/abs/2302.09210

ChatGPT 最不受器重的技能之一是翻译。论文将测试 GPT 模型的性能是否靠近 SOTA 和传统机器翻译模型,并发现现有的神经机器翻译和基于 GPT 的翻译显示出互补的劣势。

思考到 GPT 没有在并行语料库上进行训练,它防止了常见的缺点,如噪声或低质量样本的数据记忆问题,或长尾谬误,如物理单位或货币的翻译等。

翻译性能在很大水平上来自于无监督的润饰、指令调优和 RLHF,而 RLHF 并不是特地针对翻译的,然而获得的后果令人印象粗浅和兴奋。

6、Composer: Creative and Controllable Image Synthesis with Composable Conditions

Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou.

https://arxiv.org/abs/2302.09778

扩散模型的根本劣势之一是在应用条件数据进行训练时的便利性,这就是为什么它们在文本疏导中如此胜利。这项工作将可控性晋升到了一个新的高度。作者开发了一种办法,容许在图像生成过程中管制更宽泛的图像属性: 空间布局、调色板、格调、强度等。

组合性是该模型背地的核心思想,它将图像合成为具备代表性的因子,而后在这些因子的条件下应用扩散模型重新组合输出。图像合成的元素包含题目 (文本)、语义和格调(通过 CLIP 嵌入)、色彩(通过直方图统计)、草图(通过边缘检测模型)、实例(对象宰割)、深度图(通过预训练的单目模型)、强度(通过灰度图像) 和掩蔽。图像生成能够依据所有这些属性进行调整,并且能够应用之前的输入作为新的条件输出进行迭代优化。

这项工作展现了如何设计图像生成技术来更多地管制人类的创造力,并晋升发明过程。

8、Prismer: A Vision-Language Model with Multi-Modal Experts

Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar

https://arxiv.org/abs/2303.02506

专家系统的回归? 这篇论文采纳了一种相当结构化的多模态语言建模办法,并带来了一些令人信服的益处:

  • 该论文采纳结构化办法进行多模态语言建模,与其余模型相比,在缩小一到两个数量级的数据的状况下实现了可比的性能。
  • “专家”是指在解决图像时输入深度图或对象宰割等信息的解冻计算机视觉模型。只有适配器经过训练,容许设计与其余黑盒视觉模型即插即用。
  • 最大的 Prismer 模型有 1.6B 个参数,只有 360M 个可训练参数,性能低于大型模型但效率更高。
  • Prismer 对带有噪声的“专家”体现出很强的鲁棒性,并随着更多 / 更高质量的专家而改良,表明它在大规模多模态学习中的实用性。

总的来说,本文提出了一种无效的技术,能够在不升高性能的状况下平安地包含许多模态专家,从而实现一种实用的办法来放大多模态学习。

8、Augmented Language Models: a Survey

Grégoire Mialon, Roberto Dessì, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Rozière, Timo Schick, Jane Dwivedi-Yu, Asli Celikyilmaz, Edouard Grave, Yann LeCun, Thomas Scialom.

https://arxiv.org/abs/2302.07842

LM 在持重推理和准确性方面的局限性是家喻户晓的,这就是为什么有一个沉闷的钻研畛域通过计算设施来加强它们的能力,例如,LM 应用编译和运行生成的代码,或调用任意 API 来收集数据。

检索加强生成 (RAG) 是最常见的案例之一(咱们在咱们的平台上应用它,Bing 和 Google 都在踊跃致力于此)。例如,这里有 4 个钻研检索加强 LM(RAG)以及比照:

该考察提出的一个乏味的观点是,应用工具和显式构造加强 lm 使其更具可解释性,因为它们的输入能够显式地归因于其模块,这使它们更适宜人类应用。

9、Symbolic discovery of optimization algorithms

Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, Yifeng Lu, Quoc V. Le.

https://arxiv.org/abs/2302.06675

Adam 始终是咱们默认的优化器,Lion 能够利用符号搜寻来学习一个训练器函数,该函数输入给定权重、梯度和网络的学习率的更新权重值。这里的学习优化器不是通过梯度降落学习的,而是通过符号发现学习的。这种办法在论文中展现的试验中成果十分好,与 Adam 等优化器相比,能够实现大概 2 倍的训练速度。

Lion 咱们曾经在前几天优化器的文章中介绍了,集体测试成果并不好,反正我当初是应用 LookaHead + RAdam,各位需要的话请自行测试。

10、MarioGPT: Open-Ended Text2Level Generation through Large Language Models

Shyam Sudhakaran, Miguel González-Duque, Claire Glanois, Matthias Freiberger, Elias Najarro, Sebastian Risi.

https://arxiv.org/abs/2302.05981

应用 GPT- 2 生成马里奥兄弟世界。作者通过将《马里奥兄弟》中的元素标记成角色并训练基于文本提醒的语言模型来实现程序内容生成(PCG,即基于算法生成游戏内容的想法)。

他们通过进化计算进一步减少了生成关卡的多样性,将 MarioGPT 嵌入到离奇搜寻循环中,对现有关卡进行采样,更改,并利用抉择规范来保留或抛弃它们。

后果关卡 88% 的工夫是可玩的,并通过文本提醒还能够进步可控性。这只是一个令人兴奋的开始,潜在的更具表现力和个性化的游戏体验!

https://avoid.overfit.cn/post/f1efb21c3ca54c9aa266aa9a623a42f6

作者:Sergi Castella i Sapé

退出移动版