关于人工智能:2023年4月的12篇AI论文推荐

55次阅读

共计 6169 个字符，预计需要花费 16 分钟才能阅读完成。

GPT- 4 公布仅仅三周后，就曾经随处可见了。本月的论文举荐除了 GPT- 4 以外还包含、语言模型的利用、扩散模型、计算机视觉、视频生成、举荐零碎和神经辐射场。

https://arxiv.org/abs/2303.08774

Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang.

GPT-4 在上个月始终是无可争议的明星。这篇评估报告蕴含了 GPT-4 试验的样本和操作。论文中一个有意思的事件是在 TikZ (LaTeX) 中绘制独角兽的能力如何随着工夫的推移而改良，而模型仍在踊跃开发中。

这份长达 155 页的评估报告涵盖了宽泛的主题，例如多模式能力、数学推理、编码、人际互动和社会影响。作者认为 GPT-4 体现出的一些行为能够被标记为个别智能，同时抵赖其局限性和正告。

https://arxiv.org/abs/2303.03846

Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, Denny Zhou, Tengyu Ma.

大型语言模型中简单语境学习的呈现引起了大家的趣味。本文深入研究了大型语言模型中一些小众但很有意思的性能，这些性能在小型语言模型中是不存在的。

大型模型领有独特的能力，小型模型根本无法复制，无论投入多少数据和精力。例如，大型模型能够在提醒内学习翻转标签和学习新的映射，例如反转句子的情感标签(例如，踊跃的句子被标记为消极的)。

大型模型学习翻转标签，而小型模型则保持事后训练好的常识，持续将正标记为正，将负标记为负。
语义无关标签 (SUL) 随着规模的扩充而呈现，其中模型用非单词的标记标记事物。
指令调优模型增强了语义先验的应用和学习输出标签映射的能力，然而更强调前者。

https://arxiv.org/abs/2303.11366

Noah Shinn, Beck Labash, Ashwin Gopinath.

将 LM 嵌入自我改良循环的技术十分风行！咱们人类并不总是在第一次尝试时就把事件做好。为了解决问题，咱们通常依赖于尝试一条推理门路，而后在它齐全开展后验证它的有效性。如果没有，咱们会尝试纠正它，直到整件事件都变得有意义。而传统自回归 LM 没有这样的能力。

钻研人员发现，为 LM 装备相似的机制能够进步它们的性能。简略地说，提醒一个 LM，而后要求它反思它的输入并在必要时进行更正。这能够嵌入到一个环境中，LM 能够晓得一个答案或操作是否正确，而后尝试改良它，直到正确为止。

后果还是不错的

其余相似的论文还有《Self-Refine: Iterative refine with Self-Feedback》(更专一于指令遵循而不是问题解决)，和《Language Models can Solve Computer Tasks》(专一于做面向指标的布局)，它们遵循相似的“生成 - 批评 - 修复”反馈循环，次要基于启发式和模板化的自然语言，这也能够证实，现有的 lm 能够被视为一个新的平台，在其上构建货色，咱们只是涉及了可能的外表。

https://arxiv.org/abs/2303.04129

Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, Pieter Abbeel, Dale Schuurmans.

LM 仿佛是一种十分有用的灰盒计算引擎。它们能够利用于语言以外的各种事物，例如决策。作者思考了在能够采取行动并察看处分的环境中嵌入根底模型的个别状况。他们确定了 FM 可用于决策环境的几个角度：作为生成模型、示意学习者、代理或环境。

与强化学习 (RL) 中应用的特定于工作的交互式数据集相比，用于训练 FM 的视觉和语言畛域的宽泛数据集通常在模式和构造上有所不同。例如，视频数据集通常不足明确的动作和处分标签，而这些是强化学习的重要组成部分。因为大多数用于决策模型的 FM 被概念化为通过行为克隆（如离线 RL）训练马尔可夫决策过程（MDP），这可能导致整个动作状态空间的覆盖率很低，实践上能够与 RL 微调，但最终在实践中很难。本文强调了弥合这一差距以加强 LM 在决策工作中的适用性的必要性。

https://arxiv.org/abs/2303.10130

Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock.

咱们常常听到对于人工智能将对待业市场产生影响的热门话题。这篇论文试图为各种职业量化这一点。

通过观察历史上支流将来主义者在预测哪些事件难以自动化以及 AI 将首先学习做什么方面体现得如许蹩脚来作为序言。而后量化了应用 LM 的不同工作的生产力收益。

咱们的分析表明，通过取得 LLM，美国大概 15% 的工人工作能够在雷同品质程度下更快地实现。当合并构建在 LLM 之上的软件和工具时，这一份额减少到所有工作的 47% 到 56%。

论文里定义实现沉重工作的要害概念是“Exposure”，它被定义为拜访 LLM 零碎能够将人类执行特定工作所破费的工夫缩小至多 50% 的水平。不过，Exposure 的影响仍不分明：进步生产率和减少工资？缩小可用职位？都算作 Exposure 然而具体哪一个还没有论断，论文里有一些数据表明在不同工作中应用 LM 辅助性能有多大的相关性。

https://arxiv.org/abs/2303.07345

Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau.

高级的 AICG 最令人兴奋的中央在于它将如何实现全新的人机交互范式。本文提出了一种在应用扩散模型编辑图像时进行这种交互的办法。

作者介绍了一种称为擦除稳固扩散 (ESD) 的技术，该技术仅应用“不须要的”概念形容来微调模型的参数，而无需额定的训练数据。这种特地的办法能够很容易地集成到任何预训练的扩散模型中。例如，给定一张有树的原野图像，您能够简略地提醒“擦除树”，输入将是没有树的“雷同”图像。

ESD 的次要指标是利用模型本身的常识，而不须要额定的数据就能够从文本到图像扩散模型中删除相应的内容。该办法采纳潜在扩散模型 (LDM)，关注潜在空间而不是像素空间，并应用[稳固扩散] 进行所有的试验。该技术针对 3 种类型的删除进行了优化: 艺术成果(例如，勾销梵高格调的过滤器)，明确的内容和对象。下图为这些办法的例子：

https://arxiv.org/abs/2303.13439

Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, Humphrey Shi.

咱们曾经看到一些文本到“视频”的作品，例如 Meta 的 Make-a-video（它更像是 GIF）。

仅应用现成的文本到图像模型并且不须要进一步训练的文本到视频呢？Text2Video-Zero 提出了一种将现有的文本到图像合成扩散模型转换为文本到视频模型的办法。这种办法能够应用文本提醒或提醒联合姿态或边缘的领导，甚至是指令领导的视频编辑来生成零样本的视频生成。它齐全无需训练，不须要弱小的计算能力或多个 GPU，让每个人都能够生成视频。

还是应用扩散模型将图像与文本对齐的潜在示意空间中进行“静止”。尽管微动嵌入会在生成的视频中产生不连贯的静止，但这项工作提出了两种新鲜的后处理技术，通过在潜在代码中编码静止动静并应用跨帧注意力从新编辑每个帧的自注意力来强制执行工夫生成的一致性（参见下图）。后果是在没有任何视频特定训练的状况下创立的连贯短视频。

https://arxiv.org/abs/2303.09553

Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew Tancik.

将 nerf 与现成的 CLIP 嵌入相结合，以取得优良的语义宰割和语言根底。LERF 通过沿训练射线利用 CLIP 嵌入，并在多个训练图像上应用多尺度 CLIP 特色来监督它们，从而优化密集的多尺度 3D 语言场。这种优化能够为语言查问实时、交互式地提取 3D 相关性图。LERF 反对长尾、凋谢词汇表的跨卷分层查问，而不依赖于区域提议、掩码或微调。

与 2D CLIP 嵌入相比，3D 提供了对遮挡和视点变动的鲁棒性，以及更清晰的外观，更好地合乎 3D 场景构造。多尺度监督和 DINO 正则化进步了对象边界和整体品质。

作者还展现了 LERF 如何与 ChatGPT 无缝集成，容许用户应用自然语言与 3D 世界进行交互。一个示例演示了 ChatGPT 如何为清理咖啡溢出提供语言查问(见下图)。这将很快被集成到风行的 Nerfstudio 钻研代码库中。

https://arxiv.org/abs/2303.06349

Antonio Orvieto, Samuel L Smith, Albert Gu, Anushan Fernando, cagar Gulcehre, Razvan Pascanu, Soham De。

RNN 暗藏的后劲？Transformer 的注意力机制的计算复杂度意味着可能须要肯定水平的重复性能力实现真正的近程依赖建模。递归神经网络 (RNN) 在深度学习中对序列数据建模至关重要，但家喻户晓，它存在梯度隐没和爆炸问题，而 LSTM（某种程度上）在过来解决了这些问题。尽管如此，它们仍无奈与 Transformer 的显式自注意力等量齐观。最近推出的 S4 是一种深度状态空间模型 (SSM)，它克服了其中的一些问题，并在超长距离推理工作上获得了卓越的性能。本文证实，通过对深度传统 RNN 进行渺小更改，线性循环单元 (LRU) 模型能够在 LRA (Long Range Arena) 基准测试中与深度 SSM 的性能和效率相媲美。

线性循环单元 (LRU) 是本文的外围架构奉献。传统 RNN 的批改包含线性化（去除循环连贯中的非线性）、对角化（容许并行化和更快的训练）、稳固的指数参数化和归一化。

这篇论文再次展现了神经网络中的许多提高依赖于奇妙的优化，包含使训练更快、稳固和可扩大; 而不是聪慧的架构抉择。尽管这不会很快取代 Transformer，但当须要线性推理的复杂性时，长距离的递归依然是有用的。

Shashank Rajput et al.

还记得可微搜寻索引 (DSI) 吗? 当初他又开始折腾举荐零碎了😒。

可微分搜寻索引应用 transformer 来记忆文档 id，并依据查问自回归地生成它们，打消了对传统索引的须要。基于这一想法，钻研人员提出了 TIGER，一种基于生成检索的举荐模型。TIGER 为每件商品调配惟一的语义 ID，而后训练检索模型来预测用户将应用之前商品 ID 的下一件商品的语义 ID。其实就是对这些 id 进行自回归建模。

与 DSI 根底试验不同的是，在这种状况下，id 在语义上是相干的: 它们应用条目标题目和文本形容来应用 Sentence-T5 对它们进行编码，而后利用残差量化以取得每个我的项目的量化示意。

TIGER 在亚马逊产品评论数据集的召回和 NDCG 方面击败了以前的最先进技术。只管与 DSI 相干的毛病(向预训练的模型中增加新我的项目并不容易)，但这种新的生成式检索范式的确提供了一些劣势，例如举荐不常见的我的项目(改善冷启动问题)，并通过调整生成的温度来生成多样化的举荐。

https://arxiv.org/abs/2304.02643

Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick

meta 公布的号称宰割届的 GPT，SAM 曾经理解了物体的个别概念，这种了解能够在不须要额定训练的状况下对不相熟的物体和图像进行零样本泛化。

目测成果很不错，这个论文我在钻研他的源代码，所以后续还有更具体的利用和解释。有趣味的能够先看看他的 demo 网站 segment-anything.com

https://arxiv.org/abs/2304.03442

Joon Sung Park, Joseph C. O’Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein

这篇论文展现了让生成式 AI 具备记忆、布局、沟通和反思的能力，让其像人类一样天然流动、社交、成长。论文应用的是 GPT-3.5-turbo 版本的 ChatGPT，也就是说实践上能够为 ChatGPT 加上记忆、反思和布局等更高阶的人类能力，可无效晋升大语言模型输入能力、稳定性和升高危险，同时在游戏畛域有着微小的利用空间。

1）AI 本人建设了记忆体系并定期进行深层次反思，从而取得对陈腐事物的见解；

2）AI 之间建设了关系并记住了彼此；

3）AI 之间学会了互相协调；

4）AI 之间学会了共享信息；

5）AI 具备了定制和批改打算的能力。

有趣味的能够看看演示地址：https://reverie.herokuapp.com/arXiv_Demo/ 十分有意思

https://avoid.overfit.cn/post/8d6f2aa6f8eb4d8583ee9f2b4ba1e834

作者：Sergi Castella i Sapé

正文完

人工智能

发表至：人工智能

2023-04-13

0

关于人工智能:ChatGPT-时代程序员的生存之道-人工智能-AI

关于人工智能:人工智能机器学习底层原理剖析人造神经元您一定能看懂通俗解释把AI黑话转化为白话文

Detectron2-与其他库的兼容性-十三

关于人工智能:门外汉上手大模型AI应用开发

关于netty:跟闪电侠学Netty阅读笔记-开篇入门Netty

关于人工智能:2023年4月的12篇AI论文推荐

1、GPT-4 Technical Report

2、Larger language models do in-context learning differently

3、Reflexion: an autonomous agent with dynamic memory and self-reflection

4、Foundation Models for Decision Making: Problems, Methods, and Opportunities

5、GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

6、Erasing Concepts from Diffusion Models

7、Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

8、LERF: Language Embedded Radiance Fields

9、Resurrecting Recurrent Neural Networks for Long Sequences

10、Recommender Systems with Generative Retrieval

11、Segment Anything

12、Generative Agents: Interactive Simulacra of Human Behavior

Just My Socks（注册教程内含优惠码）

关于人工智能:2023年4月的12篇AI论文推荐

1、GPT-4 Technical Report

2、Larger language models do in-context learning differently

3、Reflexion: an autonomous agent with dynamic memory and self-reflection

4、Foundation Models for Decision Making: Problems, Methods, and Opportunities

5、GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

6、Erasing Concepts from Diffusion Models

7、Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

8、LERF: Language Embedded Radiance Fields

9、Resurrecting Recurrent Neural Networks for Long Sequences

10、Recommender Systems with Generative Retrieval

11、Segment Anything

12、Generative Agents: Interactive Simulacra of Human Behavior

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）