关于机器学习:2022年最有开创性的10篇AI论文总结

2022 年随着聊天 GPT 和 Mid – journey 和 Dall- E 等图像生成器的风行，咱们看到了整个人工智能畛域的重大进展。在人工智能和计算机科学的时代，这是令人振奋的一年。本文咱们总结了在 2022 年发表的最具开创性的 10 篇论文，无论如何你都应该看看。

Fawzi, A., Balog, M., Huang, A. et al. Discovering faster matrix multiplication algorithms with reinforcement learning. Nature 610, 47–53 (2022).

DeepMind 的钻研人员开发了一种称为 AlphaTensor 的深度强化学习办法，用于发现高效且精确的矩阵乘法算法。矩阵乘法是一种宽泛用于各种零碎的根底计算，包含神经网络和科学计算例程。AlphaTensor 可能发现在许多状况下优于以后最先进技术的算法，包含在应用无限域的 4×4 矩阵乘法方面获得的突破性成就。AlphaTensor 的灵活性还通过其发现结构化矩阵乘法算法和针对特定硬件优化矩阵乘法的能力失去证实。AlphaTensor 的潜在利用从矩阵乘法扩大到其余根本计算工作，展现了应用人工智能 (AI) 领导算法发现的后劲。该钻研还表明，人工智能可用于解决数学和跨迷信畛域的重要挑战。

AlphaTesor 的里程碑标记着计算效率的重要性。随着人工智能 (AI) 和数据中心的应用减少，思考对环境的影响并确保以可继续和负责任的形式开发和应用人工智能十分重要。随着世界越来越多地转向碳中和社会，咱们须要缩小人工智能零碎的能源消耗和碳排放。

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695).

MidJourney, Dall- E 和 Imagen 等模型所发明的精美的图片都有一个重要的共同点，它们都依赖于扩散模型。钻研人员开发了一种新的图像合成办法，称为 latent diffusion models(ldm)，能够在一系列工作中取得最先进的后果。

ldm 应用去噪自编码器和扩散模型将造成图像的过程合成为一系列步骤，这容许在不须要从新训练的状况下管制图像生成过程。传统的扩散模型因为须要间断的评估，所以须要大量的计算资源和低廉的应用，为了解决个问题钻研人员在弱小的预训练自编码器的潜在空间中利用了扩散模型。这使得他们在复杂性升高和细节保留之间达到了一个近乎最佳的点，极大地提高了视觉保真度。通过在模型架构中引入穿插留神层，ldm 能够用于个别的条件输出，如文本或突围框，并能够以卷积形式生成高分辨率图像。ldm 在图像修补和类条件图像合成方面获得了最新的问题，在文本到图像合成、无条件图像生成和超分辨率等工作上具备很强的竞争力，同时与传统的基于像素的扩散模型相比，显著升高了计算需要。

Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H. T., … & Le, Q. (2022). Lamda: Language models for dialog applications. arXiv preprint arXiv:2201.08239.

ChatGPT 在互联网上掀起了一场风暴。这是一个聊天机器人，它模拟一对一的对话来答复问题，从可能解决极其问题，或者从哲学角度答复对于生命意义。因为他的外部工作机制的细节还没有颁布，所以我不会把 ChatGPT 包含在这个列表中。然而 OpenAI 的钻研人员曾经开发了一个专门用于对话的新神经语言模型，有多达 1370 亿个参数，被称作 LaMDA(对话利用语言模型)。LaMDA 应用 1.56 万亿词的公共对话数据和网络文本进行预训练，使其成为迄今为止最大的语言模型之一。尽管简略地扩大语言模型能够进步其性能，但在进步安全性和事实根底方面成果较差。为了解决这些挑战，钻研人员应用带正文的数据对 LaMDA 进行了微调，并使其可能参考内部常识起源。

开发对话语言模型的次要挑战之一是确保它们的答复合乎人类价值观，例如避免无害的倡议和不偏心的偏见。为了解决这个问题，钻研人员应用了一个通过大量正文数据微调的 LaMDA 分类器来过滤候选响应。这种办法显示出了进步模型安全性的心愿。

另一个挑战是使模型可能参考内部常识起源，如信息检索零碎或简略的计算器，来生成基于已知事实而不仅仅是听起来似是而非的的响应，钻研人员发现他们的办法使 LaMDA 可能通查问内部常识起源产生更多基于事实的回应。

除了这些技术成就，钻研人员还摸索了 LaMDA 在教育和内容举荐畛域的应用，剖析了它在这些畛域的帮忙和角色一致性。总的来说，LaMDA 的倒退代表了自然语言解决畛域的重大提高，并有后劲改良宽泛的基于对话的应用程序。

Liu, Z., Mao, H., Wu, C. Y., Feichtenhofer, C., Darrell, T., & Xie, S. (2022). A convnet for the 2020s. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11976–11986).

在过来的十年里，随着 ViTs 的引入，视觉辨认畛域产生了重大变动。尽管一般 vit 在个别计算机视觉工作 (如对象检测和语义宰割) 方面获得了一些胜利，但真正在这些畛域产生影响的是分层 Transformer，例如 Swin Transformers。然而这些混合办法的有效性通常归因于 Transformer 的优越性，而不是卷积固有的演绎偏差。

在最近的一项钻研中，钻研人员着手测试纯 ConvNet 所能达到的极限。他们逐步对规范 ResNet 进行“现代化”以凑近 Transformer，并发现了导致两者性能差别的几个要害组件。这种摸索的后果是称为 ConvNeXts 的纯 ConvNet 模型系列。ConvNeXts 齐全由规范的 ConvNet 模块构建而成，可能在准确性和可扩展性方面与 Transformers 相媲美，并且放弃了规范 ConvNet 的简略性和效率。

Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2022). Robust speech recognition via large-scale weak supervision. arXiv preprint arXiv:2212.04356.

Whisper 是 OpenAI 的开源的用于转录的 AI 模型。它是一种基于 Transformer 架构的大规模音频模型，应用从网络收集的超过 600,000 小时的多语言和多任务监督数据进行了训练。模型可能以 30 秒为单位解决音频记录，并应用编码器局部对音频进行编码，而后由解码器应用该局部来预测正在说的标记或单个单词。解码器应用这一编码信息，以及预测的前一个单词，来猜想下一个最有意义的单词。

Whisper 的次要劣势之一是它的稳健性，它应用了各种数据集进行训练，包含剪辑、TED 演讲、播客和访谈。尽管其中一些数据是应用机器学习模型转录的（这可能会引入谬误），但也有助于模型更好地解决理论的场景。尽管 Whisper 可能不是针对特定工作的最弱小模型，但能够应用其余数据对其进行微调，以进步其在特定工作上的性能。事实证明，微调像 Whisper 这样的预训练模型比在特定工作上从头开始训练模型产生更好的后果。

Reed, S. et al. (2022). A Generalist Agent. DeepMind

DeepMind 开发了一种名为 Gato 的的多模态模型，它利用基于 Transformer 的架构来执行各种工作。Gato 可能解决宽泛的输出，包含文本、图像和机械臂的扭矩数据，并产生一系列输入，包含可了解的文本、扭矩功率和按钮按下。这意味着 Gato 能够用于执行宽泛的工作，包含语言翻译和图像字幕，甚至能够玩雅达利游戏，它能够执行 604 种不同的工作。Gato 的次要劣势之一是它的多功能性。Gato 不须要为不同的工作训练和集成多个专门的模型，而是能够用一组权重和一个绝对简略的架构解决所有这些工作。这使得它比以前的办法更高效、更经济，因为以前的办法通常须要开发多个专门的模型。

Gato 的倒退代表着通用人工智能倒退迈出了重要一步。它特别强调了多模态办法的后劲，包含集成多种类型的数据，以进步学习和性能。像 Gato 这样的模型在提取见解和解决简单问题方面将变得越来越重要。然而 Gato 还是有其局限性。因为它不是一种纯正的多任务模型办法，与单任务模型相比，它的性能无限。

Flennerhag, S., Schroecker, Y., Zahavy, T., van Hasselt, H., Silver, D., & Singh, S. (2021). Bootstrapped meta-learning. arXiv preprint arXiv:2109.04504.

在这篇论文中，钻研人员提出了一种新的算法，容许人工智能零碎通过称为元学习的过程学习如何更无效地学习。这个过程包含克服一个称为元优化的艰难优化问题。这种被称为自举的新算法通过容许人工智能零碎自我学习来解决这个问题。该算法首先为 AI 零碎创立一个指标，而后通过最小化零碎与指标之间的间隔来优化零碎。

钻研人员专一于在元学习中应用梯度，并建设确保性能进步的条件。他们还发现所抉择的度量能够管制元优化，并且自举机制能够无效扩大元学习范畴，而不须要通过所有更新进行反向流传。这种算法可能在雅达利 ALE 基准上实现新的最先进的无模型代理。他们还证实了该算法能够在多任务元学习中进步性能和效率。

钻研人员摸索了如何在元学习中开拓新的可能性，并发现无需通过更新规定进行反向流传就能够在 epsilon-greedy Q-learning agent 中进行元学习的高效摸索。这种新算法有可能通过元学习显著进步人工智能零碎的效率。

Shwartz-Ziv, R., & Armon, A. (2022). Tabular data: Deep learning is not all you need. Information Fusion, 81, 84–90.

这篇论文比拟了树集成模型 XGBoost 与几种深度学习模型在不同表格数据集上的分类和回归工作性能。结果表明，XGBoost 的体现始终优于深度学习模型，包含之前宣称深度模型性能优越的论文中应用的那些模型。该钻研发现 XGBoost 须要的调优比深度学习模型要少得多。XGBoost 和深度学习模型的集成在数据集上的体现比独自 XGBoost 更好。这些发现表明，XGBoost 仍应被视为数据迷信我的项目中表格数据的首选。并强调人工智能并不局限于深度学习，而是有不同的解决方案。

Ho, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., … & Salimans, T. (2022). Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303.

一种名为 Imagen Video 的新型文本条件视频生成零碎应用根底视频生成模型和一系列交织的空间和工夫视频超分辨率模型，能够依据给定的文本提醒生成高清视频。该零碎可扩大为文本到高清视频模型，它利用各种分辨率的全卷积工夫和空间超分辨率模型以及扩散模型的 v 参数化。钻研人员还将渐进式蒸馏利用于视频模型，能够在不应用分类器的状况下进行疾速和高质量的采样。Imagen Video 不仅能够生成高保真度的视频，还具备高度的可控性和世界常识，包含生成各种艺术风格和 3D 对象了解的多样化视频和文本动画的能力。

LeCun, Y. (2022). A path towards autonomous machine intelligence version 0.9. 2, 2022–06–27. Open Review, 62.

钻研人员提出了一种用于创立智能机器的新架构和训练范式。该论文概述了构建自主智能代理的潜在解决方案，这些代理能够以相似于人类和动物的形式学习和推理。所提出的架构包含一个可配置的预测世界模型和由外在动机驱动的动作行为，利用通过自我监督学习训练的分层联结嵌入。指标是使机器可能在多个抽象层次上学习感知和行动计划的示意，使它们可能在多个工夫范畴内进行推理、预测和打算。

https://avoid.overfit.cn/post/3e58b0d0e27e4f09934df99558722f62

作者：C.J. Pongajow

关于机器学习:2022年最有开创性的10篇AI论文总结

1、Alpha Tensor: Discovering faster matrix multiplication algorithms with reinforcement learning

2、Stable Diffusion: High-resolution image synthesis with latent diffusion models

3、LaMDA: Language Models for Dialog Applications

4、A ConvNet for the 2020s

5、OpenAI Whisper: Robust Speech Recognition via Large-Scale Weak Supervision

6、Gato DeepMind: General AI

7、Bootstrapped Meta-Learning

8、Tabular Data: Deep Learning is Not All You Need

9、Imagen Video: High Definition Video Generation with Diffusion Models

10、A Path Towards Autonomous Machine Intelligence Version 0.9.2