关于人工智能:揭秘RLHF可商用开源LLM列表领域编译器的前世今生

9次阅读

共计 3710 个字符,预计需要花费 10 分钟才能阅读完成。

1. GPT 创造者:第二次扭转 AI 浪潮的方向

那么,从推动这一系列改革的科学家角度,他到底如何对待当先 ChatGPT、GPT- 4 模型的倒退?他对 AI 的思考和坚定信念从何而来?OpenAI 下一步钻研方向是什么?他又如何对待 AI 对社会的影响?

链接:

https://mp.weixin.qq.com/s/rZBEDlxFVsVXoL5YUVU3XQ

2. 科普:人类反馈的强化学习(RLHF)

ChatGPT 中的 RLHF 到底是如何运作的?它为什么无效?

链接:

https://huyenchip.com/2023/05/02/rlhf.html

3. ChatGPT 作者 John Schulman:通往 TruthGPT 之路

大型语言模型(LLM)有一个家喻户晓的“硬伤”——它们常常会不苟言笑假造貌似实在的内容。作为 ChatGPT 我的项目的次要负责人以及 OpenAI 强化学习团队的领导者,John Schulman 在最近的 Berkeley EECS 会议上系统性地分享了 OpenAI 在人类反馈的强化学习(RLHF)方面所做的工作,以及语言模型的幻觉等亟待解决的问题,同时也介绍了解决这些挑战的潜在思路。

链接:

https://mp.weixin.qq.com/s/snS2ty4x7gJ9QoMxWU0_Lw

4. 为什么 ChatGPT 用强化学习而非监督学习?

随着 ChatGPT 等大型语言模型的公布,人们对“RLHF 训练(即基于人类反馈的强化学习训练)”的重要性进行了诸多探讨。在训练语言模型方面,我一度困惑于为什么强化学习比从演示中学习(也称为监督学习)更好,难道从演示中学习(或依据语言模型术语中的“指令微调”,学习模拟人类写的答复)还不够?

链接:

https://mp.weixin.qq.com/s/4USDakdomupWuwwhex6fMg

5. 谷歌钻研科学家:ChatGPT 秘密武器的演进与局限

此前,ChatGPT 负责人 John Schulman 介绍了 RLHF 想法的起源,关键在于他们在语言模型中利用强化学习,应用人类反馈去定义处分函数。此外,OpenAI 的 RLHF 所应用的诸多技术也是基于前人钻研根底上组合而成的成绩,其中就包含 Natasha Jaques 的工作。

链接:

https://mp.weixin.qq.com/s/HsJmaL3acV2yZJGd2npcLg

6. Constitution AI:训练大型语言模型的最佳办法?

语言模型如何决定它会解决哪些问题以及它认为不适合的问题?为什么它会激励某些行为而阻止其余行为?语言模型可能具备哪些“价值观(values)”?

这些都是人们致力解决的问题。Anthropic 最近发表的对于“Constitution AI”的钻研认为,这种办法为语言模型提供了显式的价值观,而不是通过大规模人类反馈隐式确定的价值观。这不是一个完满的办法,但它的确使人工智能零碎的价值更容易了解,也更容易依据须要进行调整。Claude 模型就应用 Constitution AI 进行训练,从而让其更平安。Anthropic 认为,这种办法优于用于训练 ChatGPT 等零碎的其余办法。

链接:

  1. https://www.anthropic.com/index/claudes-constitution;
  2. https://arxiv.org/abs/2212.08073

7. 向量嵌入:AutoGPT 的幻觉解法?

此前,OpenAI 首席科学家 Ilya Sutskever 谈到,他心愿通过改良强化学习反馈步骤来阻止神经网络产生“幻觉”。不过,向量嵌入(vector embeddings)看上去是解决这一挑战的更为简略无效的办法,它能够为 LLM 创立一个长期记忆的数据库。通过将权威、可信的信息转换为向量,并将它们加载到向量数据库中,数据库能为 LLM 提供牢靠的信息源,从而缩小模型产生幻觉的可能性。

链接:

https://mp.weixin.qq.com/s/Hx52fL9hN5eLA13qJv-VCQ

8. 大语言模型(LLM)微调技术笔记

在预训练后,大模型能够取得解决各种工作的通用能力。然而,越来越多的钻研表明,大语言模型的能力能够依据特定指标进一步调整。这就是微调技术,目前次要有两种微调大模型的办法指令微调、对齐微调,OpenAI 公布的 ChatGPT 次要利用了微调技术,从而取得了惊艳全世界的成果。

链接:

https://github.com/ninehills/ninehills.github.io/issues/92

9. 大型语言模型综述

在这篇综述中,研究者们介绍了大型语言模型的背景、次要钻研方向、支流技术以及最新进展。他们特地关注 LLM 的四个次要方面,即预训练、适应性精调、利用和能力评估。此外,他们还总结了 LLM 的现有资源,并探讨了将来倒退方向等问题。

链接:

https://arxiv.org/abs/2303.18223

10. 那些开源的 LLM 和数据集、钻研洞见

开源的力量正在源源不断地影响着整个 AI 社区,无论是 LLM 还是数据集。本文作者 Sebastian Raschka 对相干资源进行了汇总,并分享了本人的洞见。

链接:

https://mp.weixin.qq.com/s/VleZkQT6Vga7vqZP8pvgQQ

11. Open LLMs:可供商业应用的开源大型语言模型列表

本文列出的 LLM 均已取得商业用途许可(基于 Apache 2.0、MIT、OpenRAIL-M)。

链接:

https://github.com/eugeneyan/open-llms

12. 羊驼系列大模型和 ChatGPT 差多少?具体测评后,我缄默了

总的来说,该测试得出的论断是:MPT 还没有筹备好在事实世界中应用,而 Vicuna 对于许多工作来说是 ChatGPT (3.5) 的可行替代品。

链接:

https://mp.weixin.qq.com/s/Gg-zbhzJcqmU0guSSvWpXg

13. 大型语言模型的推理演算

本文具体论述了大型语言模型推理性能的几个基本原理,不含任何试验数据或简单的数学公式,旨在加深读者对相干原理的了解。此外,作者还提出了一种极其简略的推理时延模型,该模型与实证后果拟合度高,可更好地预测和解释 Transformer 模型的推理过程。

链接:

https://mp.weixin.qq.com/s/2wfUQNsH4IRuJEF39mebUQ

14. Transformer 模型的根底演算

Transformer 语言模型的许多根本重要信息能够通过简略计算得出。可怜的是,这些计算公式在自然语言解决(NLP)社区中并不广为人知。AI 非营利钻研组织 EleutherAI 收集整理这些公式,并介绍这些公式的起源和重要性。

链接:

https://mp.weixin.qq.com/s/0Er0UOk6Wdky-0gzeQxK0g

15. 机器学习零碎的九种设计模式

设计模式是针对软件工程中常见问题的可重复使用、通过工夫考验的解决方案。他们将最佳实际和过来的常识进行提炼,成为从业者的实用倡议,并提供共享词汇表,以便无效合作。本文作者分享了在机器学习零碎中的次要设计模式。

链接:

https://eugeneyan.com/writing/more-patterns/

16. 编译器大佬 Chris Lattner 全新编程语言「Mojo」:兼容 Python 外围性能

Mojo 联合了 Python 的可用性与 C 的性能,开释了 AI 硬件无可比拟的可编程性和 AI 模型的可扩展性」—— 它与 Python 一样易于应用,但具备 C ++ 和 Rust 的性能。此外,Mojo 提供了利用整个 Python 库生态系统的能力。

链接:

https://mp.weixin.qq.com/s/EguqTuzJwehfWm7UqMtbdw

17. 畛域编译器倒退的前世今生

近年来,随着 GPU 和 DSA 架构在不同畛域的广泛应用,特地是 AI 零碎相干技术的飞速发展,对于编译器的需要越来越强烈。编译器曾经从一个绝对小众的钻研畛域,变为学界和业界都高度关注并大量投入的方向。与此同时,编译器的开发人员也从芯片研发团队开始延长到更下层的软件层面。在很多畛域的软件系统中,都开始引入编译技术来实现晋升开发效率或运行效率等指标。本文从畛域编译器的角色着眼,来探讨畛域编译器倒退的前世今生。

链接:

  1. https://mp.weixin.qq.com/s/eiQ6dRgDxAR7zkuWCBPfqg;
  2. https://mp.weixin.qq.com/s/Z6qiwPDevG6mF29TWjOb4g

18. OneFlow 源码解析:Eager 模式下的设施治理与并发执行

通过这篇笔记,心愿能初步理解 OneFlow 在 Eager 模式下对设施的治理形式、设施执行计算的过程以及如何充分利用设施计算能力。这里的设施次要指相似 CUDA 这样的并行计算减速设施。

链接:

https://mp.weixin.qq.com/s/RMF38IlkRcxza6A8W6fG-w

欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/

正文完
 0