关于人工智能:揭秘RLHF可商用开源LLM列表领域编译器的前世今生

52次阅读

共计 3710 个字符，预计需要花费 10 分钟才能阅读完成。

那么，从推动这一系列改革的科学家角度，他到底如何对待当先 ChatGPT、GPT- 4 模型的倒退？他对 AI 的思考和坚定信念从何而来？OpenAI 下一步钻研方向是什么？他又如何对待 AI 对社会的影响？

链接：

https://mp.weixin.qq.com/s/rZBEDlxFVsVXoL5YUVU3XQ

ChatGPT 中的 RLHF 到底是如何运作的？它为什么无效？

链接：

https://huyenchip.com/2023/05/02/rlhf.html

大型语言模型（LLM）有一个家喻户晓的“硬伤”——它们常常会不苟言笑假造貌似实在的内容。作为 ChatGPT 我的项目的次要负责人以及 OpenAI 强化学习团队的领导者，John Schulman 在最近的 Berkeley EECS 会议上系统性地分享了 OpenAI 在人类反馈的强化学习（RLHF）方面所做的工作，以及语言模型的幻觉等亟待解决的问题，同时也介绍了解决这些挑战的潜在思路。

链接：

https://mp.weixin.qq.com/s/snS2ty4x7gJ9QoMxWU0_Lw

随着 ChatGPT 等大型语言模型的公布，人们对“RLHF 训练（即基于人类反馈的强化学习训练）”的重要性进行了诸多探讨。在训练语言模型方面，我一度困惑于为什么强化学习比从演示中学习（也称为监督学习）更好，难道从演示中学习（或依据语言模型术语中的“指令微调”，学习模拟人类写的答复）还不够？

链接：

https://mp.weixin.qq.com/s/4USDakdomupWuwwhex6fMg

此前，ChatGPT 负责人 John Schulman 介绍了 RLHF 想法的起源，关键在于他们在语言模型中利用强化学习，应用人类反馈去定义处分函数。此外，OpenAI 的 RLHF 所应用的诸多技术也是基于前人钻研根底上组合而成的成绩，其中就包含 Natasha Jaques 的工作。

链接：

https://mp.weixin.qq.com/s/HsJmaL3acV2yZJGd2npcLg

语言模型如何决定它会解决哪些问题以及它认为不适合的问题？为什么它会激励某些行为而阻止其余行为？语言模型可能具备哪些“价值观（values）”？

这些都是人们致力解决的问题。Anthropic 最近发表的对于“Constitution AI”的钻研认为，这种办法为语言模型提供了显式的价值观，而不是通过大规模人类反馈隐式确定的价值观。这不是一个完满的办法，但它的确使人工智能零碎的价值更容易了解，也更容易依据须要进行调整。Claude 模型就应用 Constitution AI 进行训练，从而让其更平安。Anthropic 认为，这种办法优于用于训练 ChatGPT 等零碎的其余办法。

链接：

https://www.anthropic.com/index/claudes-constitution；
https://arxiv.org/abs/2212.08073

此前，OpenAI 首席科学家 Ilya Sutskever 谈到，他心愿通过改良强化学习反馈步骤来阻止神经网络产生“幻觉”。不过，向量嵌入（vector embeddings）看上去是解决这一挑战的更为简略无效的办法，它能够为 LLM 创立一个长期记忆的数据库。通过将权威、可信的信息转换为向量，并将它们加载到向量数据库中，数据库能为 LLM 提供牢靠的信息源，从而缩小模型产生幻觉的可能性。

链接：

https://mp.weixin.qq.com/s/Hx52fL9hN5eLA13qJv-VCQ

在预训练后，大模型能够取得解决各种工作的通用能力。然而，越来越多的钻研表明，大语言模型的能力能够依据特定指标进一步调整。这就是微调技术，目前次要有两种微调大模型的办法指令微调、对齐微调，OpenAI 公布的 ChatGPT 次要利用了微调技术，从而取得了惊艳全世界的成果。

链接：

https://github.com/ninehills/ninehills.github.io/issues/92

在这篇综述中，研究者们介绍了大型语言模型的背景、次要钻研方向、支流技术以及最新进展。他们特地关注 LLM 的四个次要方面，即预训练、适应性精调、利用和能力评估。此外，他们还总结了 LLM 的现有资源，并探讨了将来倒退方向等问题。

链接：

https://arxiv.org/abs/2303.18223

开源的力量正在源源不断地影响着整个 AI 社区，无论是 LLM 还是数据集。本文作者 Sebastian Raschka 对相干资源进行了汇总，并分享了本人的洞见。

链接：

https://mp.weixin.qq.com/s/VleZkQT6Vga7vqZP8pvgQQ

本文列出的 LLM 均已取得商业用途许可（基于 Apache 2.0、MIT、OpenRAIL-M）。

链接：

https://github.com/eugeneyan/open-llms

总的来说，该测试得出的论断是：MPT 还没有筹备好在事实世界中应用，而 Vicuna 对于许多工作来说是 ChatGPT (3.5) 的可行替代品。

链接：

https://mp.weixin.qq.com/s/Gg-zbhzJcqmU0guSSvWpXg

本文具体论述了大型语言模型推理性能的几个基本原理，不含任何试验数据或简单的数学公式，旨在加深读者对相干原理的了解。此外，作者还提出了一种极其简略的推理时延模型，该模型与实证后果拟合度高，可更好地预测和解释 Transformer 模型的推理过程。

链接：

https://mp.weixin.qq.com/s/2wfUQNsH4IRuJEF39mebUQ

Transformer 语言模型的许多根本重要信息能够通过简略计算得出。可怜的是，这些计算公式在自然语言解决（NLP）社区中并不广为人知。AI 非营利钻研组织 EleutherAI 收集整理这些公式，并介绍这些公式的起源和重要性。

链接：

https://mp.weixin.qq.com/s/0Er0UOk6Wdky-0gzeQxK0g

设计模式是针对软件工程中常见问题的可重复使用、通过工夫考验的解决方案。他们将最佳实际和过来的常识进行提炼，成为从业者的实用倡议，并提供共享词汇表，以便无效合作。本文作者分享了在机器学习零碎中的次要设计模式。

链接：

https://eugeneyan.com/writing/more-patterns/

Mojo 联合了 Python 的可用性与 C 的性能，开释了 AI 硬件无可比拟的可编程性和 AI 模型的可扩展性」—— 它与 Python 一样易于应用，但具备 C ++ 和 Rust 的性能。此外，Mojo 提供了利用整个 Python 库生态系统的能力。

链接：

https://mp.weixin.qq.com/s/EguqTuzJwehfWm7UqMtbdw

近年来，随着 GPU 和 DSA 架构在不同畛域的广泛应用，特地是 AI 零碎相干技术的飞速发展，对于编译器的需要越来越强烈。编译器曾经从一个绝对小众的钻研畛域，变为学界和业界都高度关注并大量投入的方向。与此同时，编译器的开发人员也从芯片研发团队开始延长到更下层的软件层面。在很多畛域的软件系统中，都开始引入编译技术来实现晋升开发效率或运行效率等指标。本文从畛域编译器的角色着眼，来探讨畛域编译器倒退的前世今生。

链接：

https://mp.weixin.qq.com/s/eiQ6dRgDxAR7zkuWCBPfqg；
https://mp.weixin.qq.com/s/Z6qiwPDevG6mF29TWjOb4g

通过这篇笔记，心愿能初步理解 OneFlow 在 Eager 模式下对设施的治理形式、设施执行计算的过程以及如何充分利用设施计算能力。这里的设施次要指相似 CUDA 这样的并行计算减速设施。

链接：

https://mp.weixin.qq.com/s/RMF38IlkRcxza6A8W6fG-w

欢送 Star、试用 OneFlow 最新版本：https://github.com/Oneflow-Inc/oneflow/

正文完

人工智能

发表至：人工智能

2023-05-17

0

关于人工智能:ErnieSimCSE对比学习在内容反作弊上应用

关于人工智能:使用RetinaNet构建的人脸口罩探测器

关于人工智能:金数据企业版无需API开发连接飞书第三方实现用户提交反馈问卷后自动发送消息通知相关人员及时查看

关于人工智能:百度智能云开物再收一个奖状

关于后端:短说通用版-392正式版发布新增webhookAPP游客购买

关于人工智能:揭秘RLHF可商用开源LLM列表领域编译器的前世今生

1. GPT 创造者：第二次扭转 AI 浪潮的方向

2. 科普：人类反馈的强化学习（RLHF）

3. ChatGPT 作者 John Schulman：通往 TruthGPT 之路

4. 为什么 ChatGPT 用强化学习而非监督学习？

5. 谷歌钻研科学家：ChatGPT 秘密武器的演进与局限

6. Constitution AI：训练大型语言模型的最佳办法？

7. 向量嵌入：AutoGPT 的幻觉解法？

8. 大语言模型（LLM）微调技术笔记

9. 大型语言模型综述

10. 那些开源的 LLM 和数据集、钻研洞见

11. Open LLMs：可供商业应用的开源大型语言模型列表

12. 羊驼系列大模型和 ChatGPT 差多少？具体测评后，我缄默了

13. 大型语言模型的推理演算

14. Transformer 模型的根底演算

15. 机器学习零碎的九种设计模式

16. 编译器大佬 Chris Lattner 全新编程语言「Mojo」：兼容 Python 外围性能

17. 畛域编译器倒退的前世今生

18. OneFlow 源码解析：Eager 模式下的设施治理与并发执行

Just My Socks（注册教程内含优惠码）

关于人工智能:揭秘RLHF可商用开源LLM列表领域编译器的前世今生

1. GPT 创造者：第二次扭转 AI 浪潮的方向

2. 科普：人类反馈的强化学习（RLHF）

3. ChatGPT 作者 John Schulman：通往 TruthGPT 之路

4. 为什么 ChatGPT 用强化学习而非监督学习？

5. 谷歌钻研科学家：ChatGPT 秘密武器的演进与局限

6. Constitution AI：训练大型语言模型的最佳办法？

7. 向量嵌入：AutoGPT 的幻觉解法？

8. 大语言模型（LLM）微调技术笔记

9. 大型语言模型综述

10. 那些开源的 LLM 和数据集、钻研洞见

11. Open LLMs：可供商业应用的开源大型语言模型列表

12. 羊驼系列大模型和 ChatGPT 差多少？具体测评后，我缄默了

13. 大型语言模型的推理演算

14. Transformer 模型的根底演算

15. 机器学习零碎的九种设计模式

16. 编译器大佬 Chris Lattner 全新编程语言「Mojo」：兼容 Python 外围性能

17. 畛域编译器倒退的前世今生

18. OneFlow 源码解析：Eager 模式下的设施治理与并发执行

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）