关于人工智能:一块GPU搞定ChatGPTML系统入坑指南理解GPU底层架构

49次阅读

共计 3642 个字符，预计需要花费 10 分钟才能阅读完成。

在倒退技术，让大模型把握更多能力的同时，也有人在尝试升高 AI 所需的算力资源。最近，一种名为 FlexGen 的技术因为「一块 RTX 3090 跑 ChatGPT 体量模型」而取得了人们的关注。

尽管 FlexGen 减速后的大模型看起来依然很慢 —— 跑 1750 亿参数的语言模型时每秒 1 个 token，但令人印象粗浅的是，它曾经把不可能变成了可能。传统上，大型语言模型（LLM）推理的高计算和内存要求使人们必须应用多个高端 AI 加速器进行训练。本钻研摸索了如何将 LLM 推理的要求升高到一个生产级 GPU 并实现实用性能。

链接：
https://mp.weixin.qq.com/s/Zd…

至今，OpenAI 并没有公开 ChatGPT 的相干训练数据集起源和具体细节，肯定水平上也临时卡了追赶者的脖子，更何况，业界公认中文互联网数据品质堪忧。本文作者则整顿剖析了 2018 年到 2022 年初从 GPT- 1 到 Gopher 的相干大型语言模型的所有数据集相干信息，心愿帮忙有志于开发“类 ChatGPT”模型的团队少走一步弯路。

链接：
https://mp.weixin.qq.com/s/9v…

ChatGPT 是否取代 Google、百度这样的传统搜索引擎？为什么中国不能很快做出 ChatGPT？以后，对这些问题的探讨大多囿于大型语言模型（LLM）的技术可行性，疏忽或者十分毛糙地预计了实现这些指标背地的经济老本，从而造成对 LLM 的开发和利用偏离理论的误判。

本文作者从经济学切入，具体推导了类 ChatGPT 模型搜寻的老本、训练 GPT- 3 以及绘制 LLM 老本轨迹的通用框架，为探讨 LLM 老本构造和其将来倒退提供了可贵的参考视角。

链接：
https://mp.weixin.qq.com/s/aA…

近段时间，ChatGPT 横空出世并取得巨大成功，使得 RLHF、SFT、IFT、CoT 等这些艰涩的缩写开始呈现在普罗公众的探讨中。这些艰涩的首字母缩略词到底是什么意思？为什么它们如此重要？咱们考察了相干的所有重要论文，以对这些工作进行分类，总结迄今为止的工作，并对后续工作进行瞻望。

链接：
https://zhuanlan.zhihu.com/p/…

为什么所有公开的对 GPT-3 的复现都失败了？咱们应该在哪些工作上应用 GPT-3.5 或 ChatGPT？对于那些想要复现一个属于本人的 GPT-3 或 ChatGPT 的人而言，第一个问题是要害的。第二个问题则对那些想要应用它们的人是重要的（下文提到 GPT-3，次要是指 GPT-3.5 或 InstructGPT 的最新版本，除了一些指向 GPT-3 原文的状况）。

链接：
https://mp.weixin.qq.com/s/fW…

家喻户晓，ChatGPT 是在 GPT-3.5 系列模型的根底上微调而来的，咱们看到很多钻研也在紧随其后紧追慢赶，然而，与 ChatGPT 相比，他们的新钻研成果到底有多好？近日，亚马逊公布的一篇论文，他们提出了蕴含视觉特色的 Multimodal-CoT，该架构在参数量小于 10 亿的状况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

链接：
https://mp.weixin.qq.com/s/gv…

在行看热闹，外行看门道。逻辑链的把握，对长程上下文的捕获和适应，以及生成语句的通顺度，这几点在作者试验过的大量的 case 里都失去了验证，于是对于大模型这个技术方向 ” 事实上的狐疑 ” 也开始被打消了。

链接：
https://zhuanlan.zhihu.com/p/…

最近几年大语言模型（LLM）取得了越来越多的关注，其中最出名的当属 ChatGPT 模型。ChatGPT 模型展示了一些大模型才具备的突现能力（就是模型规模必须得增大到肯定水平才会浮现的能力，比方至多百亿级），其中一项能力就是上下文学习（In-Context Learning）。这也引发了钻研人员对该能力产生起因的思考和摸索。

链接：
https://mp.weixin.qq.com/s/sT…

笔者是新进 GPU 行业从业者，之前在 CPU 芯片行业做一些底层软件驱动开发工作，深知相熟 CPU 的底层构造原理对驱动编写和浏览别人驱动代码大有裨益，本文则介绍了 GPU 的底层工作原理。

链接：
https://zhuanlan.zhihu.com/p/…

最近 ChatGPT 大火，越来越多开始关注大模型，但对于大模型落地，除了先进的算法，其背地的 ML System(机器学习零碎)，从分布式训练到高效推理的残缺链路同样重要，好的基础设施是利用暴发的根底。本文次要围绕作者学习的经验来构筑，心愿能给心愿入坑的新人一个指引，也给非 Mlsys 背景但感兴趣的其余畛域的同学一些启发。

链接：
https://zhuanlan.zhihu.com/p/…

过来十年，只有构建过 ML 模型的人都晓得 MLOSS 至关重要，无论是 Deepmind 的研发工程师，还是印度的高中生都无一例外会应用开源软件来构建模型。作者采访了 24 名 ML 从业者，他们都给出了雷同的答案：MLOSS 工具在模型构建中的位置无足轻重。

从业者都在收费应用 MLOSS 工具，也就意味着这类工具会对人工智能倒退产生微小影响。然而，摸索 MLOSS 对 AI 倒退影响的钻研人员却寥寥无几。

链接：
https://mp.weixin.qq.com/s/7b…

OneFlow 动态图的训练效率远高于动态图（eager 模式）。本文试图通过一个简略例子，联合 v0.8.0 版本的代码，解读一下动态图和运行时的实现机制。

链接：
https://mp.weixin.qq.com/s/3s…

本文次要介绍用 CUDA 实现矩阵乘法运算（C = A x B）的几个根本办法，帮忙了解矩阵在 GPU 下面的运算与 CPU 上的有何异同，通过实际上手 CUDA 的优化计算，相比根底办法，能提速 10 倍以上。本文内容波及到 CUDA 矩阵 1D 运算、2D 运算、共享内存、CUBLAS 的应用。

链接：
https://zhuanlan.zhihu.com/p/…

只管 CuAssembler 次要的目标是把 nvdisasm 的输入从新转回 cubin，但它并不是从零开始写汇编。作者举荐从 CUDA C 开始，除了 kernel 代码外，其余初始化代码都是尽量用 Runtime API，这样应用和批改都最简略间接。

链接：
https://zhuanlan.zhihu.com/p/…

来自谷歌、UCLA 的研究者提出了一种通过程序搜寻发现深度神经网络训练的优化算法的办法，进而发现 Lion（EvoLved Sign Momentum）优化器。

实现这一指标面临两个挑战：首先是在有限稠密的程序空间中寻找高质量的算法；其次是抉择能够从小型工作泛化到更大、SOTA 工作的算法。为了应答这些挑战。该钻研采纳了一系列技术，包含具备热启动和重启的进化搜寻、形象执行、funnel 抉择和程序简化。

链接：
https://mp.weixin.qq.com/s/QK…

本文总结了边界框回归中的三个几何因素，即重叠面积（overlap area）、中心点间隔（central point distance）和高宽比（aspect ratio），在此基础上提出了齐全 IoU(CIoU) 损失，从而促成了更快的收敛和更优的性能。

链接：
https://mp.weixin.qq.com/s/LI…

在开源守业公司里，MinIO 的成长之路对其余开源企业 / 我的项目来说无疑是一个很好的参考范例。近期，他们的 CMO Jonathan Symonds 在一篇博客中分享了 MinIO 如何超过专有软件公司，以及如何在将来坚固本身劣势，重点论述了他们在开源商业模式、产品、社区构建以及开源信奉方面的想法，这些内容或者值得开源社区的初创企业借鉴。

链接：
https://mp.weixin.qq.com/s/ec…

欢送 Star、试用 OneFlow 最新版本：https://github.com/Oneflow-In…

正文完

人工智能

发表至：人工智能

2023-02-27

0

关于人工智能:求职特训营火热来袭-阿里大咖教你制作专业简历

关于人工智能:赋能区域产业南京成都双城AI开发者Meetup报名开启

关于人工智能:最热学习🤩ChatGPT从入门到应用

关于人工智能:京东智联云对象存储高可用架构设计思考

关于云计算:基于Docker部署DubboNacos服务

关于人工智能:一块GPU搞定ChatGPTML系统入坑指南理解GPU底层架构

1. 跑 ChatGPT 体量模型，从此只需一块 GPU

2. ChatGPT 数据集之谜

3. ChatGPT 背地的经济账

4. 解读 ChatGPT 背地的技术重点：RLHF、IFT、CoT、红蓝反抗

5. 为什么所有 GPT- 3 复现都失败了？应用 ChatGPT 你应该晓得这些

6. 超过 GPT 3.5 的小模型来了

7. 聊聊对大模型的一些认识

8. 一文了解大型语言模型的“上下文学习”

9. 了解 GPU 的底层架构

10. ML System 入坑指南

11. 开源机器学习软件对 AI 的倒退意味着什么

12. OneFlow 源码解析：动态图与运行时

13. CUDA 编程：矩阵乘运算从 CPU 到 GPU

14. CUDA SASS 汇编器：CuAssembler

15. 全面碾压 AdamW：谷歌新出优化器内存小、效率高

16. YOLOv5 全面解析教程③：更快更好的边界框回归损失

17. 下载量冲破 10 亿，MinIO 的开源启示录

Just My Socks（注册教程内含优惠码）

关于人工智能:一块GPU搞定ChatGPTML系统入坑指南理解GPU底层架构

1. 跑 ChatGPT 体量模型，从此只需一块 GPU

2. ChatGPT 数据集之谜

3. ChatGPT 背地的经济账

4. 解读 ChatGPT 背地的技术重点：RLHF、IFT、CoT、红蓝反抗

5. 为什么所有 GPT- 3 复现都失败了？应用 ChatGPT 你应该晓得这些

6. 超过 GPT 3.5 的小模型来了

7. 聊聊对大模型的一些认识

8. 一文了解大型语言模型的“上下文学习”

9. 了解 GPU 的底层架构

10. ML System 入坑指南

11. 开源机器学习软件对 AI 的倒退意味着什么

12. OneFlow 源码解析：动态图与运行时

13. CUDA 编程：矩阵乘运算从 CPU 到 GPU

14. CUDA SASS 汇编器：CuAssembler

15. 全面碾压 AdamW：谷歌新出优化器内存小、效率高

16. YOLOv5 全面解析教程③：更快更好的边界框回归损失

17. 下载量冲破 10 亿，MinIO 的开源启示录

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）