关于人工智能:一块GPU搞定ChatGPTML系统入坑指南理解GPU底层架构

1. 跑ChatGPT体量模型，从此只需一块GPU

在倒退技术，让大模型把握更多能力的同时，也有人在尝试升高AI所需的算力资源。最近，一种名为FlexGen的技术因为「一块RTX 3090跑ChatGPT体量模型」而取得了人们的关注。

尽管FlexGen减速后的大模型看起来依然很慢 —— 跑1750亿参数的语言模型时每秒1个token，但令人印象粗浅的是，它曾经把不可能变成了可能。传统上，大型语言模型（LLM）推理的高计算和内存要求使人们必须应用多个高端AI加速器进行训练。本钻研摸索了如何将LLM推理的要求升高到一个生产级GPU并实现实用性能。

链接：
https://mp.weixin.qq.com/s/Zd...

2. ChatGPT数据集之谜

至今，OpenAI并没有公开ChatGPT的相干训练数据集起源和具体细节，肯定水平上也临时卡了追赶者的脖子，更何况，业界公认中文互联网数据品质堪忧。本文作者则整顿剖析了2018年到2022年初从GPT-1到Gopher的相干大型语言模型的所有数据集相干信息，心愿帮忙有志于开发“类ChatGPT”模型的团队少走一步弯路。

链接：
https://mp.weixin.qq.com/s/9v...

3. ChatGPT背地的经济账

ChatGPT是否取代Google、百度这样的传统搜索引擎？为什么中国不能很快做出ChatGPT？以后，对这些问题的探讨大多囿于大型语言模型（LLM）的技术可行性，疏忽或者十分毛糙地预计了实现这些指标背地的经济老本，从而造成对LLM的开发和利用偏离理论的误判。

本文作者从经济学切入，具体推导了类ChatGPT模型搜寻的老本、训练GPT-3以及绘制LLM老本轨迹的通用框架，为探讨LLM老本构造和其将来倒退提供了可贵的参考视角。

链接：
https://mp.weixin.qq.com/s/aA...

4. 解读ChatGPT背地的技术重点：RLHF、IFT、CoT、红蓝反抗

近段时间，ChatGPT 横空出世并取得巨大成功，使得 RLHF、SFT、IFT、CoT 等这些艰涩的缩写开始呈现在普罗公众的探讨中。这些艰涩的首字母缩略词到底是什么意思？为什么它们如此重要？咱们考察了相干的所有重要论文，以对这些工作进行分类，总结迄今为止的工作，并对后续工作进行瞻望。

链接：
https://zhuanlan.zhihu.com/p/...

5. 为什么所有GPT-3复现都失败了？应用ChatGPT你应该晓得这些

为什么所有公开的对 GPT-3 的复现都失败了？咱们应该在哪些工作上应用 GPT-3.5 或 ChatGPT？对于那些想要复现一个属于本人的 GPT-3 或 ChatGPT 的人而言，第一个问题是要害的。第二个问题则对那些想要应用它们的人是重要的（下文提到 GPT-3，次要是指 GPT-3.5 或 InstructGPT 的最新版本，除了一些指向 GPT-3 原文的状况）。

链接：
https://mp.weixin.qq.com/s/fW...

6. 超过GPT 3.5的小模型来了

家喻户晓，ChatGPT 是在 GPT-3.5 系列模型的根底上微调而来的，咱们看到很多钻研也在紧随其后紧追慢赶，然而，与 ChatGPT 相比，他们的新钻研成果到底有多好？近日，亚马逊公布的一篇论文，他们提出了蕴含视觉特色的 Multimodal-CoT，该架构在参数量小于 10 亿的状况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

链接：
https://mp.weixin.qq.com/s/gv...

7. 聊聊对大模型的一些认识

在行看热闹，外行看门道。逻辑链的把握，对长程上下文的捕获和适应，以及生成语句的通顺度，这几点在作者试验过的大量的case里都失去了验证，于是对于大模型这个技术方向"事实上的狐疑"也开始被打消了。

链接：
https://zhuanlan.zhihu.com/p/...

8. 一文了解大型语言模型的“上下文学习”

最近几年大语言模型（LLM）取得了越来越多的关注，其中最出名的当属 ChatGPT模型。ChatGPT模型展示了一些大模型才具备的突现能力（就是模型规模必须得增大到肯定水平才会浮现的能力，比方至多百亿级），其中一项能力就是上下文学习（In-Context Learning）。这也引发了钻研人员对该能力产生起因的思考和摸索。

链接：
https://mp.weixin.qq.com/s/sT...

9. 了解GPU的底层架构

笔者是新进GPU行业从业者，之前在CPU芯片行业做一些底层软件驱动开发工作，深知相熟CPU的底层构造原理对驱动编写和浏览别人驱动代码大有裨益，本文则介绍了GPU的底层工作原理。

链接：
https://zhuanlan.zhihu.com/p/...

10. ML System入坑指南

最近ChatGPT大火，越来越多开始关注大模型，但对于大模型落地，除了先进的算法，其背地的ML System(机器学习零碎)，从分布式训练到高效推理的残缺链路同样重要，好的基础设施是利用暴发的根底。本文次要围绕作者学习的经验来构筑，心愿能给心愿入坑的新人一个指引，也给非Mlsys背景但感兴趣的其余畛域的同学一些启发。

链接：
https://zhuanlan.zhihu.com/p/...

11. 开源机器学习软件对AI的倒退意味着什么

过来十年，只有构建过ML模型的人都晓得MLOSS至关重要，无论是Deepmind的研发工程师，还是印度的高中生都无一例外会应用开源软件来构建模型。作者采访了24名ML从业者，他们都给出了雷同的答案：MLOSS工具在模型构建中的位置无足轻重。

从业者都在收费应用MLOSS工具，也就意味着这类工具会对人工智能倒退产生微小影响。然而，摸索MLOSS对AI倒退影响的钻研人员却寥寥无几。

链接：
https://mp.weixin.qq.com/s/7b...

12. OneFlow源码解析：动态图与运行时

OneFlow动态图的训练效率远高于动态图（eager模式）。本文试图通过一个简略例子，联合v0.8.0版本的代码，解读一下动态图和运行时的实现机制。

链接：
https://mp.weixin.qq.com/s/3s...

13. CUDA编程：矩阵乘运算从CPU到GPU

本文次要介绍用CUDA实现矩阵乘法运算（C = A x B）的几个根本办法，帮忙了解矩阵在GPU下面的运算与CPU上的有何异同，通过实际上手CUDA的优化计算，相比根底办法，能提速10倍以上。本文内容波及到CUDA矩阵1D运算、2D运算、共享内存、CUBLAS的应用。

链接：
https://zhuanlan.zhihu.com/p/...

14. CUDA SASS汇编器：CuAssembler

只管CuAssembler次要的目标是把nvdisasm的输入从新转回cubin，但它并不是从零开始写汇编。作者举荐从CUDA C开始，除了kernel代码外，其余初始化代码都是尽量用Runtime API，这样应用和批改都最简略间接。

链接：
https://zhuanlan.zhihu.com/p/...

15. 全面碾压AdamW：谷歌新出优化器内存小、效率高

来自谷歌、 UCLA 的研究者提出了一种通过程序搜寻发现深度神经网络训练的优化算法的办法，进而发现 Lion（EvoLved Sign Momentum）优化器。

实现这一指标面临两个挑战：首先是在有限稠密的程序空间中寻找高质量的算法；其次是抉择能够从小型工作泛化到更大、SOTA 工作的算法。为了应答这些挑战。该钻研采纳了一系列技术，包含具备热启动和重启的进化搜寻、形象执行、funnel 抉择和程序简化。

链接：
https://mp.weixin.qq.com/s/QK...

16. YOLOv5全面解析教程③：更快更好的边界框回归损失

本文总结了边界框回归中的三个几何因素，即重叠面积（overlap area）、中心点间隔（central point distance）和高宽比（aspect ratio），在此基础上提出了齐全IoU(CIoU)损失，从而促成了更快的收敛和更优的性能。

链接：
https://mp.weixin.qq.com/s/LI...

17. 下载量冲破10亿，MinIO的开源启示录

在开源守业公司里，MinIO的成长之路对其余开源企业/我的项目来说无疑是一个很好的参考范例。近期，他们的CMO Jonathan Symonds在一篇博客中分享了MinIO如何超过专有软件公司，以及如何在将来坚固本身劣势，重点论述了他们在开源商业模式、产品、社区构建以及开源信奉方面的想法，这些内容或者值得开源社区的初创企业借鉴。

链接：
https://mp.weixin.qq.com/s/ec...

欢送 Star、试用 OneFlow 最新版本：https://github.com/Oneflow-In...