关于人工智能:全球首个完全开源的指令跟随大模型T5到GPT4最全盘点

15次阅读

共计 3572 个字符,预计需要花费 9 分钟才能阅读完成。

1. Dolly 2.0:世界上第一个齐全开源的指令追随 LLM

两周前,Databricks 公布了类 ChatGPT 的大型语言模型 (LLM)Dolly,其训练老本不到 30 美元。明天,他们公布了 Dolly 2.0,这是业内第一个开源的指令追随 LLM,并依据高质量的人类生成的指令数据集(15000 个 prompt/response pairs)进行了微调。Dolly 2.0 基于 EleutherAI pythia 模型系列,是一个具备 12B 参数的语言模型。

他们正在齐全开源 Dolly 2.0,包含训练代码、数据集和模型权重,这些都能够商用。这意味着,任何组织都能够创立、领有和定制弱小的 LLM,并且无需领取 API 拜访费用或与第三方共享数据。

链接:
1. https://huggingface.co/databricks
2. https://www.databricks.com/blog/2023/04/12/dolly-first-open-c…

2. 大型语言模型综述全新出炉:从 T5 到 GPT- 4 最全盘点

思考到 LLMs 的疾速技术提高,中国人民大学的二十几位研究者通过背景常识、要害发现和支流技术等三方面回顾了 LLMs 的最新进展,尤其关注 LLMs 的预训练、自适应调优、应用和能力评估。此外他们还总结和开发 LLMs 的可用资源,探讨了将来倒退方向等问题。对于畛域内钻研人员和工程师而言,这份综述是一份极其有用的学习资源。

链接:
https://mp.weixin.qq.com/s/7HRr55Md2Wl6EHQMGioumw

3. OpenAI 创始人:GPT- 4 的钻研起源和构建心法

GPT 模型所获得的成就令人艳羡,不过这建设在 OpenAI 数年的技术摸索和坚定信念上。作为深度参加了 GPT 模型从 0 到 1 生产过程,以及推动 GPT 钻研和工程落地的次要“幕后推手”,Brockman 对此深有体会,“它并非试图像疾速致富那样过眼云烟,而是始终在迟缓积攒价值,才有了指数级增长带来的微小回报。”

链接:
https://mp.weixin.qq.com/s/hO1ZdqgOjpA328luobQ9eg

4. ChatGPT 作者 John Schulman:咱们胜利的秘密武器

新增的对话数据诚然重要,不过,让 ChatGPT 更容易推断出用户的用意,产生量变的根本原因是已在 InstructGPT 应用的“人类反馈的强化学习(RLHF)”技术,OpenAI 联结创始人、钻研科学家 John Schulman 认为,RLHF 才是 ChatGPT 的秘密武器(secret sauce)。本文中,咱们能够看到 ChatGPT 技术演进的脉络和未曾在论文中被形容的细节,以及 OpenAI 团队的下一步钻研方向。

链接:
https://mp.weixin.qq.com/s/sDeBYMvAwbJr5_tj7Q20-w

5. 千亿参数开源大模型 BLOOM 背地的技术

近年来,语言模型越训越大已成为常态。大家通常会诟病这些大模型自身的信息未被公开以供钻研,但很少关注大模型训练技术这种背地的常识。本文旨在以 1760 亿参数的语言模型 BLOOM 为例,说明训练此类模型背地的软硬件工程和技术要点,以促成大家对大模型训练技术的探讨。

链接:
https://zhuanlan.zhihu.com/p/615839149

6. 分布式训练的十大常见谬误和解决方案

大型语言模型(LLM)时代,分布式训练势在必行,因为数据和模型权重很少能同时放到一张卡上。然而,ML 中的分布式训练非常复杂且容易出错,其中暗藏着许多陷阱,可能会在模型训练过程中引发微小问题。本文将介绍分布式模型训练中十个最常见的谬误,并将针对每个谬误提出解决方案。

链接:
https://neptune.ai/blog/distributed-training-errors

6.5. AutoGPT 太火了,无需人类插手自主实现工作

近日,AI 界貌似呈现了一种新的趋势:自主人工智能。这不是空穴来风,最近一个名为 AutoGPT 的钻研开始走进公众视线。特斯拉前 AI 总监、刚刚回归 OpenAI 的 Andrej Karpathy 也为其鼎力宣传,并在推特投诉:「AutoGPT 是 prompt 工程的下一个前沿。」

链接:
https://mp.weixin.qq.com/s/bV1tPc7hNn2z06YOpzyanw

7. 了解大型语言模型(入门浏览清单)

因为 Transformer 对每个人的钻研工作产生了如此大的影响,作者列举了一个浏览清单供机器学习钻研人员和从业者入门 LLM。

链接:
https://sebastianraschka.com/blog/2023/llm-reading-list.html?

8. 大模型汇总(10 亿级参数规模以上

大模型(大型语言模型,LLMs)是当下 AI 和 NLP 钻研与产业中最重要的方向之一。本文将对当下的支流大模型进行总结。参数规模在 1B 以上的模型视为大模型。

链接:
https://zhuanlan.zhihu.com/p/611403556

9. ML 零碎入门材料整顿(tvm&mlir&llvm)

对于想入门 mlsys 或者想深刻学习某种编译器的开发者来说,心愿这个材料能够成为不错的终点。

链接:
https://zhuanlan.zhihu.com/p/618229430

10. 谈谈对 OpenAI Triton 的一些了解

Triton 应该算是笔者看到的基于 MLIR 编译技术门路实现,性能和性能均可满足一部分理论需要且失去了生产测验,并且在支流 AI 加速器上解决了计算密集算子开发需要的第一个开源工作。

链接:
https://zhuanlan.zhihu.com/p/613244988

11. mperf:挪动 / 嵌入式平台算子性能调优利器

在挪动 / 嵌入式平台,为了最大水平施展硬件算力,对算子极致性能的谋求变成必然,不同于桌面 / 服务器平台,挪动 / 嵌入式平台在算子性能调优方面可抉择的工具很少。mperf 是一个微架构档次的算子性能调优工具箱,次要面向挪动 / 嵌入式平台的 CPU/GPU 外围,指标是“为构建一个更靠近闭环的算子调优反馈回路”提供系列根底工具。

链接:
https://zhuanlan.zhihu.com/p/610346564

12. 小型 Python 编译器我的项目入门

适宜对编译优化、高性能计算、GPU 编程感兴趣,齐全零根底的同学也没问题,然而须要相熟 Python 编程。

编译器和测试局部代码齐全用 Python 编写,算子的局部应用 cupy 的 rawKernel 性能将 cuda 代码编译成一个 Python 函数。目前已实现了第一个模块的代码局部,共分为 5 天,每一天的所有代码加起来不超过 100 行,简略易懂。

链接:
https://zhuanlan.zhihu.com/p/603352525

13. CUDA 编程:罕用技巧 / 办法

不论你是在学习 CUDA,还是在优化算子,把握一些 CUDA 编程技巧,可能晋升你的工作效率,甚至找到更优解。本文次要是介绍一些罕用的技巧 / 办法,并配上实际 code,心愿对读者有所帮忙。

链接:
https://zhuanlan.zhihu.com/p/584501634

14. NCCL 源码解析①:初始化及 ncclUniqueId 的产生

NCCL 是英伟达开源的 GPU 通信库,反对汇合通信和点对点通信。

链接:
https://mp.weixin.qq.com/s/_SOmkGoo9DblXb8ddyEeaQ

15. 适配 PyTorch FX,OneFlow 让量化感知训练更简略

OneFlow 紧随其后增加了针对 OneFlow 的 fx,即 One-fx,在装置 One-fx 之后,用户能够间接调用 oneflow.fx,也能够间接通过 import onefx as fx 进行应用。

链接:
https://mp.weixin.qq.com/s/O8yGUuTL-o_gHQV4xez_nQ

16. One-YOLOv5 v1.2.0 公布:反对分类、检测、实例宰割

新版本同步了 Ultralytics YOLOv5 的上游分支 v7.0,同时反对分类、指标检测、实例宰割工作;反对 flask_rest_api;反对应用 wandb 对试验跟踪和可视化性能;oneflow_hub_support_pilimage;为每个 batch 的 compute_loss 局部缩小一次 h2d 和 cpu slice_update 操作;优化 bbox_iou 函数和模型滑动均匀局部,大幅晋升训练性能;
兼容 FlowFlops,训练时能够展现模型的 FLOPs

链接:
https://mp.weixin.qq.com/s/bkEkInaF7Ht7KsdXUFkw-Q

欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/

正文完
 0