关于chatgpt:一文汇总开源大语言模型人人都可以拥有自己的ChatGPT

49次阅读

共计 2045 个字符，预计需要花费 6 分钟才能阅读完成。

OpenAI 公布的 ChatGPT 火爆寰球以来，寰球互联网大厂陆续跟进，纷纷发表了自家的 Chat 产品，如 Google 的 Bard，百度的文心一言，阿里的通义千问等等。

这些 Chat 产品背地都是依赖的大语言模型 (Large Language Model)。

如果是做一个垂直畛域的 Chat 产品，有 2 种计划：

间接应用商业化产品，前提是商业化产品反对对模型做 fine-tune(微调)。比方 OpenAI 就反对对它的根底模型做 fine-tune 来实现个性化的模型。
应用开源的大语言模型，对开源模型做 fine-tune 来实现垂直畛域的 Chat 产品。

本文重点介绍有较大参考价值的开源大语言模型，不便大家疾速找到适宜本人利用场景的开源模型。

Model	作者	参数量	训练数据量 (tokens)	训练老本
LLaMA	Meta	包含 70 亿、130 亿、330 亿、650 亿 4 种参数规模	1.4 万亿	2048 个 A100 GPU
Alpaca	Stanford	70 亿	52k 条问答指令数据，指令数据来源于 OpenAI 的 API 返回后果	500 美元数据老本 +100 美元训练老本
Vicuna	UC Berkeley, CMU, Stanford, UCSD and MBZUAI	130 亿	70k 条问答指令数据，指令数据来源于用户分享进去的对话记录	300 美元
Koala	UC Berkeley	130 亿	500k 条问答直录性能数据，指令数据来源于网上公开数据集	在公共云计算平台上，预期训练老本不超过 100 美元。一台 Nvidia DGX 服务器与 8 个 A100 GPU，须要 6 个小时训练实现 2 个 epochs。
Dolly 2.0	Databricks	120 亿	15k 条问答指令数据，指令数据来源于 Databricks 员工	不到 30 美元
ChatGLM	清华大学 KEG 实验室和智谱 AI	60 亿和 1300 亿共 2 种参数规模	4000 亿左右，中文和英文 token 各 2000 亿	数百万人民币
鹏程·盘古 α	鹏程实验室、华为	26 亿、130 亿和 2000 亿共 3 种参数规模	2500 亿	2048 块昇腾处理器

开源模型有几个留神点：

第一，LLaMA 由 Meta 开源，LLaMA 目前仅用于学术、社会公益我的项目，不能用于商业化我的项目。
第二，Alpaca, Vicuna, Koala 基于 LLaMA 衍生而来，是在 LLaMA 大语言模型根底上做了 fine-tune 失去的，因而训练老本极低，只需用比拟少的指令数据做 fine-tune 即可。这也是为什么这几个模型的训练老本很低，因为站在了 LLaMA 这个伟人的肩膀上。另外，这几个模型因为实质上还是 LLaMA，受限于 LLaMA 的 license 限度，同样不能用于商业化目标。
Dolly 2.0 是在 EleutherAI pythia 模型衍生而来，指令微调的数据集称为 databricks-dolly-15k，也已开源公布，蕴含来自数千名 Databricks 员工的 15,000 个高质量的人工生成的问答数据，专为指令调优大型语言模型而设计。且 databricks-dolly-15k 依据（Creative Commons Attribution-ShareAlike 3.0 Unported License）的许可条款，任何人都能够出于任何目标应用、批改或扩大此数据集，包含商业利用。
国内目前开源的次要就是清华主导的 ChatGLM，以及华为和鹏程实验室主导的盘古 alpha 模型。

如果拿大语言模型做训练，而不是简略的指令微调，那训练老本十分昂扬，比方 ChatGPT 训练一次的老本在 140 万美元左右。

最近微软开源了 DeepSpeed，能够减速大语言模型的训练，将 ChatGPT 1750 亿参数模型的训练老本升高到 5120 美元左右。

其本质是一个开源深度学习训练优化库，能够减速 ChatGPT 模型的训练，比目前最快的训练方法快大概 15 倍，如果想本人训练大语言模型的能够参考下。

GPT 模型当初真的是突飞猛进，很多是基于根底模型，联合问答的指令数据对模型做微调而失去的。

当初很多媒体报道的时候喜爱夸张，大家不要看到冒出一个新的开源模型就感觉如许厉害了，绝大部分都是站在伟人肩膀上做了微调而来的。

下面开源大语言模型的表格也会继续更新，欢送大家关注上面的开源地址。

继续更新的开源大语言模型开源地址：ChatGPT 模型教程。

公众号：coding 进阶。

集体网站：Jincheng’s Blog。

知乎：无忌。

我为大家整顿了一份后端开发学习材料礼包，蕴含编程语言入门到进阶常识 (Go、C++、Python)、后端开发技术栈、面试题等。

关注公众号「coding 进阶」，发送音讯 backend 支付材料礼包，这份材料会不定期更新，退出我感觉有价值的材料。还能够发送音讯「进群」，和同行一起交流学习，答疑解惑。

https://mp.weixin.qq.com/s/7CW4p8RgAF3jYGmgefB_eg
https://mp.weixin.qq.com/s/M-ToNk8SABoP2JG0xLUBxQ

正文完

chatgpt

发表至： chatgpt

2023-04-16

0

关于chatgpt:ChatGPT4高分通过数据库系统工程师DBA认证

关于chatgpt:时代背景下的-ChatGPT到底能帮助开发者做什么呢

关于chatgpt:ChatGPT的隐私安全问题及隐私保护技术

关于chatgpt:ChatGPT采用的Serversent-events后端实时推送协议Python310实现基于Tornado61

关于docker:使用docker部署halo开源博客建站工具

关于chatgpt:一文汇总开源大语言模型人人都可以拥有自己的ChatGPT

前言

开源大语言模型

训练模型

总结

开源地址

福利

References

Just My Socks（注册教程内含优惠码）

关于chatgpt:一文汇总开源大语言模型人人都可以拥有自己的ChatGPT

前言

开源大语言模型

训练模型

总结

开源地址

福利

References

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）