关于chatgpt:一文汇总开源大语言模型人人都可以拥有自己的ChatGPT

前言

OpenAI公布的ChatGPT火爆寰球以来，寰球互联网大厂陆续跟进，纷纷发表了自家的Chat产品，如Google的Bard，百度的文心一言，阿里的通义千问等等。

这些Chat产品背地都是依赖的大语言模型(Large Language Model)。

如果是做一个垂直畛域的Chat产品，有2种计划：

本文重点介绍有较大参考价值的开源大语言模型，不便大家疾速找到适宜本人利用场景的开源模型。

Model	作者	参数量	训练数据量(tokens)	训练老本
LLaMA	Meta	包含 70 亿、130 亿、330 亿、650 亿 4 种参数规模	1.4万亿	2048个A100 GPU
Alpaca	Stanford	70亿	52k条问答指令数据，指令数据来源于OpenAI的API返回后果	500美元数据老本+100美元训练老本
Vicuna	UC Berkeley, CMU, Stanford, UCSD and MBZUAI	130亿	70k条问答指令数据，指令数据来源于用户分享进去的对话记录	300美元
Koala	UC Berkeley	130亿	500k条问答直录性能数据，指令数据来源于网上公开数据集	在公共云计算平台上，预期训练老本不超过100美元。一台 Nvidia DGX 服务器与8个A100 GPU，须要6个小时训练实现2个epochs。
Dolly 2.0	Databricks	120亿	15k条问答指令数据，指令数据来源于Databricks员工	不到30美元
ChatGLM	清华大学KEG 实验室和智谱AI	60亿和1300亿共2种参数规模	4000亿左右，中文和英文token各2000亿	数百万人民币
鹏程·盘古	鹏程实验室、华为	26亿、130亿和2000亿共3种参数规模	2500亿	2048 块昇腾处理器

开源模型有几个留神点：

第一，LLaMA由Meta开源，LLaMA目前仅用于学术、社会公益我的项目，不能用于商业化我的项目。
第二，Alpaca, Vicuna, Koala基于LLaMA衍生而来，是在LLaMA大语言模型根底上做了fine-tune失去的，因而训练老本极低，只需用比拟少的指令数据做fine-tune即可。这也是为什么这几个模型的训练老本很低，因为站在了LLaMA这个伟人的肩膀上。另外，这几个模型因为实质上还是LLaMA，受限于LLaMA的license限度，同样不能用于商业化目标。
Dolly 2.0是在EleutherAI pythia模型衍生而来，指令微调的数据集称为 databricks-dolly-15k，也已开源公布，蕴含来自数千名 Databricks 员工的 15,000 个高质量的人工生成的问答数据，专为指令调优大型语言模型而设计。且 databricks-dolly-15k 依据（Creative Commons Attribution-ShareAlike 3.0 Unported License）的许可条款，任何人都能够出于任何目标应用、批改或扩大此数据集，包含商业利用。
国内目前开源的次要就是清华主导的ChatGLM，以及华为和鹏程实验室主导的盘古alpha模型。

如果拿大语言模型做训练，而不是简略的指令微调，那训练老本十分昂扬，比方ChatGPT训练一次的老本在140万美元左右。

最近微软开源了DeepSpeed，能够减速大语言模型的训练，将ChatGPT 1750亿参数模型的训练老本升高到5120美元左右。

其本质是一个开源深度学习训练优化库，能够减速ChatGPT模型的训练，比目前最快的训练方法快大概15倍，如果想本人训练大语言模型的能够参考下。

GPT模型当初真的是突飞猛进，很多是基于根底模型，联合问答的指令数据对模型做微调而失去的。

当初很多媒体报道的时候喜爱夸张，大家不要看到冒出一个新的开源模型就感觉如许厉害了，绝大部分都是站在伟人肩膀上做了微调而来的。

下面开源大语言模型的表格也会继续更新，欢送大家关注上面的开源地址。

继续更新的开源大语言模型开源地址： ChatGPT模型教程。

公众号：coding进阶。

集体网站：Jincheng's Blog。

知乎：无忌。

我为大家整顿了一份后端开发学习材料礼包，蕴含编程语言入门到进阶常识(Go、C++、Python)、后端开发技术栈、面试题等。

关注公众号「coding进阶」，发送音讯 backend 支付材料礼包，这份材料会不定期更新，退出我感觉有价值的材料。还能够发送音讯「进群」，和同行一起交流学习，答疑解惑。