关于开源:谭中意-百模大战方酣AI-开源亮剑

点击以下链接收听本期“大咖访谈”播客，与大咖面对面：
大咖访谈链接：谭中意 | 百模大战方酣，AI 开源亮剑

刘天栋 ：访谈主持，开源雨林参谋，开源社联结创始人，Apache 软件基金会正式成员
谭中意：访谈嘉宾，Apache 软件基金会正式成员，LF AI & Data TAC 成员，凋谢原子基金会 TOC（技术监督委员会）主席，第四范式资深架构师 AI

谭中意：开源是一种社会化的合作模式，而 AI 一开始就是开源的，因为 AI 起源于学术界的传授与博士，他们的次要流动就是发 Paper，须要让所钻研的成绩能被重现，因而那些能被重现的程序和代码，肯定是开源的。因而从 AI 呈现到当初，开源始终都是默认的抉择，尽管也有局部不开源的我的项目，但绝对较少，比方 OpenAI 并未开源它的 GPT-3.5 与 GPT-4，但这是多数。从大趋势来看，AI 的许多问题与挑战都须要通过寰球范畴内通明的、大范畴的合作来解决，而这只能通过开源进行，因而开源肯定会在 AI 里成为一个重要的、或者说是支流的工作形式。

谭中意：在这篇文章外面，我首先剖析了大模型为何这么重要。大家也都能看到，ChatGPT 在去年 10 月份公布，至今已有半年多，它在国内十分火爆，我认为次要有两个起因：

第一次以一种 To C 利用的形式，让普罗公众能领会到 AI 的能力。

正如吴恩达所说：“AI is the new electricity。”AI 曾经在泛滥企业外部发明了微小的商业价值，例如百度搜寻背地的广告零碎、字节抖音的举荐零碎，以及一些电商企业内等，咱们称之为“搜广推”的场景，这些场景前面都是有千亿级参数的举荐大模型在服务，但普通用户在这方面的感知比拟少。

而 ChatGPT 用一个十分天然的形式让咱们与之对话，它就像一个智能管家，能答复各式各样的问题，这种形式立马显现出了 AI 的能力。回想到电力时代，真正让电力走进千家万户的是爱迪生创造的电灯，ChatGPT 就好比这电灯，迅速将这种 To C 的利用推到公众背后，让其产生了破圈和暴发的后果。
它提出了一种新的交互方式，用户交互方式的扭转总是能引起一个划时代的扭转。

跟计算机交互最早是通过命令行，起初 Windows 和 Mac 推出了图形化界面，间接把 PC 推动了千家万户；而后苹果用手指这个交互工具，代替了传统手机上的键盘和触控笔，从而掀起智能手机的反动；而当初，自然语言交互这种交互方式强势来袭，咱们只须要用自然语言表达出来，软件就能了解并执行。我感觉在 ChatGPT 之后任何流行起来的软件肯定会基于这种“Language user interface（LUI）”交互方式来做扭转。

ChatGPT 同时领有这俩个特点，也给 AI 产业打了前所未有的强心针。

其实我钻研 AI 曾经有很多年了，之前的 AI 场景中绝对有微小商业价值的根本都集中在“搜广推”，但总体比拟枯燥，技术上未有大的冲破，直到 ChatGPT 呈现，关上另外那一扇门。之前咱们所看到的场景，有商业价值的都是叫决策性 AI ——即判断是或不是、用户会不会点等状况；生成式样大模型呈现之后，生成式 AI 点燃整个市场，当初在企业外部，有决策性 AI 能够服务“搜广推”场景，同时也有新的生成式 AI 来革新所有的 To B 软件来晋升各个场景的效率。

我感觉大语言模型最厉害的中央在于：通过大量的模型训练，它稀释了全世界大部分的常识。当初 GPT-3.5 大略有 1750 亿参数，再加上多模态之后，GPT-4 大略含有 2 万亿参数，而 GPT-4 还不是一个严格意义上多模态大模型。

谭中意：多模态就是说，不仅仅能从文本数据里发现法则，还能从视频、音频等不同状态的数据里发现法则。为什么说当初的 GPT-4 还没有做到真正多模态？就在于它还未做到多模态对齐。假如咱们看视频，视频里有图片、语音、字幕等，基于同一时间线，将图片、语音、文字连在一起，独特发现其中的法则，这个咱们称之为“多模态对齐”，达到这种水平的大模型，我感觉 2 万亿参数是不够的，可能还须要再乘以 100 甚至 1000，这种大模型肯定能成为一个大而全的百科全书，当前的学习、教育等根本与之交互，而常识就是力量，决定产业、教育、国防等多个行业，所以我将它定义为“下一代数字经济的外围基础设施”。

谭中意：首先中国应该建设一个开源的 Foundation Model 或者叫 Base Model，这个 Base Model 在能力上不输于 GPT-3.5 或者 GPT-4，但这个模型不会作为线上服务，而是各个企业拿过来之后，再进行 Fine-tuning，而后联合自有的公有数据再进行部署，而训练这个大模型的过程中须要的各种数据、程序等是能够通过开源进行共建的。

谭中意：当然有可能！做还有可能，不做永远就没有可能。但这件事须要由组织者进行决策，而因为技术路线上的挑战、团队治理的危险，以及道德方面等一些起因，开源基金会不能做那种急功近利的事，例如筛选一家公司来全力支持做，这是垄断。而应该做些百模大战参与者的公约数的事件，就是做一些公共的、根底的、大家都须要的活，第一步应该先从开源数据集做起，大模型须要数据集，而这些数据集也须要符合中国的法律规定。

谭中意：这个事件看着挑战挺大，其实也没有设想中那么难。其实很多中国公司或者组织曾经把本人的一些数据开源了，包含百度、智源、上海人工智能学会等，因而只须要将这些数据集纳入到凋谢原子开源基金会的治理范畴内，造成一个良好的更新机制，再搭配一些数据汇合规查看工具来保障其合规，从而产生一个高质量的、大家都须要的数据集进去，而这个数据集又是一个一直累计的过程，当累计到肯定水平上，就能成为这个畛域内有重量的玩家，这个玩家不是来参加百模大战竞争的，而是所有人的敌人。因而第一步做开源数据集相对来说是容易的，可行的。

谭中意：都是 RawData，当然也须要荡涤之后拿来做 Pretraining（预训练）。大模型训练也分为三步：

第一步：“Pre-training – 预训练”，须要大量的语料，通过非监督学习来进行，尽管对语料要求的量级比拟大，但不须要进行人工标注，所以老本比拟低。

第二步：“Instruction Tuning – 指令调优”，这个须要人工进行标注，是指由人类专家来写各种各样高质量的问答，其中人工标注的 GPT-3.5 序列大略有 5 万多条。

第三步：“Reinforcement Learning with Human Feedback（RLHF）- 人类反馈强化学习”，这一块也是须要进行人工标注。

这三种数据，第一步的数据集是最多的，第二步的数据在网络上也有不少，第三步的数据则特地少。

谭中意：是的，所以咱们不仅须要 raw data，还须要合规的工具，将这些都作为第一步的内容，用合规工具对 raw data 进行加工，失去 clean data，这些 clean data 用于 pre-training 或者 fine-tuning 都能够。

谭中意：这个当初曾经有在进行了，例如网信办，他们制订了很多规定，网信办也有一些单干商业公司，次要做合乎网信办规定的数据合规工具，其中有一家公司叫“RealAI（瑞莱智慧）”，是由清华的张钹院士负责创始人的一家公司。第二步将模型训练进去，训练成 Base Model，而后再一直对 Base Model 进行更新，这个则须要与国内的一些算力核心进行单干。第三步则是定制化 Model，可能会呈现一些行业类模型，也可能会呈现挪动端的模型，还可能会针对某些特定场景，比方像编码的这种特定的一个模型。

谭中意：事实上在 Llama 进去之后，始终被认为是最好用的根底大模型，而在 Llama 之上进去的其余“羊驼”，都是基于 Llama 进行微调的，近期重返 Open AI 的总监 Karpathy 也曾示意过：“Llama 是我见过最好的开源大模型”。之前的版本尽管不小心泄露进去，但业界曾经有很多人在应用了，而前不久进去的 Llama 2 更好用、能力更强，我感觉能够这么说，开源大模型中，目前来看，很多企业能够抉择的就是 Llama 2 了，这是它品质上带来的好口碑。

谭中意 ：对于 License 的问题，次要有两方面：第一方面它的确不是采纳传统的 OSI 认证的开源许可证，因为它对使用者用处有几个限度。但另一方面，开源的定义从 1998 年推出到当初大略有 25 年了，却未有任何更新，这是一件十分奇怪的事件，最近也有据说 OSI 会出一些对于 open AI 的 License 的新货色，咱们能够刮目相待。
而从求实角度来说，咱们须要与时俱进，如果 License 不能与商业模式相匹配，那 License 的生命力是无限的。当年 GPL 的公布，是针对过后的环境来制订的，过后 copyright 无处不在，而当初大家对 copyleft 曾经承受良好，相同须要去均衡开源与商业化，因而我也十分期待 OSD 如何对这一块进行更新。所以，依据现有的开源定义，Llama 2 它不是一个开源产品，然而咱们不感觉未来也是这样，咱们须要一些扭转。

谭中意：对于开源雨林，我认为须要坚守一个清晰的定位，以用户为核心，从了解开源、应用开源、奉献开源等几个阶段构建开源常识体系，共建开源凋敝生态。把开源雨林做成一个品牌，一直的通过各种模式来输入内容，比方大咖访谈、三人行等，吸引更多人来参加，来强化这个品牌。

开源雨林围绕开源通识、开源应用、开源奉献三大方面构建常识体系，愿把长期积攒的教训系统化分享给企业，在团队、机制、我的项目三方面提供单干，推动各企业更高效地应用开源、奉献开源，晋升全行业开源技术与利用程度。

开源雨林的内容已开源，并托管在 https://github.com/opensource-rainforest/osr，欢送通过 Pull Request 的模式奉献内容，通过 Issue 的模式展开讨论，独特保护开源雨林的内容。

如果您有新的想法，欢送退出开源雨林交换群，一起探讨。小助手微信：osrainforest（增加时请备注“交换群”）

关于开源:谭中意-百模大战方酣AI-开源亮剑

开源是支流趋势？

您是如何对待人工智能与开源的呢？它会为咱们人类社会带来什么时机和挑战？

开源大模型与多模态

之前您有一篇文章：《中国开源大模型这一仗怎么打？分三步》，您能简略介绍一下大抵内容吗？

什么是多模态对齐？为什么说当初的 GPT-4 还没有做到真正多模态对齐？

开源合作当初正是百模大战阶段，大家在资源无限的状况下应该如何合作呢？

您感觉有可能建一个开源的 Base Model 么？

相较于像新加披、欧洲一些国家，以及美国等，在凋谢数据这方面，咱们还有许多须要做的，做数据集的挑战如同有点大？

您说的各个企业曾经开源的数据，都是原始数据还是元数据（Metadata）？

模型开发与开源许可

这些数据的隐衷、数据的爱护等，会不会波及到相干法律？

基金会这边是否有在跟国家在沟通相干合规的一些法令？布局如何调整这个工具，让数据能合规？

最近，Meta 公布了开源可商用的 Llama 2，您感觉它是怎么样来扭转大模型市场的格局？

很多人认为 Llama2 可商用，但并不是开源，您这边是有什么倡议或者反馈？

结语

对开源雨林接下来有什么倡议？或者冀望开源雨林做哪些事件？