乐趣区

关于开源:谭中意-百模大战方酣AI-开源亮剑


点击以下链接收听本期“大咖访谈”播客,与大咖面对面:
大咖访谈链接:谭中意 | 百模大战方酣,AI 开源亮剑

刘天栋 :访谈主持,开源雨林参谋,开源社联结创始人,Apache 软件基金会正式成员
谭中意:访谈嘉宾,Apache 软件基金会正式成员,LF AI & Data TAC 成员,凋谢原子基金会 TOC(技术监督委员会)主席,第四范式资深架构师 AI

开源是支流趋势?

您是如何对待人工智能与开源的呢?它会为咱们人类社会带来什么时机和挑战?

谭中意:开源是一种社会化的合作模式,而 AI 一开始就是开源的,因为 AI 起源于学术界的传授与博士,他们的次要流动就是发 Paper,须要让所钻研的成绩能被重现,因而那些能被重现的程序和代码,肯定是开源的。因而从 AI 呈现到当初,开源始终都是默认的抉择,尽管也有局部不开源的我的项目,但绝对较少,比方 OpenAI 并未开源它的 GPT-3.5 与 GPT-4,但这是多数。从大趋势来看,AI 的许多问题与挑战都须要通过寰球范畴内通明的、大范畴的合作来解决,而这只能通过开源进行,因而开源肯定会在 AI 里成为一个重要的、或者说是支流的工作形式。

开源大模型与多模态

之前您有一篇文章:《中国开源大模型这一仗怎么打?分三步》,您能简略介绍一下大抵内容吗?

谭中意:在这篇文章外面,我首先剖析了大模型为何这么重要。大家也都能看到,ChatGPT 在去年 10 月份公布,至今已有半年多,它在国内十分火爆,我认为次要有两个起因:

  • 第一次以一种 To C 利用的形式,让普罗公众能领会到 AI 的能力。

    正如吴恩达所说:“AI is the new electricity。”AI 曾经在泛滥企业外部发明了微小的商业价值,例如百度搜寻背地的广告零碎、字节抖音的举荐零碎,以及一些电商企业内等,咱们称之为“搜广推”的场景,这些场景前面都是有千亿级参数的举荐大模型在服务,但普通用户在这方面的感知比拟少。

    而 ChatGPT 用一个十分天然的形式让咱们与之对话,它就像一个智能管家,能答复各式各样的问题,这种形式立马显现出了 AI 的能力。回想到电力时代,真正让电力走进千家万户的是爱迪生创造的电灯,ChatGPT 就好比这电灯,迅速将这种 To C 的利用推到公众背后,让其产生了破圈和暴发的后果。

  • 它提出了一种新的交互方式,用户交互方式的扭转总是能引起一个划时代的扭转。

    跟计算机交互最早是通过命令行,起初 Windows 和 Mac 推出了图形化界面,间接把 PC 推动了千家万户;而后苹果用手指这个交互工具,代替了传统手机上的键盘和触控笔,从而掀起智能手机的反动;而当初,自然语言交互这种交互方式强势来袭,咱们只须要用自然语言表达出来,软件就能了解并执行。我感觉在 ChatGPT 之后任何流行起来的软件肯定会基于这种“Language user interface(LUI)”交互方式来做扭转。

ChatGPT 同时领有这俩个特点,也给 AI 产业打了前所未有的强心针。

其实我钻研 AI 曾经有很多年了,之前的 AI 场景中绝对有微小商业价值的根本都集中在“搜广推”,但总体比拟枯燥,技术上未有大的冲破,直到 ChatGPT 呈现,关上另外那一扇门。之前咱们所看到的场景,有商业价值的都是叫决策性 AI ——即判断是或不是、用户会不会点等状况;生成式样大模型呈现之后,生成式 AI 点燃整个市场,当初在企业外部,有决策性 AI 能够服务“搜广推”场景,同时也有新的生成式 AI 来革新所有的 To B 软件来晋升各个场景的效率。

我感觉大语言模型最厉害的中央在于:通过大量的模型训练,它稀释了全世界大部分的常识。当初 GPT-3.5 大略有 1750 亿参数,再加上多模态之后,GPT-4 大略含有 2 万亿参数,而 GPT-4 还不是一个严格意义上多模态大模型。

什么是多模态对齐?为什么说当初的 GPT-4 还没有做到真正多模态对齐?

谭中意:多模态就是说,不仅仅能从文本数据里发现法则,还能从视频、音频等不同状态的数据里发现法则。为什么说当初的 GPT-4 还没有做到真正多模态?就在于它还未做到多模态对齐。假如咱们看视频,视频里有图片、语音、字幕等,基于同一时间线,将图片、语音、文字连在一起,独特发现其中的法则,这个咱们称之为“多模态对齐”,达到这种水平的大模型,我感觉 2 万亿参数是不够的,可能还须要再乘以 100 甚至 1000,这种大模型肯定能成为一个大而全的百科全书,当前的学习、教育等根本与之交互,而常识就是力量,决定产业、教育、国防等多个行业,所以我将它定义为“下一代数字经济的外围基础设施”。

开源合作当初正是百模大战阶段,大家在资源无限的状况下应该如何合作呢?

谭中意:首先中国应该建设一个开源的 Foundation Model 或者叫 Base Model,这个 Base Model 在能力上不输于 GPT-3.5 或者 GPT-4,但这个模型不会作为线上服务,而是各个企业拿过来之后,再进行 Fine-tuning,而后联合自有的公有数据再进行部署,而训练这个大模型的过程中须要的各种数据、程序等是能够通过开源进行共建的。

您感觉有可能建一个开源的 Base Model 么?

谭中意:当然有可能!做还有可能,不做永远就没有可能。但这件事须要由组织者进行决策,而因为技术路线上的挑战、团队治理的危险,以及道德方面等一些起因,开源基金会不能做那种急功近利的事,例如筛选一家公司来全力支持做,这是垄断。而应该做些百模大战参与者的公约数的事件,就是做一些公共的、根底的、大家都须要的活,第一步应该先从开源数据集做起,大模型须要数据集,而这些数据集也须要符合中国的法律规定。

相较于像新加披、欧洲一些国家,以及美国等,在凋谢数据这方面,咱们还有许多须要做的,做数据集的挑战如同有点大?

谭中意:这个事件看着挑战挺大,其实也没有设想中那么难。其实很多中国公司或者组织曾经把本人的一些数据开源了,包含百度、智源、上海人工智能学会等,因而只须要将这些数据集纳入到凋谢原子开源基金会的治理范畴内,造成一个良好的更新机制,再搭配一些数据汇合规查看工具来保障其合规,从而产生一个高质量的、大家都须要的数据集进去,而这个数据集又是一个一直累计的过程,当累计到肯定水平上,就能成为这个畛域内有重量的玩家,这个玩家不是来参加百模大战竞争的,而是所有人的敌人。因而第一步做开源数据集相对来说是容易的,可行的。

您说的各个企业曾经开源的数据,都是原始数据还是元数据(Metadata)?

谭中意:都是 RawData,当然也须要荡涤之后拿来做 Pretraining(预训练)。大模型训练也分为三步:

第一步:“Pre-training – 预训练”,须要大量的语料,通过非监督学习来进行,尽管对语料要求的量级比拟大,但不须要进行人工标注,所以老本比拟低。

第二步:“Instruction Tuning – 指令调优”,这个须要人工进行标注,是指由人类专家来写各种各样高质量的问答,其中人工标注的 GPT-3.5 序列大略有 5 万多条。

第三步:“Reinforcement Learning with Human Feedback(RLHF)- 人类反馈强化学习”,这一块也是须要进行人工标注。

这三种数据,第一步的数据集是最多的,第二步的数据在网络上也有不少,第三步的数据则特地少。

模型开发与开源许可

这些数据的隐衷、数据的爱护等,会不会波及到相干法律?

谭中意:是的,所以咱们不仅须要 raw data,还须要合规的工具,将这些都作为第一步的内容,用合规工具对 raw data 进行加工,失去 clean data,这些 clean data 用于 pre-training 或者 fine-tuning 都能够。

基金会这边是否有在跟国家在沟通相干合规的一些法令?布局如何调整这个工具,让数据能合规?

谭中意:这个当初曾经有在进行了,例如网信办,他们制订了很多规定,网信办也有一些单干商业公司,次要做合乎网信办规定的数据合规工具,其中有一家公司叫“RealAI(瑞莱智慧)”,是由清华的张钹院士负责创始人的一家公司。第二步将模型训练进去,训练成 Base Model,而后再一直对 Base Model 进行更新,这个则须要与国内的一些算力核心进行单干。第三步则是定制化 Model,可能会呈现一些行业类模型,也可能会呈现挪动端的模型,还可能会针对某些特定场景,比方像编码的这种特定的一个模型。

最近,Meta 公布了开源可商用的 Llama 2,您感觉它是怎么样来扭转大模型市场的格局?

谭中意:事实上在 Llama 进去之后,始终被认为是最好用的根底大模型,而在 Llama 之上进去的其余“羊驼”,都是基于 Llama 进行微调的,近期重返 Open AI 的总监 Karpathy 也曾示意过:“Llama 是我见过最好的开源大模型”。之前的版本尽管不小心泄露进去,但业界曾经有很多人在应用了,而前不久进去的 Llama 2 更好用、能力更强,我感觉能够这么说,开源大模型中,目前来看,很多企业能够抉择的就是 Llama 2 了,这是它品质上带来的好口碑。

很多人认为 Llama2 可商用,但并不是开源,您这边是有什么倡议或者反馈?

谭中意 :对于 License 的问题,次要有两方面:第一方面它的确不是采纳传统的 OSI 认证的开源许可证,因为它对使用者用处有几个限度。但另一方面,开源的定义从 1998 年推出到当初大略有 25 年了,却未有任何更新,这是一件十分奇怪的事件,最近也有据说 OSI 会出一些对于 open AI 的 License 的新货色,咱们能够刮目相待。
而从求实角度来说,咱们须要与时俱进,如果 License 不能与商业模式相匹配,那 License 的生命力是无限的。当年 GPL 的公布,是针对过后的环境来制订的,过后 copyright 无处不在,而当初大家对 copyleft 曾经承受良好,相同须要去均衡开源与商业化,因而我也十分期待 OSD 如何对这一块进行更新。所以,依据现有的开源定义,Llama 2 它不是一个开源产品,然而咱们不感觉未来也是这样,咱们须要一些扭转。

结语

对开源雨林接下来有什么倡议?或者冀望开源雨林做哪些事件?

谭中意:对于开源雨林,我认为须要坚守一个清晰的定位,以用户为核心,从了解开源、应用开源、奉献开源等几个阶段构建开源常识体系,共建开源凋敝生态。把开源雨林做成一个品牌,一直的通过各种模式来输入内容,比方大咖访谈、三人行等,吸引更多人来参加,来强化这个品牌。


开源雨林围绕开源通识、开源应用、开源奉献三大方面构建常识体系,愿把长期积攒的教训系统化分享给企业,在团队、机制、我的项目三方面提供单干,推动各企业更高效地应用开源、奉献开源,晋升全行业开源技术与利用程度。

开源雨林的内容已开源,并托管在 https://github.com/opensource-rainforest/osr,欢送通过 Pull Request 的模式奉献内容,通过 Issue 的模式展开讨论,独特保护开源雨林的内容。

如果您有新的想法,欢送退出开源雨林交换群,一起探讨。小助手微信:osrainforest(增加时请备注“交换群”)

退出移动版