起源|Gradient Dissent
翻译|贾川、胡燕君
Hugging Face,这家以 emoji“抱抱脸”命名的开源守业公司,以一种连开创团队未曾意料的速度成为了 AI 开源社区的顶级“网红”。目前,Hugging Face 模型库在 Github 上取得了超过 62,000 个 Star,14,000 次 forks,代码贡献者超 1200 人,每月被装置超 100 万次。
就在 5 月 10 日,Hugging Face 发表 C 轮融资筹集了 1 亿美元,由 Lux Capital 领投,红杉资本、Coatue、Betaworks、NBA 球星 Kevin Durant 等参加投资,目前估值达到 20 亿美元。由此,Hugging Face 进一步在业内引发强烈反响。
很多人好奇 Hugging Face 为何能一炮而红?凭什么受到资本青眼?
故事还要从 2016 年说起,法国间断创业者 Clément Delangue(曾开办笔记平台 VideoNot.es,媒体监测平台 mention 以及被 Google 收买的挪动开发平台 Moodstocks 等我的项目)和 Julien Chaumond、Thomas Wolf 一起开办了 Hugging Face,并从 Betaworks 和 NBA 球星杜兰特等拿到天使融资,他们最开始的方向是做对话机器人,但跟过后很多做相似方向的守业公司一样,始终没有起色。
直到 2019 年,为了训练聊天机器人的 NLP 能力,他们在 GitHub 开源了一个 Transformers 库,令人意外的是,在机器学习社区迅速流行起来,成为 GitHub 史上增长最快的机器学习库。无心插柳柳成荫,运气,有时就是这么邪门儿。
不止于 NLP 库,Hugging Face 也在逐步变成机器学习畛域的 ModelHub 核心。现在,Hugging Face 曾经共享了超 100,000 个预训练模型,10,000 个数据集,涵盖了 NLP、计算机视觉、语音、工夫序列、生物学、强化学习等畛域,以帮忙科学家和相干从业者更好地构建模型,并将其用于产品或工作流程。当初,他们发动的 BigScience 我的项目,吸引了超 1000 名研究者独特训练超大规模模型。
作为一家商业公司,Hugging Face 也从去年的 30 人扩张到了 120 多人,有超过 10,000 家公司在应用他们的产品和服务,其中付费用户超过 1000。
Clément 认为,获得这些问题的次要起因在于,Hugging Face 补救了迷信与生产之间的鸿沟,通过搭建平台为开源界和科学界赋能,所产生的价值比通过搭建专有工具产生的价值要高上千倍,而很多开源软件和公司都没有做到这一点。某种程度上,Hugging Face 是在构建机器学习畛域的“GitHub”,让其成为一个由社区开发者驱动的平台。
2021 年 6 月,在机器学习播客《Gradient Dissent》中,Lukas Biewald 与 Hugging Face 的 CEO 兼联结创始人 Clément Delangue 聊了聊 Hugging Face Transformers 库衰亡的背地故事,揭示了 Hugging Face 快速增长的原因,后者也分享了他对 NLP 技术倒退的见解。
以下为对话内容,OneFlow 社区做了不扭转原意的编译。
1
Transformers 库的源起
Lukas:2019 年,是什么启发你们要搭建这样的 Transformers 开源库?
Clément: 真实情况是,并没有思考太多。 过后咱们应用开源库有一段时间了,在这个畛域,总感觉咱们是站在伟人的肩膀上在后退,许多人在从事科学研究时,已习惯了这样的形式。比方当你发表对于机器学习的钻研时,可能更偏向于以开源而不是论文的模式发表。因而,从研发 Hugging Face 的第一天开始,咱们就在开源库中进行共享。
至于 Transformers,它始于咱们公布的 TensorFlow 版本的 BERT。但联结创始人兼首席科学家 Thomas 说,咱们也须要公布 PyTorch 版本的 BERT。因而,很快,咱们又开源了 PyTorch 版本的 BERT,实际上那个仓库一开始的名字就叫 PyTorch-BERT。
慢慢地,应用它的人越来越多。几周后咱们又公布了一个新模型,兴许是 GPT 的初版,但它也是 TensorFlow 版本的,所以咱们就想不如将它也增加进来,因为这两个模型的性能不同,善于畛域也不同,这样一来,人们能更好地试用两个模型。
起初,咱们又开始思考,如何能力让人们更容易地应用它们,就像当初一样有机性地倒退。有钻研人员会问,想公布一个新的模型,能够应用 Transformers 库公布吗?当然,咱们很欢送。慢慢地,这个库就像雪球一样越滚越大,并成就了当初的咱们。
Lukas:按你所说,人们都能够在这个平台上应用他人的模型,以及公布模型?
Clément:没错。咱们采纳混合办法来构建技术,领有用户须要开源的扩展性和像用户界面这样的实用性。咱们反对的范畴很宽泛,不必申请就能在开源代码中做所有你想做的事,你甚至都不必去 Hugging Face 官网,间接能够在 Python 中用 pip 装置 Transformers。
如果你想要实现更多功能,能够来咱们的平台寻找适宜本人的模型。更棒的是,如果你是一名软件工程师、NLP 老手或机器学习的老手,能够应用咱们的训练和推理 API 来训练和运行模型,并且咱们会主导这个过程,让你很容易就能上手 SOTA 模型。
Lukas:一开始为什么要公布一些 PyTorch 版本的模型?你们是不是更喜爱 PyTorch?
Clément:是因为用户群体不同吧。咱们始终热衷于将那些难以了解的、小众的货色推广给更多的人应用。所以咱们认为,只有将那些多数人把握的技术推广给更多人应用,能力真正最大水平地施展技术作用,这也是咱们的次要指标。
当初有人应用 TensorFlow,也有人用 PyTorch,对咱们来说,相比之下应用 PyTorch 的状况要多一点,PyTorch 是一个很好的平台,咱们想让它失去更宽泛地应用。
缓缓地,有时人们开始称咱们为“PyTorch-Transformers 库 ”,感觉这对应用其余框架的用户太不偏心。于是,咱们又将 Transformers 扩大到 TensorFlow 上,并去掉“PyTorch-Transformers” 名称中的 PyTorch,使其能够同时在两个平台上应用。
如果你应用过咱们集成 PyTorch 和 TensorFlow 后的版本,你会发现当初的性能比之前别离在两个平台上时更全面。实际上,你能够在雷同类型的机器学习工作平台中,别离利用其劣势来实现你的工作。
比方,当你想做架构工作时,PyTorch 是个很好的抉择,而当你想做某种部署服务时,你能够抉择 TensorFlow,因为它集成了很多在行业中常常应用的工具。在同一工作流程中,你能够先在 PyTorch 中建模,而后在 TensorFlow 中应用,充分利用不同平台的劣势,同时躲避它们的有余。
Lukas:你们还有须要用到本人软件的时候吗?当初还会做 Hugging Face 本人的利用还是仅仅为别人研发这类工具?
Clément:我常常应用咱们本人的工具。咱们研发的最受欢迎的利用是 Write with Transformers 文本编辑器,它由一些风行的 Transformers 模型提供技术支持。这有点像你在 Gmail 里写货色时的主动补全性能,但它更简略,更有新意,它当初的文本产出量应该相当于 1,000 本书。当你不晓得该写些什么,用这个软件准没错。
2
那些风行的 NLP 架构
Lukas:依据你的察看,目前最风行的 NLP 架构是什么?NLP 架构至今产生了哪些变动?
Clément:通过观察下载量、模型的容量等等,就能够看出模型的倒退情况如何。当一个新模型公布时,咱们能够通过它的用户应用状况来判断它是否获得了胜利。实际上,目前 Github 下载量排名第一的模型是 DistilBERT(Hugging Face 的 Transformer 模型之一)。DistilBERT 是通过常识蒸馏从 BERT 中提取进去的模型,但在用处方面有很多不同。
尽管它们依然是一种通用预训练语言模型,但当初这些模型的倒退越来越专用化,新公布的模型都在之前的根底上有了优化,性能变得更好。比方,该模型是针对短文本还是长文本?专一于生成工作还是分类工作?面向的是单语言还是多语言?
你会发现,越来越多的专用模型正在呈现。当初, 人们不再判断哪种模型最好,而是依据本人的需要、针对不同工作来抉择最适宜的模型。
Lukas:BERT 和 OpenAI 的 GPT 有什么区别?
Clément:GPT 和 BERT 都是基于 Transformer 的模型,只是应用场景和架构略有不同。譬如,BERT 做的是 mask filling(遮罩词填充,即遮罩句子中的某些词语,令机器预测哪些词能够代替被遮罩的词语),而 GPT 做的是语言模型,预测句子中的下一个词语,这也解释了为什么 GPT 的文本生成能力比 BERT 更强。但 GPT 也有它的局限性,比方要做文本分类,GPT 就不太适合。
Lukas:你是否认为 OpenAI 没有齐全颁布 GPT 的权重?
Clément:OpenAI 让更多人能受害于 NLP,我非常感激他们所作的奉献。我记得 GPT 和 GPT- 2 两头还有几个开源的版本,这些都是基于 Transformers 的模型,很多公司都在应用。GPT- 3 是一个很好的模型,在文本生成方面十分有用,但当初大家用得更多的可能是 GPT- 2 而不是 GPT-3。
也有团队正在复刻 GPT,Eleuther 团队公布了 GPT-Neo,它和 GPT- 3 的架构是一样的。GPT-Neo 的模型大小跟 OpenAI 通过 API 提供的 GPT- 3 差不多,GPT-Neo 运行后果也不错。
不少人也意识到,有了 OpenAI 的分享,大家能用 NLP 做的事件就更多,而且也能推动行业生态的倒退,让更多人关注 NLP。越来越多公司也开始应用 GPT-3,但它一方面很烧钱,另一方面可拓展性比拟低,不能依据本人的应用需要对它进行调整。如果应用他人开发的 API,就很难在这下面建设本人的技术劣势。
咱们本人的指标也是让 NLP 惠及更多人,很多公司先是用 GPT- 3 来摸索 NLP,而后又转而应用咱们的工具。但我置信也有不少公司是反过来的,一开始先用咱们的开源工具,起初决定还是用一些更现成的工具,比方 GPT-3、Google NLP 服务、AWS Comprehend 等。当初也有一些服务能让这些公司取得 NLP API。
总之,开源社区的能力是微小的,咱们都是这个一直壮大的生态中的一员,所有都欣欣向荣。
3
NLP 技术的利用
Lukas:过来几年,你见证了 NLP 前沿技术的倒退。随着模型越来越弱小,越来越好用,你感觉它们的应用场景有变动吗?比方,有没有一些大家当初正在做,但几年前还没有做或者做不到的事?
Clément:在当初应用 Transformers 的 5000 家公司里,大部分都把 Transformers 使用到理论生产中,这在 5 年前还没有做到。很多利用场景都是新的,要么是以前机器做不到的,由人工来做的,比方内容审核,还有机器的客户服务分类性能能够取代大量劳动力。Gmail 的主动补全性能也十分厉害,它极大进步了工作效率,过来几个月里,这个性能让我写邮件时的工作量缩小了一半。
当初大部分的搜索引擎都依赖 NLP 技术和 Transformer 模型,扭转了很多产品的构建形式。GPT- 3 模型把 NLP 技术推广到了守业畛域,很多公司也开始利用 NLP 技术从零开始做产品。Google 搜寻可能是 NLP 技术利用得最广为人知的产品。
我经常构想,明天的任意一家公司在当初守业时如果能领有明天的 NLP 技术根底,状况会怎么?这些公司能够在很多中央做得不一样。比方 DocuSign(电子签名企业,提供在不同中央通过不同设施对文件进行电子签名的服务)能够使用当初的 NLP 文档剖析技术,它就能够对文件进行多种剖析,能够主动生成一个“太长不看版”,会将合同里提到金额的局部标绿或标红。
如果 Twitter 使用当初的 NLP 技术,它的推送信息流能够很不一样。它不会只给你推送当下的热点音讯,而是会依据应用记录来出现你可能感兴趣的信息,心愿这样有助于缩小偏见、暴力、种族歧视等其余不良行为。
Lukas:大略在 15 年前,我接触到文本生成和 NLP 技术,有一点很奇怪,即使 NLP 技术这么先进,但理论利用还很少。我记得图灵测试是这样的:人类跟机器对话 10 分钟,通过机器的体现判断它是人还是机器,或者这就是 AGI(通用人工智能)的体现。当初 AGI 也衍生出很多变体,我总感觉,有了 GPT- 3 等文本生成模型之后,机器就能更胜利地伪装成人类,但实际上,我没看到 NLP 利用到更多畛域。
Clément:我不太批准这一点。一说到 NLP,大家想到的是 Siri、Alexa 等智能语音助手或者机器人聊天界面这种比拟直观的场景,但在很多咱们看不见的中央,NLP 也施展着作用。比方 Google 搜寻,你可能不会察觉到当初的搜寻后果和以前有什么不同,但它背地应用的 NLP 和 Transformers 技术,“润物细无声”地改善了用户体验。
当然,目前的聊天机器人技术不够成熟,不能真正地帮人类解决理论问题。 我也发现,人们对 NLP 的利用态度变得更加审慎和循序渐进了。
Lukas:你看好机器人聊天将来的倒退吗?
Clément:看好。Hugging Face 一开始想做一个能够跟人聊天的乏味的 AI 敌人,过后咱们特地痴迷于 NLP 技术,想攻克这方面最难的问题,于是决定做凋谢域的对话型 AI,让 AI 能够与人谈天说地,从体育比赛聊到感情问题等等,但没有胜利。
我想起因是机会尚未成熟,以现有的技术做凋谢域对话 AI 切实太难了。“跟人聊天”应该属于 NLP 的终极目标,因为这个过程须要同时进行很多个 NLP 过程,比方提取信息、了解信息、辨认对话者用意、剖析语句含意、了解对话者情绪,还要给这些过程排序等等。如果对话者的音调、语气变了,那又要剖析其暗藏含意。
当初的客服聊天机器人曾经能很好地解决一些垂直畛域的问题,但还须要相当长的工夫能力让机器人做到像人类一样无所不谈,到那时,用户会粗浅地感触到背后的机器人和以往不一样,好像有血有肉。最终,咱们会胜利做出更好的对话型 AI。
Lukas:NLP 畛域有没有被低估的话题?如果不做当初的工作,那你会从事哪个畛域?
Clément:这是一个好问题。前几周(2021 年 6 月)我正在钻研语音和文本的互相转换,这应该是几年前衰亡的技术,但近来如同变成了一个小众而略显无聊的钻研畛域。好在,最近有一些钻研团队给它注入了新的生命力,特地是 Facebook 人工智能实验室(FAIR)的 Alexis Conneau 团队研发了 wav2vec,给 Transformer 模型带来了新进展。
我对此特地冲动,他们晋升了语音和文本转换的品质,而且从英语扩大到了其余语言。如果能将 NLP 和语音文本转换联合起来,就能够颠覆很多产品。比方,如果 Zoom 能利用 NLP 技术推出语音转文本性能,就能够实现线上会议“主动鼓掌欢呼”;或者当 Zoom 辨认到参会者说出“万岁 / 太棒了”这种词时,屏幕上就会主动洒落大量示意“欢呼”的表情符号。
几周前,咱们在 Hugging Face 办了一个流动,有 300 多位参与者为语音文本转换模型做出了奉献,波及 100 种稀缺的语言语料。我置信,语音畛域会有更多新冲破,为咱们解锁新的利用场景,倡议多多关注这个畛域。
4
Hugging Face 风行的背地
Lukas:在你看来,是什么促成了 Hugging Face 的胜利?
Clément:回头看看那些最风行的开源我的项目,你会发现它们都经验了很长时间的积淀。咱们在两年半前才公布了第一个版本,当初仍处于婴儿期,但 Hugging Face Transformers 相对是 GitHub 上增长最快的机器学习库。
当初,它在 Github 上曾经取得了超过 42,000 个 Star,每月被装置超 100 万次,有 800 人为 Transformers 奉献了代码(译者注:截止 2022 年 5 月,该库已取得超 62,000 个 Star,代码贡献者超 1200 人),获得这些问题的次要起因在于, 它补救了迷信与生产之间的鸿沟,很多开源软件和公司都没有做到这一点。
我感觉,与软件工程 1.0 或计算机科学相比——只管计算机科学在名义上有“迷信”二字,但它实际上并不是一个迷信驱动的主题,看看那些优良的软件工程师,并不会真正地去浏览、钻研论文,也不会在计算机科学的“迷信”方面安分守己。而机器学习属于真正意义上由迷信驱动的畛域,这所有都源于世界各地几十个十分杰出的 NPL 团队创立了 BERT、T5 和 RoBERTa 等很多模型。
咱们的 Transformers 库就是为这些研究者提供一个平台,去展现那些他们想要分享的模型,以及测试别人的模型,以此来深入研究这些模型的外部架构。同时,Transformers 库旨在创立一个很简略的形象体,让所有 NLP 畛域的参与者都可能在钻研人员公布模型后的几个小时内应用这些模型。
每当研究者在 Transformers 库中公布新模型,就会产生神奇的网络效应。人们都关注着这些模型,谈论着这些模型,并在 Transformers 中测试这些模型。他们将其用于工作,投入生产,尽其所能反对这些模型。
对于科学家来说,他们也很乐意看到本人的钻研被看到、应用,影响着整个社会,反过来也会驱动他们想要发明和分享更多模型。这种良性循环会使咱们的我的项目比传统的开源我的项目倒退得更快,并且曾经引起了市场和机器学习畛域的共鸣。
Lukas:一个模型从最后构想到最终投入生产利用,其中最意想不到的挑战是什么?用户应用你们的平台时还有没有什么艰难须要解决,还是说这个平台能够开箱即用?
Clément:机器学习模型与传统的软件工程有很大不同,很多公司都很难从后者过渡到前者。因为机器学习模型不足可解释性,所以很难预测模型的输入后果,也很难对模型进行调整;而软件工程师始终以来习惯了能够十分明确地界定他们想要的后果,因而,对他们来说这种思维转变十分不容易。我认为,对机器学习的了解是最难的局部,甚至比技术性问题还要难。
从技术层面讲,很快乐看到模型做得越来越大,但投入生产利用还须要更多技巧和更大致力。我记得 Roblox 发表过一篇很好的文章(http://blog.roblox.com/2020/0…),论述了他们如何利用 DistilBERT 在一天内解决超过 10 亿次推理,但挑战仍然存在,还须要晋升基础设施能力。
Lukas:你怎么对待这个畛域所存在的竞争?
Clément:我始终秉持的一个观点是: 在 NLP 或者机器学习畛域,最坏的状况就是要与整个科学界和开源界竞争。
我以前就是这样过去的。我是法国人,曾在巴黎一家守业公司做计算机视觉工作。在机器学习这么一个突飞猛进的畛域,要与整个科学界和开源界竞争十分艰巨。巨头公司或者大学里有上百个钻研实验室,尽管可能不是每个实验室都比咱们做得好,但竞争对手切实太多,压力微小。你或者能够在一段时间内超过对手,景色一两天,但过不了多久可能就会被赶超。
所以,咱们当初不再试图竞争,转而抉择为开源界和科学界赋能。 通过开源模型,能够为架构和数据库的改良提供灵感。Elastic 和 MongoDB 就是很好的例子,它们的事迹表明, 初创公司能够通过某种形式为社区赋能,此种办法产生的价值比通过搭建一个专有工具产生的价值高出上千倍。
你也不须要从发明的价值中获取 100% 的红利,而是能够只将其中 1% 的价值变现,维持公司的经营。但即使只是 1%,也足够让你成为一家高市值的公司,MongoDB 就是一个例子。
Elastic 和 MongoDB 都是以开源为外围,也都胜利倒退起来了,并且还能在市场中活下去。我置信,在机器学习畛域也能够复制它们的模式,机器学习技术还处于晚期倒退阶段,但我置信很快要迎来它的春天,在将来 5 到 10 年,会有 1 到 10 家开源机器学习公司崛起。
( 本文已取得编译受权,原视频:
https://www.youtube.com/watch…)
欢送下载体验 OneFlow v0.7.0 最新版本:
https://github.com/Oneflow-In…