起源|Gradient Dissent
翻译|贾川、胡燕君

Hugging Face,这家以emoji“抱抱脸”命名的开源守业公司,以一种连开创团队未曾意料的速度成为了AI开源社区的顶级“网红”。目前,Hugging Face模型库在Github上取得了超过62,000个Star,14,000次forks,代码贡献者超1200人,每月被装置超100万次。

就在5月10日,Hugging Face发表C轮融资筹集了1亿美元,由Lux Capital领投,红杉资本、Coatue、Betaworks、NBA球星Kevin Durant等参加投资,目前估值达到20亿美元。由此,Hugging Face进一步在业内引发强烈反响。

很多人好奇Hugging Face为何能一炮而红?凭什么受到资本青眼?

故事还要从2016年说起,法国间断创业者Clément Delangue(曾开办笔记平台VideoNot.es,媒体监测平台mention以及被Google收买的挪动开发平台Moodstocks等我的项目)和Julien Chaumond、Thomas Wolf一起开办了Hugging Face,并从Betaworks和NBA球星杜兰特等拿到天使融资,他们最开始的方向是做对话机器人,但跟过后很多做相似方向的守业公司一样,始终没有起色。

直到2019年,为了训练聊天机器人的NLP能力,他们在GitHub开源了一个Transformers库,令人意外的是,在机器学习社区迅速流行起来,成为GitHub史上增长最快的机器学习库。无心插柳柳成荫,运气,有时就是这么邪门儿。

不止于NLP库,Hugging Face也在逐步变成机器学习畛域的ModelHub核心。现在,Hugging Face曾经共享了超100,000个预训练模型,10,000个数据集,涵盖了 NLP、计算机视觉、语音、工夫序列、生物学、强化学习等畛域,以帮忙科学家和相干从业者更好地构建模型,并将其用于产品或工作流程。当初,他们发动的BigScience我的项目,吸引了超1000名研究者独特训练超大规模模型。

作为一家商业公司,Hugging Face也从去年的30人扩张到了120多人,有超过10,000家公司在应用他们的产品和服务,其中付费用户超过1000。

Clément认为,获得这些问题的次要起因在于,Hugging Face补救了迷信与生产之间的鸿沟,通过搭建平台为开源界和科学界赋能,所产生的价值比通过搭建专有工具产生的价值要高上千倍,而很多开源软件和公司都没有做到这一点。某种程度上,Hugging Face是在构建机器学习畛域的“GitHub”,让其成为一个由社区开发者驱动的平台。

2021年6月,在机器学习播客《Gradient Dissent》中,Lukas Biewald与Hugging Face的CEO兼联结创始人Clément Delangue聊了聊Hugging Face Transformers库衰亡的背地故事,揭示了Hugging Face快速增长的原因,后者也分享了他对NLP技术倒退的见解。

以下为对话内容,OneFlow社区做了不扭转原意的编译。

1

Transformers库的源起

Lukas:2019年,是什么启发你们要搭建这样的Transformers开源库?

Clément:真实情况是,并没有思考太多。过后咱们应用开源库有一段时间了,在这个畛域,总感觉咱们是站在伟人的肩膀上在后退,许多人在从事科学研究时,已习惯了这样的形式。比方当你发表对于机器学习的钻研时,可能更偏向于以开源而不是论文的模式发表。因而,从研发Hugging Face的第一天开始,咱们就在开源库中进行共享。

至于Transformers,它始于咱们公布的TensorFlow版本的BERT。但联结创始人兼首席科学家Thomas说,咱们也须要公布PyTorch版本的BERT。因而,很快,咱们又开源了PyTorch版本的BERT,实际上那个仓库一开始的名字就叫PyTorch-BERT。

慢慢地,应用它的人越来越多。几周后咱们又公布了一个新模型,兴许是GPT的初版,但它也是TensorFlow版本的,所以咱们就想不如将它也增加进来,因为这两个模型的性能不同,善于畛域也不同,这样一来,人们能更好地试用两个模型。

起初,咱们又开始思考,如何能力让人们更容易地应用它们,就像当初一样有机性地倒退。有钻研人员会问,想公布一个新的模型,能够应用Transformers库公布吗?当然,咱们很欢送。慢慢地,这个库就像雪球一样越滚越大,并成就了当初的咱们。

Lukas:按你所说,人们都能够在这个平台上应用他人的模型,以及公布模型?

Clément:没错。咱们采纳混合办法来构建技术,领有用户须要开源的扩展性和像用户界面这样的实用性。咱们反对的范畴很宽泛,不必申请就能在开源代码中做所有你想做的事,你甚至都不必去Hugging Face官网,间接能够在Python中用pip装置Transformers。

如果你想要实现更多功能,能够来咱们的平台寻找适宜本人的模型。更棒的是,如果你是一名软件工程师、NLP老手或机器学习的老手,能够应用咱们的训练和推理API来训练和运行模型,并且咱们会主导这个过程,让你很容易就能上手SOTA模型。

Lukas:一开始为什么要公布一些PyTorch版本的模型?你们是不是更喜爱PyTorch?

Clément:是因为用户群体不同吧。咱们始终热衷于将那些难以了解的、小众的货色推广给更多的人应用。所以咱们认为,只有将那些多数人把握的技术推广给更多人应用,能力真正最大水平地施展技术作用,这也是咱们的次要指标。

当初有人应用TensorFlow,也有人用PyTorch,对咱们来说,相比之下应用PyTorch的状况要多一点,PyTorch是一个很好的平台,咱们想让它失去更宽泛地应用。

缓缓地,有时人们开始称咱们为“PyTorch-Transformers库",感觉这对应用其余框架的用户太不偏心。于是,咱们又将Transformers扩大到TensorFlow上,并去掉“PyTorch-Transformers"名称中的PyTorch,使其能够同时在两个平台上应用。

如果你应用过咱们集成PyTorch和TensorFlow后的版本,你会发现当初的性能比之前别离在两个平台上时更全面。实际上,你能够在雷同类型的机器学习工作平台中,别离利用其劣势来实现你的工作。

比方,当你想做架构工作时,PyTorch是个很好的抉择,而当你想做某种部署服务时,你能够抉择TensorFlow,因为它集成了很多在行业中常常应用的工具。在同一工作流程中,你能够先在PyTorch中建模,而后在TensorFlow中应用,充分利用不同平台的劣势,同时躲避它们的有余。

Lukas:你们还有须要用到本人软件的时候吗?当初还会做Hugging Face本人的利用还是仅仅为别人研发这类工具?

Clément:我常常应用咱们本人的工具。咱们研发的最受欢迎的利用是Write with Transformers文本编辑器,它由一些风行的Transformers模型提供技术支持。这有点像你在Gmail里写货色时的主动补全性能,但它更简略,更有新意,它当初的文本产出量应该相当于1,000本书。当你不晓得该写些什么,用这个软件准没错。

2

那些风行的NLP架构

Lukas:依据你的察看,目前最风行的NLP架构是什么?NLP架构至今产生了哪些变动?

Clément:通过观察下载量、模型的容量等等,就能够看出模型的倒退情况如何。当一个新模型公布时,咱们能够通过它的用户应用状况来判断它是否获得了胜利。实际上,目前Github下载量排名第一的模型是DistilBERT(Hugging Face的Transformer模型之一)。DistilBERT是通过常识蒸馏从BERT中提取进去的模型,但在用处方面有很多不同。

尽管它们依然是一种通用预训练语言模型,但当初这些模型的倒退越来越专用化,新公布的模型都在之前的根底上有了优化,性能变得更好。比方,该模型是针对短文本还是长文本?专一于生成工作还是分类工作?面向的是单语言还是多语言?

你会发现,越来越多的专用模型正在呈现。当初,人们不再判断哪种模型最好,而是依据本人的需要、针对不同工作来抉择最适宜的模型。

Lukas:BERT和OpenAI的GPT有什么区别?

Clément:GPT和BERT都是基于Transformer的模型,只是应用场景和架构略有不同。譬如,BERT做的是mask filling(遮罩词填充,即遮罩句子中的某些词语,令机器预测哪些词能够代替被遮罩的词语),而GPT做的是语言模型,预测句子中的下一个词语,这也解释了为什么GPT的文本生成能力比BERT更强。但GPT也有它的局限性,比方要做文本分类,GPT就不太适合。

Lukas:你是否认为OpenAI没有齐全颁布GPT的权重?

Clément:OpenAI让更多人能受害于NLP,我非常感激他们所作的奉献。我记得GPT和GPT-2两头还有几个开源的版本,这些都是基于Transformers的模型,很多公司都在应用。GPT-3是一个很好的模型,在文本生成方面十分有用,但当初大家用得更多的可能是GPT-2而不是GPT-3。

也有团队正在复刻GPT,Eleuther团队公布了GPT-Neo,它和GPT-3的架构是一样的。GPT-Neo的模型大小跟OpenAI通过API提供的GPT-3差不多,GPT-Neo运行后果也不错。

不少人也意识到,有了OpenAI的分享,大家能用NLP做的事件就更多,而且也能推动行业生态的倒退,让更多人关注NLP。越来越多公司也开始应用GPT-3,但它一方面很烧钱,另一方面可拓展性比拟低,不能依据本人的应用需要对它进行调整。如果应用他人开发的API,就很难在这下面建设本人的技术劣势。

咱们本人的指标也是让NLP惠及更多人,很多公司先是用GPT-3来摸索NLP,而后又转而应用咱们的工具。但我置信也有不少公司是反过来的,一开始先用咱们的开源工具,起初决定还是用一些更现成的工具,比方GPT-3、Google NLP服务、AWS Comprehend等。当初也有一些服务能让这些公司取得NLP API。

总之,开源社区的能力是微小的,咱们都是这个一直壮大的生态中的一员,所有都欣欣向荣。

3

NLP技术的利用

Lukas:过来几年,你见证了NLP前沿技术的倒退。随着模型越来越弱小,越来越好用,你感觉它们的应用场景有变动吗?比方,有没有一些大家当初正在做,但几年前还没有做或者做不到的事?

Clément:在当初应用Transformers的5000家公司里,大部分都把Transformers使用到理论生产中,这在5年前还没有做到。很多利用场景都是新的,要么是以前机器做不到的,由人工来做的,比方内容审核,还有机器的客户服务分类性能能够取代大量劳动力。Gmail的主动补全性能也十分厉害,它极大进步了工作效率,过来几个月里,这个性能让我写邮件时的工作量缩小了一半。

当初大部分的搜索引擎都依赖NLP技术和Transformer模型,扭转了很多产品的构建形式。GPT-3模型把NLP技术推广到了守业畛域,很多公司也开始利用NLP技术从零开始做产品。Google搜寻可能是NLP技术利用得最广为人知的产品。

我经常构想,明天的任意一家公司在当初守业时如果能领有明天的NLP技术根底,状况会怎么?这些公司能够在很多中央做得不一样。比方DocuSign(电子签名企业,提供在不同中央通过不同设施对文件进行电子签名的服务)能够使用当初的NLP文档剖析技术,它就能够对文件进行多种剖析,能够主动生成一个“太长不看版”,会将合同里提到金额的局部标绿或标红。

如果Twitter使用当初的NLP技术,它的推送信息流能够很不一样。它不会只给你推送当下的热点音讯,而是会依据应用记录来出现你可能感兴趣的信息,心愿这样有助于缩小偏见、暴力、种族歧视等其余不良行为。

Lukas:大略在15年前,我接触到文本生成和NLP技术,有一点很奇怪,即使NLP技术这么先进,但理论利用还很少。我记得图灵测试是这样的:人类跟机器对话10分钟,通过机器的体现判断它是人还是机器,或者这就是AGI(通用人工智能)的体现。当初AGI也衍生出很多变体,我总感觉,有了GPT-3等文本生成模型之后,机器就能更胜利地伪装成人类,但实际上,我没看到NLP利用到更多畛域。

Clément:我不太批准这一点。一说到NLP,大家想到的是Siri、Alexa等智能语音助手或者机器人聊天界面这种比拟直观的场景,但在很多咱们看不见的中央,NLP也施展着作用。比方Google搜寻,你可能不会察觉到当初的搜寻后果和以前有什么不同,但它背地应用的NLP和Transformers技术,“润物细无声”地改善了用户体验。

当然,目前的聊天机器人技术不够成熟,不能真正地帮人类解决理论问题。我也发现,人们对NLP的利用态度变得更加审慎和循序渐进了。

Lukas:你看好机器人聊天将来的倒退吗?

Clément:看好。Hugging Face一开始想做一个能够跟人聊天的乏味的AI敌人,过后咱们特地痴迷于NLP技术,想攻克这方面最难的问题,于是决定做凋谢域的对话型AI,让AI能够与人谈天说地,从体育比赛聊到感情问题等等,但没有胜利。

我想起因是机会尚未成熟,以现有的技术做凋谢域对话AI切实太难了。“跟人聊天”应该属于NLP的终极目标,因为这个过程须要同时进行很多个NLP过程,比方提取信息、了解信息、辨认对话者用意、剖析语句含意、了解对话者情绪,还要给这些过程排序等等。如果对话者的音调、语气变了,那又要剖析其暗藏含意。

当初的客服聊天机器人曾经能很好地解决一些垂直畛域的问题,但还须要相当长的工夫能力让机器人做到像人类一样无所不谈,到那时,用户会粗浅地感触到背后的机器人和以往不一样,好像有血有肉。最终,咱们会胜利做出更好的对话型AI。

Lukas:NLP畛域有没有被低估的话题?如果不做当初的工作,那你会从事哪个畛域?

Clément:这是一个好问题。前几周(2021年6月)我正在钻研语音和文本的互相转换,这应该是几年前衰亡的技术,但近来如同变成了一个小众而略显无聊的钻研畛域。好在,最近有一些钻研团队给它注入了新的生命力,特地是Facebook人工智能实验室(FAIR)的Alexis Conneau团队研发了wav2vec,给Transformer模型带来了新进展。

我对此特地冲动,他们晋升了语音和文本转换的品质,而且从英语扩大到了其余语言。如果能将NLP和语音文本转换联合起来,就能够颠覆很多产品。比方,如果Zoom能利用NLP技术推出语音转文本性能,就能够实现线上会议“主动鼓掌欢呼”;或者当Zoom辨认到参会者说出“万岁/太棒了”这种词时,屏幕上就会主动洒落大量示意“欢呼”的表情符号。

几周前,咱们在Hugging Face办了一个流动,有300多位参与者为语音文本转换模型做出了奉献,波及100种稀缺的语言语料。我置信,语音畛域会有更多新冲破,为咱们解锁新的利用场景,倡议多多关注这个畛域。

4

Hugging Face风行的背地

Lukas:在你看来,是什么促成了Hugging Face的胜利?

Clément:回头看看那些最风行的开源我的项目,你会发现它们都经验了很长时间的积淀。咱们在两年半前才公布了第一个版本,当初仍处于婴儿期,但Hugging Face Transformers相对是GitHub上增长最快的机器学习库。

当初,它在Github上曾经取得了超过42,000个Star,每月被装置超100万次,有800人为Transformers奉献了代码(译者注:截止2022年5月,该库已取得超62,000个Star,代码贡献者超1200人),获得这些问题的次要起因在于,它补救了迷信与生产之间的鸿沟,很多开源软件和公司都没有做到这一点。

我感觉,与软件工程1.0或计算机科学相比——只管计算机科学在名义上有“迷信”二字,但它实际上并不是一个迷信驱动的主题,看看那些优良的软件工程师,并不会真正地去浏览、钻研论文,也不会在计算机科学的“迷信”方面安分守己。而机器学习属于真正意义上由迷信驱动的畛域,这所有都源于世界各地几十个十分杰出的NPL团队创立了BERT、T5和RoBERTa等很多模型。

咱们的Transformers库就是为这些研究者提供一个平台,去展现那些他们想要分享的模型,以及测试别人的模型,以此来深入研究这些模型的外部架构。同时,Transformers库旨在创立一个很简略的形象体,让所有NLP畛域的参与者都可能在钻研人员公布模型后的几个小时内应用这些模型。

每当研究者在Transformers库中公布新模型,就会产生神奇的网络效应。人们都关注着这些模型,谈论着这些模型,并在Transformers中测试这些模型。他们将其用于工作,投入生产,尽其所能反对这些模型。

对于科学家来说,他们也很乐意看到本人的钻研被看到、应用,影响着整个社会,反过来也会驱动他们想要发明和分享更多模型。这种良性循环会使咱们的我的项目比传统的开源我的项目倒退得更快,并且曾经引起了市场和机器学习畛域的共鸣。

Lukas:一个模型从最后构想到最终投入生产利用,其中最意想不到的挑战是什么?用户应用你们的平台时还有没有什么艰难须要解决,还是说这个平台能够开箱即用?

Clément:机器学习模型与传统的软件工程有很大不同,很多公司都很难从后者过渡到前者。因为机器学习模型不足可解释性,所以很难预测模型的输入后果,也很难对模型进行调整;而软件工程师始终以来习惯了能够十分明确地界定他们想要的后果,因而,对他们来说这种思维转变十分不容易。我认为,对机器学习的了解是最难的局部,甚至比技术性问题还要难。

从技术层面讲,很快乐看到模型做得越来越大,但投入生产利用还须要更多技巧和更大致力。我记得Roblox发表过一篇很好的文章(http://blog.roblox.com/2020/0...),论述了他们如何利用DistilBERT在一天内解决超过10亿次推理,但挑战仍然存在,还须要晋升基础设施能力。

Lukas:你怎么对待这个畛域所存在的竞争?

Clément:我始终秉持的一个观点是:在NLP或者机器学习畛域,最坏的状况就是要与整个科学界和开源界竞争。

我以前就是这样过去的。我是法国人,曾在巴黎一家守业公司做计算机视觉工作。在机器学习这么一个突飞猛进的畛域,要与整个科学界和开源界竞争十分艰巨。巨头公司或者大学里有上百个钻研实验室,尽管可能不是每个实验室都比咱们做得好,但竞争对手切实太多,压力微小。你或者能够在一段时间内超过对手,景色一两天,但过不了多久可能就会被赶超。

所以,咱们当初不再试图竞争,转而抉择为开源界和科学界赋能。通过开源模型,能够为架构和数据库的改良提供灵感。Elastic和MongoDB就是很好的例子,它们的事迹表明,初创公司能够通过某种形式为社区赋能,此种办法产生的价值比通过搭建一个专有工具产生的价值高出上千倍。

你也不须要从发明的价值中获取100%的红利,而是能够只将其中1%的价值变现,维持公司的经营。但即使只是1%,也足够让你成为一家高市值的公司,MongoDB就是一个例子。

Elastic和MongoDB都是以开源为外围,也都胜利倒退起来了,并且还能在市场中活下去。我置信,在机器学习畛域也能够复制它们的模式,机器学习技术还处于晚期倒退阶段,但我置信很快要迎来它的春天,在将来5到10年,会有1到10家开源机器学习公司崛起。

本文已取得编译受权,原视频:
https://www.youtube.com/watch...

欢送下载体验OneFlow v0.7.0最新版本:
https://github.com/Oneflow-In...