关于机器学习:Hugging-Face成为机器学习界的GitHub

29次阅读

共计 7248 个字符,预计需要花费 19 分钟才能阅读完成。

起源|The Robot Brains Podcast
翻译|程浩源、胡燕君、许涵如、董文文

五年前,AI 畛域的出名研究者 Andrej Karpathy 发文称,传统人工编程属于“软件 1.0”,“软件 2.0”时代将以神经网络来编程,在这个过渡过程中,将涌现像 GitHub 这样的重量级平台。

AI 届网红公司“抱抱脸(Hugging Face)”有志于成为“软件 2.0”时代的 GitHub。在 Hugging Face 上,用户能够托管机器学习模型和数据集等,对它们进行共享、合作和评估,最初将它们投入生产利用,这种模式有点像 Github 上的托管和合作模式。

现在,依附明星我的项目 Transformers 库走红的 Hugging Face 的关注点不止于 NLP 库。Hugging Face 曾经共享了超 100,000 个预训练模型,10,000 个数据集,涵盖了 NLP、计算机视觉、语音、工夫序列、生物学、强化学习等畛域,以帮忙科学家和相干从业者更好地构建模型,并将其用于产品或工作流程。

对于这些夺目的问题,在此前的《一个 GitHub 史上增长最快的 AI 我的项目》一文中,Hugging Face 的 CEO 兼联结创始人 Clément Delangue 剖析称,次要是因为 Hugging Face 补救了迷信与生产之间的鸿沟,通过搭建平台为开源界和科学界赋能,所产生的价值比通过搭建专有工具产生的价值要高上千倍,而很多开源软件和公司都没有做到这一点。

Hugging Face 培养了一个宏大的开源社区,商业化仿佛也牵强附会。目前,已有超过 10,000 家公司在应用他们提供的产品和服务,其中付费用户超过 1000。在资本市场,Hugging Face 也备受青眼,它于往年 5 月实现 1 亿美元的 C 轮融资,估值达到 20 亿美元。

在 Pieter Abbeel 近期主持的 The Robot Brains Podcast 节目中,Clement Delangue 聊了聊 Hugging Face 的倒退历程,开源合作和商业化以及机器学习行业的倒退。以下为对话内容,由 OneFlow 社区编译。

1

从研发聊天机器人到开源平台

Pieter:2016 年当你们守业时,为什么一开始决定开发聊天机器人?起初又是怎么扭转想法搭建了机器学习开源库?

Clement: 我和 Julien Chaumond、Thomas Wolf 一起开办了 Hugging Face。咱们十分酷爱机器学习,认为机器学习代表将来,是咱们想为之奋斗的事业。

咱们心愿挑战机器学习畛域最难的方向,所以决定开发一个娱乐型的凋谢域对话式 AI,就像科幻电影《Her》外面的 AI 那样,能够跟人聊天气、敌人、恋情和体育比赛等各种话题。市场上还没有人很好地做出这样的聊天机器人,过后的 Siri 和 Alexa 都是事务型 AI,次要是为了帮忙人类实现某些工作,不足趣味性和娱乐性。所以咱们就定下了这个守业方向。

为了做好凋谢域的对话式 AI,咱们必须做好一系列不同的机器学习工作。咱们须要从文本中提取信息,了解文本用意和情感,还要生成答复,对话中波及图片时还须要进行图像识别。咱们还心愿 AI 可能驾驭多种聊天话题,所以须要多种数据集,比方聊体育比赛要有体育数据集,聊天气要有天气数据集等等。

刚开始的两年咱们都在做这件事,很侥幸在守业初期就可能把本人想做的事做好。

起初就搭建了 Hugging Face 平台,下面有各种不同的模型和数据集,简直想到什么就加进去,因为咱们始终心愿能为整个机器学习社区做奉献。在咱们决定开源后,就失去了热烈反应,大家都踊跃地奉献代码,很多公司也开始应用 Hugging Face 库,让咱们感觉发明了微小的价值。

尽管过后还不分明这个平台的具体意义是什么,但既然有这么多人感兴趣,那它肯定有比拟大的作用。几个月后,咱们就决定从研发聊天机器人转向搭建机器学习平台,而后在这条路上始终走到明天。这是咱们守业途中最正确的决定,咱们对此十分开心。

Pieter:你们当初为什么抉择开源模式?

Clement: 不同公司想法不同,有些公司认为其次要竞争力在于领有其余公司所没有的技术,而咱们认为公司的竞争力在于技术是否翻新,开发速度是否够快,所以抉择了开源。

在机器学习这样疾速倒退的畛域,技术更迭突飞猛进。通过开源共享,既能够帮忙别人,又能够为社区吸引到优秀人才,从而进步本人解决问题的能力。

只管有些人可能不违心为社区做奉献,但我认为开源是一个理智的决定,能够进步技术敏感度,保障公司永远处于技术前沿。

当初很多 AI 公司曾经失去了技术劣势,即便是盈利良好的公司也招不到 AI 畛域的外围人才,这个问题很致命,因为没有前沿技术人才,做进去的货色都是落后、过期的。

Pieter:我记得 Hugging Face 平台一开始开源的是 Transformer 库。2017 年,Google 在 Attention is All You Need 这篇论文中提出了 Transformer 模型,能够说是继 Geoffrey Hinton 团队的 AlexNet 后 AI 界最重大的冲破之一。Transformer 模型颁布时,你们有什么想法?

Clement: 咱们那时始终很关注行业动态,比方 Jeremy Howard 和 Sebastian Ruder 发表的成绩(https://arxiv.org/abs/1801.06146)。咱们也在实际一些好的想法,比方表征学习(representation learning)。咱们读了那篇 Transformer 论文,起初又试用了 BERT 模型,感觉十分震撼,决定做点什么。咱们的库建起来后,很快就吸引了很多用户,感觉能够在这方面施展重大影响力。

Pieter:当初人们参加和应用机器学习的形式有很多,有人须要机器学习 API,有人须要下载模型用以训练,还有人可能只须要训练模型的数据。在这么多不同的需要中,Hugging Face 如何找准定位?

Clement:Hugging Face 的用户所抉择的形象层不仅取决于他们的公司类型,还取决于他们在机器学习开发周期中所处的阶段,用户在机器学习开发周期的不同阶段须要不同的形象层。

当他们处在构建新产品或者构建工作流新性能的初始阶段,他们可能心愿从最简略的形象级别开始,例如从 API 甚至是 demo 开始。他们能够在 Hugging Face 平台上立刻试用和测试所有的模型,无需编写任何代码。

这样他们就能够在我的项目初期十分不便地测试新模型、新用例和新性能。随着新性能逐步开发成熟,用户会心愿本人可能操控更多内容,也违心投入更多资源,在本人的设施上优化大规模推理、升高提早。这时,他们能够逐步接触 HuggingFace 堆栈中更多的可扩大内容,例如能够应用简直囊括了市面上最受欢迎的开源库。

Pieter:对用户来说,Hugging Face 是一个提供模型的平台,但用户也是 Hugging Face 平台模型共享的贡献者,你们如何疏导用户进行共享?

Clement:Hugging Face 社区的倒退是一个有机的过程,咱们很乐意依据社区用户的意见改良 Hugging Face 平台。平台创建初期,齐全是社区驱动,咱们先搞清楚研发人员想要什么,而后去满足他们的需要。比方研发人员最后想要的是一个托管模型的平台,咱们就构建了这样的平台。

起初吸引了一些非研发的用户,他们也想要试用模型,然而运行不起来,所以咱们就开始反对在 web 界面演示模型,比方之前收买的 Gradio 反对用 Python 演示机器学习模型。

也有研发人员提出来,是否能够提供路径让他们能就模型的偏差和局限进行阐明,所以咱们就推出了模型卡(model card),这样研发人员能够与想应用模型的公司进行沟通,这相似于一个迭代的过程。模型卡的提出者 Margaret Mitchell 博士也在几个月后来到谷歌,退出了咱们的团队。

Pieter:Hugging Face 提供的是平台,那你们怎么取得支出?

Clement: 如果你看看过来十年市场上初创公司的守业历程,会发现开源模式的商业可行性失去了无力印证。像 MongoDB、Elastic、Confluent 等是支出增长最快的开源公司,取得了商业上的胜利。

开源的目标是为整个行业发明更大的价值,通过开源,模型能够失去十分宽泛的应用。有一万多家公司在应用 Hugging Face 的超过十万个模型,其中一半的模型是公开的,任何人都能够应用。

在如此宏大的用户群体中,总有一部分公司违心付费,例如一些大型公司心愿付费取得更多的企业性能,还有一些公司因为重度依赖 Hugging Face 平台而产生了某些特定的需要,所以心愿通过付费失去解决。

因为咱们秉持做好机器学习和实现机器学习“平民化”的信念,所以咱们肯定不能成为闭源公司单打独斗,咱们心愿采取一种十分凋谢的合作形式,让任何人都能够和咱们一起做出奉献。

2

“凋谢迷信“推动机器学习的倒退

Pieter:一年前,我始终认为 Hugging Face 是 NLP 开源的大本营,但最近 Hugging Face 中新增了很多视觉模型。

Clement: 目前在 Hugging Face 上语音模型和视觉模型都很热门,语音模型的下载量是每月约 30 万次,视觉模型的下载量每月超 20 万次。像 Vision Transformer 这样的 Transformer 模型在语音和视觉畛域曾经开始超过一些 SOTA 模型。

咱们刚刚实现了 C 轮融资,会继续加大对计算机视觉、语音强化学习、生物化学等方面的投入。我更期待看到不同畛域之间的联合:比方将语音与 NLP、计算机视觉联合,增加强化学习来做对齐。通过将机器学习的不同畛域进行交融,咱们能够摸索如何进步传统工作的精确度,让研发人员和公司更易上手;同时能够摸索创立新的用例,解决遗留难题。

Pieter:尽管当初 Hugging Face 曾经不局限于 NLP,但你们始终处于 NLP 倒退的核心。过来五年 NLP 的倒退速度太疯狂,你如何对待 NLP 的迅猛发展,以及它将来的发展前景。

Clement:NLP 的倒退速度的确很疯狂,这种迅速倒退的终点大略是 Google 在 2017 年发表的论文《Attention is All You Need》,接着 2018 年呈现了 BERT 模型。

Transformer 模型基本上在每一项 NLP 工作和每一个基准测试中击败所有的 SOTA 模型。自此,越来越多的预训练模型呈现,从 BERT 开始,而后是 GPT,RoBERTa 以及 T5。

这些新一代的模型让 NLP 变得更精确、易用。所以在这些模型公布几周后,许多公司借助 Hugging Face 平台和开源库,开始将这些模型利用到生产中,例如搜寻性能、信息提取性能、文本分类性能等。

而后就产生了一个良性循环:这些模型越来越欠缺,准确性越来越高,公司应用这些模型并且看到了其中的价值,而后在机器学习和 NLP 中加大投入,从而取得更好的模型。这种良性循环彻底改变了 NLP 畛域的格局,把 NLP 这个三四年前还很小众的机器学习畛域,变为当今最大的机器学习门类。

当初 Transformer 模型曾经扭转了 NLP 畛域的格局,也开始利用在语音、视觉、强化学习等领域。这得益于“凋谢迷信”的推动,“凋谢迷信”指的是,全世界顶尖钻研实验室的科学家都公开本人的钻研论文,将本人的模型面向全世界开源。

我之所以提起这一点,是因为当初参加“凋谢迷信”和开源的实验室越来越少了。我心愿唤起大家对开源和凋谢的器重,没有这种精力就没有 Hugging Face 明天的倒退。如果大家不再公开分享本人的成绩,将来咱们的倒退速度就会变慢。

Pieter:“凋谢迷信”的力量十分弱小,特地是在机器学习畛域。我想,当初越来越多人抉择闭源是因为训练模型的老本太高了。他们花了数百万美元来解决海量数据、训练模型,因而很难狠下心将模型公开提供给外界收费应用。

Clement: 是的。延聘机器学习人才的老本也十分高,不过纵观整个模型生态,尽管初始训练的老本略显昂扬,但一旦训练实现,就能够间接用在很多用例中,模型利用率十分高。以往,咱们必须针对每项工作、每个畛域、每种语言和每个用例从新训练模型,当初如果想让模型执行新畛域的新工作,甚至解决一种全新语言,后续对它们进行老本较低的微调就能够了。这就是迁徙学习的美好之处。

当然,大多数的模型训练都是由科技巨头或大公司实现,它们资金富余,所以几百万美元的训练老本对它们来说也只是沧海一粟。

如果综合思考各种因素,我认为当初抉择将模型开源共享仍然非常划算,因为开源带来的收益要比投入的训练老本多得多。开源能够让更多人接触到你的模型,进步知名度,能够帮你培养生态,晋升模型性能,缩小模型偏差,还能够帮你吸引到更优良的研究员,因为卓越的研究员会更心愿为整个行业做奉献,而不仅仅是为某一家公司服务,这也解释了为什么科学界一旦有了新研究成果,总要发表论文公开研究成果。

机器学习也是一个迷信推动的畛域,因而同样实用这个情理。惋惜目前大家分为若明若暗的两大阵营,有人关注模型的短期经济效益,有人着重久远的可继续效益。

Pieter:Transformer 模型仿佛比以往的模型更通用,仿佛朝着人类大脑的通用性迈近了一步。你认为 Transformer 模型的通用性在代码上有所体现吗?如果要用 Transformer 模型解决不同的工作,有多少代码能够共享?

Clement: 没错,代码共享是迁徙学习的一大个性,而迁徙学习是 Transformer 模型的根底,也是机器学习中最令我感到振奋的倒退方向,它能够进步通用性。

一开始 Transformer 模型只是利用于 NLP 和文本处理,但当初还能够利用于其余模态。于是当初诞生了更多的多模态模型,例如 CLIP 和 DALL- E 是“文本 + 图像”的混合,我置信,将来不同模态之间的界线会慢慢隐没。

Andrej Karpathy 在 Twitter 上发表过一系列帖子,很好地解释了为什么不同模态之间的差异会慢慢放大。我置信大略在三年后,咱们不会再依照不同模态把机器学习细分为计算机视觉和 NLP 等畛域,而只会整体议论 Transformer 模型、迁徙学习和机器学习。因为辨别多种模态曾经没有必要,不同模态仅意味着模型的输出数据类型有所不同而已。

这种通用性也会给机器学习注入新生机。首先,本来分属不同畛域的研究者能够单干,促成科研倒退;其次,不同的公司能够应用雷同的形象,这样它们开发新性能时就会容易很多。例如,不同公司要研发的性能和应用的工作流有所不同,但它们都能够应用 Hugging Face 平台上的资源,而不用独自从新研发新零碎。

很多公司一开始只是研发一个非常简单的性能,例如信息提取。实现了这个性能后,基于模型的通用性,他们又能够用同一个模型持续研发文本分类性能,再到文本主动补全性能,继而拓展到图像分类,能够始终一直倒退上来。最终,更多公司能够开发更多机器学习性能——这就是实现机器学习的“平民化”。

3

Hugging Face 的工作形式

Pieter:作为一个超级篮球迷,我发现 NBA 球星杜兰特也投资了你们。

Clement: 咱们意识的过程挺有意思。杜兰特是天使投资人之一的 Brian Pokorny 举荐意识的,Brian 在 SV Angel 工作,在公司成立晚期,他给了咱们很多帮忙,大家都叫他“教练”。Brian 把我介绍给杜兰特和他的投资公司 Thirty Five Ventures 的经理人 Rich Kleiman,咱们就这样意识了。

我是一个法国人,之前对 NBA 理解也不多。第一见他时不晓得他的身份,就像和普通人谈话一样和他失常交换,也没有像粉丝见到偶像一样冲动。只管他没有说,但我认为他还是很同意这种沟通形式。

他十分看好机器学习这类技术工作的前景,而且整个沟通过程比拟轻松,不像和其余公司沟通时那么庄重,但看待本人的事业,咱们都是认真负责的。

还有一个比拟有意思的事,他投资咱们时还在勇士队,于是作为合作伙伴,我开始反对勇士队,过后我住在纽约,然而带着金州勇士队的帽子。两年后,他退出了离我一个街区远的布鲁克林篮网队,过后我住在巴克莱核心(篮网队主场)旁边的格林堡。

而后我就犯难了。如果转向反对篮网队,我会被人说是“叛徒”;如果持续反对勇士队,但杜兰特就在离我一个街区远的球队打球,我很尴尬,所以那时我抉择进行关注 NBA。

Pieter:C 轮融资实现后,团队的规模也在逐渐扩充吧?

Clement: 是的,Hugging Face 凋谢了很多岗位。团队从去年的 30 人扩充到了当初 130 多人,打算在年底扩充到 200 人左右。咱们的招聘形式和传统的招聘形式不太一样,咱们想找一些和公司文化相符合,可能扩充公司价值的人,所以没有设置特定的岗位名称和岗位职责。

我认为,不论处在什么岗位,从事什么样的工作内容,只有员工认可咱们的事业并且违心为之奋斗,他们都能够找到本人的价值,在公司发光发热。咱们始终坚守”去中心化、凋谢合作、价值导向“的价值观。

Pieter:你们的办公地点散落在不同城市,日常工作形式是怎么的?

Clement:Hugging Face 在成立之初就在不同城市有办公地点,我在纽约,Julien Chaumond 在巴黎,Thomas Wolf 在荷兰。当初咱们在巴黎和纽约有几个大的办公室,在帕洛阿尔托(位于美国加利福尼亚州圣克拉拉县西北部)、瑞士、伦敦、法国南部各有一间小办公室。

我目前次要在佛罗里达州迈阿密的办公室工作,有时也会飞到另一个中央办公。咱们团队约 60% 的成员都在世界各地近程办公,有时会飞到办公室和团队成员一起线下办公。

在 2016 年公司创建晚期,咱们就开始近程办公,并且始终连续至今,这对去中心化的公司文化十分适合。去中心化的外围是异步、公开和通明,比方咱们的沟通都是在 Twitter 和 Slack 上进行。

新冠疫情暴发后,员工去办公室受到了限度,而此时近程办公的工作形式劣势尽显。

(本文经受权后编译公布。原视频:https://www.youtube.com/watch…)

欢送下载体验 OneFlow v0.8.0 最新版本 https://github.com/Oneflow-In…

正文完
 0