关于机器学习:Hugging-Face成为机器学习界的GitHub

起源|The Robot Brains Podcast
翻译|程浩源、胡燕君、许涵如、董文文

五年前，AI 畛域的出名研究者 Andrej Karpathy 发文称，传统人工编程属于“软件 1.0”，“软件 2.0”时代将以神经网络来编程，在这个过渡过程中，将涌现像 GitHub 这样的重量级平台。

AI 届网红公司“抱抱脸（Hugging Face）”有志于成为“软件 2.0”时代的 GitHub。在 Hugging Face 上，用户能够托管机器学习模型和数据集等，对它们进行共享、合作和评估，最初将它们投入生产利用，这种模式有点像 Github 上的托管和合作模式。

现在，依附明星我的项目 Transformers 库走红的 Hugging Face 的关注点不止于 NLP 库。Hugging Face 曾经共享了超 100,000 个预训练模型，10,000 个数据集，涵盖了 NLP、计算机视觉、语音、工夫序列、生物学、强化学习等畛域，以帮忙科学家和相干从业者更好地构建模型，并将其用于产品或工作流程。

对于这些夺目的问题，在此前的《一个 GitHub 史上增长最快的 AI 我的项目》一文中，Hugging Face 的 CEO 兼联结创始人 Clément Delangue 剖析称，次要是因为 Hugging Face 补救了迷信与生产之间的鸿沟，通过搭建平台为开源界和科学界赋能，所产生的价值比通过搭建专有工具产生的价值要高上千倍，而很多开源软件和公司都没有做到这一点。

Hugging Face 培养了一个宏大的开源社区，商业化仿佛也牵强附会。目前，已有超过 10,000 家公司在应用他们提供的产品和服务，其中付费用户超过 1000。在资本市场，Hugging Face 也备受青眼，它于往年 5 月实现 1 亿美元的 C 轮融资，估值达到 20 亿美元。

在 Pieter Abbeel 近期主持的 The Robot Brains Podcast 节目中，Clement Delangue 聊了聊 Hugging Face 的倒退历程，开源合作和商业化以及机器学习行业的倒退。以下为对话内容，由 OneFlow 社区编译。

Pieter：2016 年当你们守业时，为什么一开始决定开发聊天机器人？起初又是怎么扭转想法搭建了机器学习开源库？

Clement： 我和 Julien Chaumond、Thomas Wolf 一起开办了 Hugging Face。咱们十分酷爱机器学习，认为机器学习代表将来，是咱们想为之奋斗的事业。

咱们心愿挑战机器学习畛域最难的方向，所以决定开发一个娱乐型的凋谢域对话式 AI，就像科幻电影《Her》外面的 AI 那样，能够跟人聊天气、敌人、恋情和体育比赛等各种话题。市场上还没有人很好地做出这样的聊天机器人，过后的 Siri 和 Alexa 都是事务型 AI，次要是为了帮忙人类实现某些工作，不足趣味性和娱乐性。所以咱们就定下了这个守业方向。

为了做好凋谢域的对话式 AI，咱们必须做好一系列不同的机器学习工作。咱们须要从文本中提取信息，了解文本用意和情感，还要生成答复，对话中波及图片时还须要进行图像识别。咱们还心愿 AI 可能驾驭多种聊天话题，所以须要多种数据集，比方聊体育比赛要有体育数据集，聊天气要有天气数据集等等。

刚开始的两年咱们都在做这件事，很侥幸在守业初期就可能把本人想做的事做好。

起初就搭建了 Hugging Face 平台，下面有各种不同的模型和数据集，简直想到什么就加进去，因为咱们始终心愿能为整个机器学习社区做奉献。在咱们决定开源后，就失去了热烈反应，大家都踊跃地奉献代码，很多公司也开始应用 Hugging Face 库，让咱们感觉发明了微小的价值。

尽管过后还不分明这个平台的具体意义是什么，但既然有这么多人感兴趣，那它肯定有比拟大的作用。几个月后，咱们就决定从研发聊天机器人转向搭建机器学习平台，而后在这条路上始终走到明天。这是咱们守业途中最正确的决定，咱们对此十分开心。

Pieter：你们当初为什么抉择开源模式？

Clement： 不同公司想法不同，有些公司认为其次要竞争力在于领有其余公司所没有的技术，而咱们认为公司的竞争力在于技术是否翻新，开发速度是否够快，所以抉择了开源。

在机器学习这样疾速倒退的畛域，技术更迭突飞猛进。通过开源共享，既能够帮忙别人，又能够为社区吸引到优秀人才，从而进步本人解决问题的能力。

只管有些人可能不违心为社区做奉献，但我认为开源是一个理智的决定，能够进步技术敏感度，保障公司永远处于技术前沿。

当初很多 AI 公司曾经失去了技术劣势，即便是盈利良好的公司也招不到 AI 畛域的外围人才，这个问题很致命，因为没有前沿技术人才，做进去的货色都是落后、过期的。

Pieter：我记得 Hugging Face 平台一开始开源的是 Transformer 库。2017 年，Google 在 Attention is All You Need 这篇论文中提出了 Transformer 模型，能够说是继 Geoffrey Hinton 团队的 AlexNet 后 AI 界最重大的冲破之一。Transformer 模型颁布时，你们有什么想法？

Clement： 咱们那时始终很关注行业动态，比方 Jeremy Howard 和 Sebastian Ruder 发表的成绩（https://arxiv.org/abs/1801.06146）。咱们也在实际一些好的想法，比方表征学习（representation learning）。咱们读了那篇 Transformer 论文，起初又试用了 BERT 模型，感觉十分震撼，决定做点什么。咱们的库建起来后，很快就吸引了很多用户，感觉能够在这方面施展重大影响力。

Pieter：当初人们参加和应用机器学习的形式有很多，有人须要机器学习 API，有人须要下载模型用以训练，还有人可能只须要训练模型的数据。在这么多不同的需要中，Hugging Face 如何找准定位？

Clement：Hugging Face 的用户所抉择的形象层不仅取决于他们的公司类型，还取决于他们在机器学习开发周期中所处的阶段，用户在机器学习开发周期的不同阶段须要不同的形象层。

当他们处在构建新产品或者构建工作流新性能的初始阶段，他们可能心愿从最简略的形象级别开始，例如从 API 甚至是 demo 开始。他们能够在 Hugging Face 平台上立刻试用和测试所有的模型，无需编写任何代码。

这样他们就能够在我的项目初期十分不便地测试新模型、新用例和新性能。随着新性能逐步开发成熟，用户会心愿本人可能操控更多内容，也违心投入更多资源，在本人的设施上优化大规模推理、升高提早。这时，他们能够逐步接触 HuggingFace 堆栈中更多的可扩大内容，例如能够应用简直囊括了市面上最受欢迎的开源库。

Pieter：对用户来说，Hugging Face 是一个提供模型的平台，但用户也是 Hugging Face 平台模型共享的贡献者，你们如何疏导用户进行共享？

Clement：Hugging Face 社区的倒退是一个有机的过程，咱们很乐意依据社区用户的意见改良 Hugging Face 平台。平台创建初期，齐全是社区驱动，咱们先搞清楚研发人员想要什么，而后去满足他们的需要。比方研发人员最后想要的是一个托管模型的平台，咱们就构建了这样的平台。

起初吸引了一些非研发的用户，他们也想要试用模型，然而运行不起来，所以咱们就开始反对在 web 界面演示模型，比方之前收买的 Gradio 反对用 Python 演示机器学习模型。

也有研发人员提出来，是否能够提供路径让他们能就模型的偏差和局限进行阐明，所以咱们就推出了模型卡（model card），这样研发人员能够与想应用模型的公司进行沟通，这相似于一个迭代的过程。模型卡的提出者 Margaret Mitchell 博士也在几个月后来到谷歌，退出了咱们的团队。

Pieter：Hugging Face 提供的是平台，那你们怎么取得支出？

Clement： 如果你看看过来十年市场上初创公司的守业历程，会发现开源模式的商业可行性失去了无力印证。像 MongoDB、Elastic、Confluent 等是支出增长最快的开源公司，取得了商业上的胜利。

开源的目标是为整个行业发明更大的价值，通过开源，模型能够失去十分宽泛的应用。有一万多家公司在应用 Hugging Face 的超过十万个模型，其中一半的模型是公开的，任何人都能够应用。

在如此宏大的用户群体中，总有一部分公司违心付费，例如一些大型公司心愿付费取得更多的企业性能，还有一些公司因为重度依赖 Hugging Face 平台而产生了某些特定的需要，所以心愿通过付费失去解决。

因为咱们秉持做好机器学习和实现机器学习“平民化”的信念，所以咱们肯定不能成为闭源公司单打独斗，咱们心愿采取一种十分凋谢的合作形式，让任何人都能够和咱们一起做出奉献。

Pieter：一年前，我始终认为 Hugging Face 是 NLP 开源的大本营，但最近 Hugging Face 中新增了很多视觉模型。

Clement： 目前在 Hugging Face 上语音模型和视觉模型都很热门，语音模型的下载量是每月约 30 万次，视觉模型的下载量每月超 20 万次。像 Vision Transformer 这样的 Transformer 模型在语音和视觉畛域曾经开始超过一些 SOTA 模型。

咱们刚刚实现了 C 轮融资，会继续加大对计算机视觉、语音强化学习、生物化学等方面的投入。我更期待看到不同畛域之间的联合：比方将语音与 NLP、计算机视觉联合，增加强化学习来做对齐。通过将机器学习的不同畛域进行交融，咱们能够摸索如何进步传统工作的精确度，让研发人员和公司更易上手；同时能够摸索创立新的用例，解决遗留难题。

Pieter：尽管当初 Hugging Face 曾经不局限于 NLP，但你们始终处于 NLP 倒退的核心。过来五年 NLP 的倒退速度太疯狂，你如何对待 NLP 的迅猛发展，以及它将来的发展前景。

Clement：NLP 的倒退速度的确很疯狂，这种迅速倒退的终点大略是 Google 在 2017 年发表的论文《Attention is All You Need》，接着 2018 年呈现了 BERT 模型。

Transformer 模型基本上在每一项 NLP 工作和每一个基准测试中击败所有的 SOTA 模型。自此，越来越多的预训练模型呈现，从 BERT 开始，而后是 GPT，RoBERTa 以及 T5。

这些新一代的模型让 NLP 变得更精确、易用。所以在这些模型公布几周后，许多公司借助 Hugging Face 平台和开源库，开始将这些模型利用到生产中，例如搜寻性能、信息提取性能、文本分类性能等。

而后就产生了一个良性循环：这些模型越来越欠缺，准确性越来越高，公司应用这些模型并且看到了其中的价值，而后在机器学习和 NLP 中加大投入，从而取得更好的模型。这种良性循环彻底改变了 NLP 畛域的格局，把 NLP 这个三四年前还很小众的机器学习畛域，变为当今最大的机器学习门类。

当初 Transformer 模型曾经扭转了 NLP 畛域的格局，也开始利用在语音、视觉、强化学习等领域。这得益于“凋谢迷信”的推动，“凋谢迷信”指的是，全世界顶尖钻研实验室的科学家都公开本人的钻研论文，将本人的模型面向全世界开源。

我之所以提起这一点，是因为当初参加“凋谢迷信”和开源的实验室越来越少了。我心愿唤起大家对开源和凋谢的器重，没有这种精力就没有 Hugging Face 明天的倒退。如果大家不再公开分享本人的成绩，将来咱们的倒退速度就会变慢。

Pieter：“凋谢迷信”的力量十分弱小，特地是在机器学习畛域。我想，当初越来越多人抉择闭源是因为训练模型的老本太高了。他们花了数百万美元来解决海量数据、训练模型，因而很难狠下心将模型公开提供给外界收费应用。

Clement： 是的。延聘机器学习人才的老本也十分高，不过纵观整个模型生态，尽管初始训练的老本略显昂扬，但一旦训练实现，就能够间接用在很多用例中，模型利用率十分高。以往，咱们必须针对每项工作、每个畛域、每种语言和每个用例从新训练模型，当初如果想让模型执行新畛域的新工作，甚至解决一种全新语言，后续对它们进行老本较低的微调就能够了。这就是迁徙学习的美好之处。

当然，大多数的模型训练都是由科技巨头或大公司实现，它们资金富余，所以几百万美元的训练老本对它们来说也只是沧海一粟。

如果综合思考各种因素，我认为当初抉择将模型开源共享仍然非常划算，因为开源带来的收益要比投入的训练老本多得多。开源能够让更多人接触到你的模型，进步知名度，能够帮你培养生态，晋升模型性能，缩小模型偏差，还能够帮你吸引到更优良的研究员，因为卓越的研究员会更心愿为整个行业做奉献，而不仅仅是为某一家公司服务，这也解释了为什么科学界一旦有了新研究成果，总要发表论文公开研究成果。

机器学习也是一个迷信推动的畛域，因而同样实用这个情理。惋惜目前大家分为若明若暗的两大阵营，有人关注模型的短期经济效益，有人着重久远的可继续效益。

Pieter：Transformer 模型仿佛比以往的模型更通用，仿佛朝着人类大脑的通用性迈近了一步。你认为 Transformer 模型的通用性在代码上有所体现吗？如果要用 Transformer 模型解决不同的工作，有多少代码能够共享？

Clement： 没错，代码共享是迁徙学习的一大个性，而迁徙学习是 Transformer 模型的根底，也是机器学习中最令我感到振奋的倒退方向，它能够进步通用性。

一开始 Transformer 模型只是利用于 NLP 和文本处理，但当初还能够利用于其余模态。于是当初诞生了更多的多模态模型，例如 CLIP 和 DALL- E 是“文本 + 图像”的混合，我置信，将来不同模态之间的界线会慢慢隐没。

Andrej Karpathy 在 Twitter 上发表过一系列帖子，很好地解释了为什么不同模态之间的差异会慢慢放大。我置信大略在三年后，咱们不会再依照不同模态把机器学习细分为计算机视觉和 NLP 等畛域，而只会整体议论 Transformer 模型、迁徙学习和机器学习。因为辨别多种模态曾经没有必要，不同模态仅意味着模型的输出数据类型有所不同而已。

这种通用性也会给机器学习注入新生机。首先，本来分属不同畛域的研究者能够单干，促成科研倒退；其次，不同的公司能够应用雷同的形象，这样它们开发新性能时就会容易很多。例如，不同公司要研发的性能和应用的工作流有所不同，但它们都能够应用 Hugging Face 平台上的资源，而不用独自从新研发新零碎。

很多公司一开始只是研发一个非常简单的性能，例如信息提取。实现了这个性能后，基于模型的通用性，他们又能够用同一个模型持续研发文本分类性能，再到文本主动补全性能，继而拓展到图像分类，能够始终一直倒退上来。最终，更多公司能够开发更多机器学习性能——这就是实现机器学习的“平民化”。

Pieter：作为一个超级篮球迷，我发现 NBA 球星杜兰特也投资了你们。

Clement： 咱们意识的过程挺有意思。杜兰特是天使投资人之一的 Brian Pokorny 举荐意识的，Brian 在 SV Angel 工作，在公司成立晚期，他给了咱们很多帮忙，大家都叫他“教练”。Brian 把我介绍给杜兰特和他的投资公司 Thirty Five Ventures 的经理人 Rich Kleiman，咱们就这样意识了。

我是一个法国人，之前对 NBA 理解也不多。第一见他时不晓得他的身份，就像和普通人谈话一样和他失常交换，也没有像粉丝见到偶像一样冲动。只管他没有说，但我认为他还是很同意这种沟通形式。

他十分看好机器学习这类技术工作的前景，而且整个沟通过程比拟轻松，不像和其余公司沟通时那么庄重，但看待本人的事业，咱们都是认真负责的。

还有一个比拟有意思的事，他投资咱们时还在勇士队，于是作为合作伙伴，我开始反对勇士队，过后我住在纽约，然而带着金州勇士队的帽子。两年后，他退出了离我一个街区远的布鲁克林篮网队，过后我住在巴克莱核心（篮网队主场）旁边的格林堡。

而后我就犯难了。如果转向反对篮网队，我会被人说是“叛徒”；如果持续反对勇士队，但杜兰特就在离我一个街区远的球队打球，我很尴尬，所以那时我抉择进行关注 NBA。

Pieter：C 轮融资实现后，团队的规模也在逐渐扩充吧？

Clement： 是的，Hugging Face 凋谢了很多岗位。团队从去年的 30 人扩充到了当初 130 多人，打算在年底扩充到 200 人左右。咱们的招聘形式和传统的招聘形式不太一样，咱们想找一些和公司文化相符合，可能扩充公司价值的人，所以没有设置特定的岗位名称和岗位职责。

我认为，不论处在什么岗位，从事什么样的工作内容，只有员工认可咱们的事业并且违心为之奋斗，他们都能够找到本人的价值，在公司发光发热。咱们始终坚守”去中心化、凋谢合作、价值导向“的价值观。

Pieter：你们的办公地点散落在不同城市，日常工作形式是怎么的？

Clement：Hugging Face 在成立之初就在不同城市有办公地点，我在纽约，Julien Chaumond 在巴黎，Thomas Wolf 在荷兰。当初咱们在巴黎和纽约有几个大的办公室，在帕洛阿尔托（位于美国加利福尼亚州圣克拉拉县西北部）、瑞士、伦敦、法国南部各有一间小办公室。

我目前次要在佛罗里达州迈阿密的办公室工作，有时也会飞到另一个中央办公。咱们团队约 60% 的成员都在世界各地近程办公，有时会飞到办公室和团队成员一起线下办公。

在 2016 年公司创建晚期，咱们就开始近程办公，并且始终连续至今，这对去中心化的公司文化十分适合。去中心化的外围是异步、公开和通明，比方咱们的沟通都是在 Twitter 和 Slack 上进行。

新冠疫情暴发后，员工去办公室受到了限度，而此时近程办公的工作形式劣势尽显。

（本文经受权后编译公布。原视频：https://www.youtube.com/watch…）

欢送下载体验 OneFlow v0.8.0 最新版本 ：https://github.com/Oneflow-In…

关于机器学习:Hugging-Face成为机器学习界的GitHub

从研发聊天机器人到开源平台

“凋谢迷信“推动机器学习的倒退

Hugging Face 的工作形式

Just My Socks（注册教程内含优惠码）

关于机器学习:Hugging-Face成为机器学习界的GitHub

从研发聊天机器人到开源平台

“凋谢迷信“推动机器学习的倒退

Hugging Face 的工作形式

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）