关于机器学习:OpenAI-和谷歌最怕的是一张开源笑脸

3次阅读

共计 5737 个字符,预计需要花费 15 分钟才能阅读完成。

「咱们没有护城河,OpenAI 也没有。」

在最近泄露的一份文件中,一位谷歌外部的钻研人员表白了这样的观点。这位钻研人员认为,在这场强烈的 AI 比赛中,尽管谷歌与 OpenAI 在你追我赶,但真正的赢家未必会在这两家中产生,因为有股第三方力量正在崛起。

这个力量就是「开源社区」,它才是谷歌和 OpenAI 最大的敌人。

而开源社区的顶流,当属 Hugging Face 了。作为一个 AI 畛域的 Github,它提供了大量高质量的开源模型与工具,将研发成绩最大水平地惠及社区,极大地升高了 AI 的技术门槛,推动了 AI 的「民主化」过程。

它的创始人之一,Clément 还曾公开示意:「在 NLP 或者机器学习畛域,最坏的状况,就是要与整个科学界和开源界竞争。因而,咱们不再试图竞争,转而抉择为开源界和科学界赋能。」

Hugging Face 创建于 2016 年,几年间连获 5 轮融资,目前估值曾经飙到 20 亿美元,Github 上的星标数量曾经超过了 9.8w,稳居热门资源库之列。

那么这家公司是做什么的?是如何逆袭成为开源界的「顶流」的? 它的倒退模式又是怎么的呢?

1,NLP 开启逆袭之路

Hugging Face 是一家以自然语言解决 (NLP) 技术为外围的 AI 初创公司。

它是由法国间断创业者 Clément Delangue(曾开办笔记平台 VideoNot.es,媒体监测平台 mention 以及被 Google 收买的挪动开发平台 Moodstocks 等我的项目)和 Thomas Wolf、Julien Chaumond 一起开办的,于 2016 年成立,总部设在美国纽约。

其中的两位创始人 Clément Delangue 和 Thomas Wolf 都是自然语言解决畛域的专家。在一直推动 Hugging Face 的倒退的过程中,他们被视为当代 NLP 畛域的先锋。

他们开办 Hugging Face 的初衷,是为年轻人带来一个「娱乐型」的「凋谢畛域聊天机器人」,就像科幻电影《Her》外面的 AI 那样,能够跟人聊天气、敌人、恋情和体育比赛等各种话题。大家能够在无聊的时候跟它聊八卦、问它问题、让它生成一些乏味的图片之类的事件。

也正因如此,Hugging Face 的名字来源于一个张开双手的可恶笑脸 emoji。

2017 年 3 月 9 号,Hugging Face App 在 iOS App Store 正式推出,就失去了不少关注,还拿到了包含 SV Angel、NBA 球星杜兰特等投资人在内的 120 万美元的天使投资。

为了训练这个聊天机器人的自然语言解决(NLP)能力,Hugging Face 构建了一个资源库来包容各种机器学习模型和各种类型的数据库,包含帮忙训练聊天机器人检测文本音讯情绪、生成连贯的响应、了解不同对话主题等。

同时,Hugging Face 团队在 GitHub 上将此库的收费局部开源,目标是从用户共创中取得开发灵感。

到了 2018 年,Hugging Face 依然不温不火,便开始收费在线分享应用程序的底层代码。这一行动立刻收到了谷歌、微软等业内出名科技公司的钻研人员的积极响应,他们开始将这些代码用于 AI 应用程序,这个笑脸 emoji 也开始被宽广 AI 开发者们所熟知。

凑巧同年,谷歌推出基于双向 Transformer 的大规模预训练语言模型 BERT,开启了 AI 模型的「内卷时代」。

在这样的大环境下,Hugging Face 做起了提供 AI 模型的服务,随之迎来了本人的「黄金时代」。

它先是开源了 PyTorch-BERT;随即,又整合了它先前奉献的 NLP 畛域的预训练模型,公布了 Transformers 库。

Transformers 库提供了数以千计的预训练模型,反对 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。借助 Transformers 库,开发者能够便捷地应用 BERT、GPT、XLNet、T5、DistilBERT 等 NLP 大模型,来实现文本分类、文本总结、文本生成、信息抽取、主动 QA 等 AI 工作,节俭大量的工夫和计算资源。

简而言之,Transformers 库提供间接可用的模型,无需企业再度开发;因而,泛滥企业开始借助 Transformers 库,将模型利用到产品开发和工作流程中。

Transformers 库也因而迅速地流行起来,成为了 GitHub 史上增长最快的 AI 我的项目。

Hugging Face 的创始人之一 Clément Delangue 也不禁感叹,「咱们公布货色时没有思考太多,而社区的爆炸式增长甚至让咱们感到诧异。」

面对如此多的开发者,Hugging Face 牵强附会地建设了本人的社区,Hugging Face Hub;同时,调整产品策略,不再局限于自然语言解决,而是将机器学习的不同畛域进行交融,摸索创立新的用例,着手构建一套残缺的开源产品矩阵。

截至 2023 年 4 月,Hugging Face 共享了 16,6894 个训练模型,2,6900 个数据集,涵盖 NLP、语音、生物学、工夫序列、计算机视觉、强化学习等畛域,搭建了残缺的 AI 开发生态。

这大大降低了相干钻研与利用的门槛,让 Hugging Face 成为 AI 社区最具影响力的技术供应商。

目前,这些模型曾经服务了数万家企业进行资源开发,帮忙科研人员和相干从业人员更好地构建模型、更好地参加到产品和工作流程中,其中不乏 Meta、亚马逊、微软、谷歌等出名 AI 团队。

在资本市场,Hugging Face 也同样备受青眼。

在 2022 年 5 月,团队实现了由 Lux Capital 领投、红杉资本参投的 1 亿美元 C 轮融资,估值狂飙到 20 亿美元。

面对资本的追捧,Hugging Face 的创始人体现的极其沉着,示意回绝了多个「有意义的收买邀约」,并且不会像 GitHub 那样发售本人的业务。对于 Hugging Face 的将来,它的创始人还有一些乏味的想法:「咱们心愿成为第一家以表情符号上市的公司,而不是三个字母的股票代码。」

2,AI 大模型的 Github

凭借开源取得了万众瞩目的 Hugging Face,也分外重视社区的建设,而刚刚诞生不久的 Hugging Face Hub,当初俨然曾经成为 AI 开发者的大本营。

Hugging Face Hub 是一个摸索、试验、单干,并建设机器学习技术的核心场合。在这里任何人都能够分享和摸索模型、数据集等,大家轻松单干,独特构建机器学习模型,Hugging Face Hub 也因而被称做「机器学习之家」。

它是 Hugging Face 保持「开源」的产物,也是它的外围。正如官网的宣传语所述:AI 社区,建设将来。

Hugging Face 的创始人曾公开示意「Hugging Face 的指标是通过工具和开发者社区,让更多的人应用自然语言解决工具,达成他们的翻新指标,让自然语言解决技术更容易应用和拜访。」

他还补充说,「没有任何一家公司,包含科技巨头,可能单独『解决 AI 问题』,而咱们实现这一指标的惟一路径,是通过以社区为核心的形式,分享常识和资源。」

因而,公司致力于在 Hugging Face Hub 上建设最大的模型、数据集、演示和指标的开源汇合,以使每个人都能利用机器学习进行摸索、试验、单干和构建技术,从而实现 AI「民主化」的指标。

目前,Hugging Face Hub 提供超过 12 万个模型(Models)、2 万个数据集(Datasets) 和 5 万个演示应用程序(Spaces),而且所有这些都是开源、公开、收费的。

Hugging Face Hub 对所有机器学习模型凋谢,并失去 Transformers、Flair、Asteroid、ESPnet、Pyannote 等自然语言解决库的反对,其中,最外围的自然语言解决库是 Transformers 库。

Transformers 库反对 PyTorch、TensorFlow 和 JAX 之间的框架互操作性,这确保了在模型生命周期的每个阶段应用不同框架的灵活性。而且,通过 Inference API(推理 API),用户能够间接应用 Hugging Face 开发的模型与数据集,进行推理、迁徙学习,这让 Transformers 框架在性能与易用性上达到业界领先水平,彻底改变了深度学习在 NLP 畛域的倒退模式。

此外,该平台还提供了一些实用工具,如模型版本控制、测试集成、共享和合作等,能够帮忙开发人员更好地治理和共享模型和数据集。

因而,在 Hugging Face Hub,任何开发者或者工程团队都能够通过接口,应用数千个模型的推理 API,轻松下载和训练最先进的预训练模型,实现不同模式的常见工作,例如自然语言解决、计算机视觉、音频、多模态等,在几分钟内构建本人的机器学习驱动的应用程序,省去了从头开始训练模型,所需的大量工夫和资源。

在此基础上,他们还能够在本人的账号下创立本人的仓库,用于存储和分享曾经训练好的模型、数据集和脚本,同时与弱小的社区分享交换,轻松合作实现 ML 工作流程。

简而言之,Hugging Face Hub 为研究者提供了一个平台,去展现那些他们想要分享的模型,测试别人的模型,以此来深入研究这些模型的外部架构,独特促成 ML 的倒退。而此前,AI 对前端开发者来说仿佛遥不可及,毕竟到目前为止,只有多数代码生成的 AI 零碎向公众收费凋谢。

也正因如此,Hugging Face 决定在社区提供开源模型和 API 来扭转这种情况,被动承当起 AI 科研走向利用的这个过程中简单、细碎的工作,使得任何 AI 从业者都能够便捷地应用这些钻研模型和资源。用 Hugging Face 本人的话来讲,他们所做的事件,就是要架起 AI 科研和利用之间的桥梁。

除了提供便当,Hugging Face 还踊跃采取措施强化 Hub 的安全性,确保用户的代码、模型和数据是平安的,让用户放心使用。

例如,在模型库装备模型卡,以告知用户每个模型的限度和偏见,从而促成这些模型被负责任地应用和开发;在数据集设置访问控制性能,容许组织和集体能够出于许可和隐衷思考,创立私人数据集,并且能够自行处理其余用户的拜访申请。

还值得一提的是,为了进一步使自然语言解决技术「民主化」,Hugging face Hub 上还开设了 NLP 课程——Hugging Face course。

该课程将应用 Hugging Face 生态系统中的数据库(Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和 Hugging Face Accelerate),解说自然语言解决 (NLP) 的无关常识。它是完全免费的,甚至没有广告。

简而言之,Hugging Face Hub 就像是机器学习畛域的 GitHub。一个由社区开发者驱动的平台,提供大量资源,让开发人员能够在机器学习(ML)模型、数据集和 ML 应用程序上,一直摸索、翻新和相互合作,通过分享常识和资源以减速和推动 AI 倒退。

3,开源带动商业

那么问题来了,一家提供「平台社区」的「开源」公司,又是如何盈利的呢?

首先,「开源」就是一个正确的决定。

Hugging Face 凭借开源我的项目 Transformers,积攒了微小的影响力,汇集了宽广开发者构建了宏大的社区 Hugging Face Hub,也博得了客户与投资者的信赖,这使得它的商业化转型瓜熟蒂落。

对此,红杉资本合伙人 Pat Grady 也示意,「他们优先思考的是利用,而不是变现,我认为这是正确的做法。他们看到了 Transformer 模型在 NLP 之外的利用形式,看到了成为 GitHub 的机会,这不仅是面向 NLP,而且会延长到机器学习的每个畛域。」

而且,纵观过来十年,市场上初创公司的守业历程,会发现开源模式的商业可行性失去过无力的印证。像 MongoDB、Elastic、Confluent 等,都是支出增长最快的开源公司,它们都实现了盈收,并且还在市场中存活了下来。

Hugging Face 的创始人之一,Clément 也因而深信,「初创公司能够通过某种形式为凋谢的社区赋能,此种办法产生的价值,比通过搭建一个专有工具,产生的价值高出上千倍。」

甚至公开示意,「思考到开源机器学习的价值和它的支流位置,其使用量就是递延支出。机器学习会成为技术开发的默认形式,而且 Hugging Face 会成为这方面的头等平台,并发明出数十亿美元的支出。」

因而,Hugging Face 抉择了「开源带动商业」,这一商业化倒退门路,并在 2021 年开始提供付费性能。

目前,Hugging Face 的盈利业务次要有三类:

  • 付费制会员:提供更加优质的服务和社区体验,来取得收益;
  • 数据托管:依据不同参数需要,提供不同的按小时免费托管服务;
  • AI 解决方案服务:目前的主打产品,围绕 NLP、Vision 等方向为客户提供定制化解决方案,以取得技术服务费用。

值得一提的是,从 2020 年开始,Hugging Face 就开始做面向企业的定制自然语言模型,并推出了包含 AutoTrain、Inference API & Infinity、Private Hub、Expert Support 等,针对不同开发者类型的个性化产品。

目前,1000 多家公司曾经成为了 Hugging Face 的付费客户,次要是大型企业,包含英特尔、高通、辉瑞、彭博社和 eBay。

2021 年,Hugging Face 曾经实现支出 1 千万美元,从数据上来看,Hugging Face 这套的「开源带动商业」的策略是胜利的。

这也印证了 Hugging Face 的 CEO,Clément 所说的,「公司不须要从发明的价值中获取 100% 的红利,只需将其中 1% 的价值变现,但即使只是 1%,也足够让你成为一家高市值的公司。」

简而言之,Hugging Face 凭借开源社区积攒影响力,而后逐渐向 SaaS 产品和企业服务拓展。这种渐进式的转型,让 Hugging Face 在开源和商业化之间,获得了良好的均衡,也是其能取得成功的重要起因。这种倒退策略也让 Hugging Face 成为了 AI 界自成一家的存在,并为其余 AI 初创公司建立楷模。

然而,开源生态也有它本人的软肋,因为商业化的倒退很可能会挫伤到天然成长的社区环境。对此,Hugging Face 的做法是增强对技术的管控,保护本人的开源生态;同时,向科研畛域深挖。

「机器学习技术依然还处于晚期倒退阶段,开源社区的后劲是微小的。在将来 5 到 10 年,咱们肯定还会看到更多开源机器学习公司的崛起。」

正文完
 0