关于人工智能:开源风暴吞噬AI界从Stable-Diffusion的爆火说起

近日，文本生成图像模型Stable Diffusion背地的公司Stability AI发表取得了1.01亿美元超额融资，估值达10亿美元，这家基于开源社区的“草根”企业的风头一时间甚至盖过了业界顶级钻研机构OpenAI。

本文作者认为，只管开源我的项目存在商业模式、开源许可协定等方面的挑战，但通过良好开源社区的驱动，AI我的项目的技术倒退、利用广度和发明空间都有了意想不到的倒退，正如开源“吞噬”软件1.0，“开源AI”静止将在软件2.0时代不可阻挡。OneFlow社区对此进行了编译。

作者｜swyx
翻译｜胡燕君、贾川

文本转图像模型的倒退周期历时数年：

2020年7月：OpenAI发文介绍Image GPT模型，将语言模型利用到图像畛域。
2022年3月：AI图像生成平台Midjourney启动Beta版本测试。
2022年4月：OpenAI发表容许肯定数量的用户对其AI图像生成工具DALL-E 2 进行“研究性试用”。
2022年5月：Google以论文模式颁布其文本-图像生成模型Imagen，Imagen由PyTorch实现。
2022年7月：OpenAI 通过UI/API凋谢DALL-E 2进行公开测试，参加公测的用户须先进入期待名单。
2022年7月：Midjourney通过Discord通信平台公布音讯示意行将进行公开测试。
2022年8月：文本-图像生成模型Stable Diffusion公布，这是一款基于OpenRAIL-M许可的开源模型。
2022年9月：OpenAI勾销DALL-E 2的期待名单。

GPT-3从颁布到被复制历时10个月：

2020年5月：OpenAI以论文模式公开GPT-3，并在随后的6月公布了未公开的Beta版API。
2020年7月：非营利开源钻研组织EleutherAI成立，成为OpenAI的替代者。
2020年9月：Microsoft取得GPT-3的独家受权。
2021年1月：EleutherAI颁布其800G数据集The Pile。
2021年3月：EleutherAI颁布了别离含13亿和27亿参数的两版开源GPT-Neo模型（GPT-Neo是对GPT-3的克隆版）。
2021年11月：OpenAI勾销GPT-3的期待名单，开发人员能够间接报名应用其API。
2022年5月：Meta颁布大型语言模型OPT-175B，供钻研人员应用，还颁布了模型日志和开源许可证明。
2022年6月：俄罗斯互联网巨头Yandex颁布了YaLM-100B，这是一个基于Apache-2许可的类GPT开源模型。
2022年7月：HuggingFace公开了BLOOM-176B，一个基于RAIL许可证明的大型语言模型。

GPT-2从颁布到被复制历时6个月：

2019年2月，OpenAI发表GPT-2诞生，为了防止模型受到不良利用（如被用于制作虚伪新闻等），过后决定不将模型齐全开源；3月，OpenAI放弃“非营利机构”的定位，成立OpenAI LP（无限合伙公司），宣称进入“无限营利”经营模式。
8月，两名计算机硕士复制出GPT-2并将其对外公开，称为OpenGPT-2。
11月，通过审慎的分阶段逐渐颁布，OpenAI终于齐全开源了含15亿参数的GPT-2模型。

上述工夫线曾经过高度精简，理论发展史还可追溯到2015年提出的扩散模型（Diffusion Model）、2017年提出的Transformer模型，以及更早之前对生成反抗网络（GANs）的钻研。

乏味的是，2022年9月，OpenAI基于MIT许可公开了其Whisper语音转文本模型，并且不设置付费API。当然，语音转文本性能受到不良利用的可能性较低，所以此类模型的开源危险也更低，但也有观点认为，OpenAI此次的开源决定是受到Stable Diffusion开源后爆红的影响。

Dreambooth：开源社区掌舵我的项目倒退

一个先进的开源社区能够施展魔法般的作用。业余的钻研团队或资金短缺的团队或者能够开发出很好的根底模型，但只有开源社区能力更好地将各种用例产品化，并且优化模型的理论落地应用。

最能体现这一点的例子是Dreambooth的倒退。Dreambooth是一个文本转图像模型，反对经小样本学习（Few-Shot Learning）后生成精调图像，生成的图像既可保留主体的精密特色，又能为主体切换任意背景。

Dreambooth体现了文本转图像模型的现实优化方向，因为它不止须要用户下载模型间接运行，还须要用户依据样本图像进行精密训练，但原始端口须要的内存太大，大多数用户的训练设施都无奈满足条件。

2022年9月，Corridor Digital的一则YouTube视频展现了Dreambooth的神奇性能，视频使用文本-图像生成模型依据视频创作者自己照片生成特效人物图像，很快爆火（视频：https://www.youtube.com/watch…）。

这是Dreambooth的倒退历程：

2022年8月26日，Dreambooth发表诞生；12天后颁布了开源端口；又过了25天后，训练Dreambooth的所需内存空间升高了79%；10月8日，Dreambooth曾经能在8GB GPU上训练。

对Dreambooth的优化大多数由Xavier Xiao和Shivam Shrirao通过GitHub实现，意大利工程师Matteo Serva也提供了帮忙。Xavier Xiao来自新加坡，博士主攻生成模型与优化，现就职于AWS AI；Shivam Shrirao，计算机视觉高级工程师，现居印度。这两位都并非Dreambooth原始团队的成员。

当初，容易优化的中央都已优化结束，于是有人开始放心：持续优化上来的投入产出比会越来越低，但起初这种放心不攻自破。8月份时，Stable Diffusion能够在内存为5~10GB的GPU上运行——商用GPU的内存个别为6~12GB，苹果产品都有对立内存（Unified Memory）。到了9月，Stable Diffusion已能在iPhone XS上运行。

这应该是所有开源AI模型都想通过优化达到的指标。如果能够在小设施上运行，图像生成将不再受限于昂扬的云计算费用和微薄的利润，能够失去更宽泛的应用。

钻研人员做不到，但开源能做到的

在目前的三大新兴文本转图像模型中，Stable Diffusion诞生得最晚，但因为领有倒退良好的开源社区，它的用户关注度和利用广度都超过Midjourney和DALL-E。

这启发咱们，如果开源其余畛域的AI模型（如音乐、生物、语言模型），将同样能够发明新机遇。

在技术水平上，开源社区能够带来以下几方面的改善：

欠缺文档

Stable Diffusion原始版本的README文档对老手而言不太敌对
于是开源社区单干制作了：

两个版本的指南：https://rentry.org/GUItard；https://keras.io/guides/keras…
博客文章
推特帖
YouTube视频教程
Google Colabs教程
网页正文和图解

共享提醒词

（注：提醒词即向文本转图像模型输出的文本。）提醒词工程（Prompt Engineering）是一门技术活，GPT-3语言模型颁布三年以来，不少人总能通过扭转提醒词组织模式让模型产生令人惊奇的输入后果。这意味着，大型语言模型还存在很大的潜在摸索空间，既然它能提供出其不意的输入后果，那么它也有可能实现超乎咱们设想的性能。
每个文本转图像工具的用户社区都有约定俗成的共享提醒词的形式，这样咱们就能够构建提醒词展览集，从而大幅缩小提醒词搜查工夫（从>30秒升高到<300毫秒，升高整整两个数量级！），并晋升提醒词工程的提高速率。
这也有助于社区协力解决各种技术难题：例如，如何生成真切的手部图片和为什么否定式提醒词的成果更好（否定式提醒词即在提醒词中形容用户不心愿生成什么。）

创立新UI，晋升模型可及性

Stable Diffusion是Python脚本，用户能够创立本人的UI来满足本人的需要，不用局限于Stability AI的Dreambooth（注：Stability AI是Stable Diffusion的研发公司）。
AUTOMATIC1111成为Stable Diffusion用户社区罕用的网络UI，它具备多种性能，集结了社区成员发现的应用教训和技巧。
机器学习社区偏向于应用Windows，因而开源社区想了各种办法让Stable Diffusion能够在M1 Mac乃至 iPhone上应用（如前文例子所述）。
Stable Diffusion的UI通常是独立的APP，但新的应用模式能够将Stable Diffusion植入Photoshop、Figma、GIMP甚至VR，让用户能更自在地将Stable Diffusion融入本人的工作流。

通过扩大现有性能发明新用例

我不分明Inpainting和Outpainting性能的最后发明者是谁，DALL-E的官宣文章中有所提及，但直至呈现开源UI后，这两个性能才变得十分遍及。
更多功能例如：超高清outpainting、3D worlds。
另一种成熟的翻新形式是与其余工具/技术混合，例子包含：

“反向提醒词工程”，即依据图像生成提醒词（ CLIP Interrogator就是一个这样的工具）。
应用txt2mask加强Inpainting。
各种前期解决步骤，如Real-ESRGAN, TECOGAN, GFPGAN, VQGAN, 以及利用automatic1111中的hires fix” 解决图像中的重叠问题等。
创立GRPC 服务器，用于与Stability AI的通信。
为向新模态扩大做筹备，如txt2music和music2img。

优化外围

如前所述，开源社区胜利将Stable Diffusion和Dreambooth的所需内存最小化。
还将Stable Diffusion提速50%。

此外我还想说的是，人工智能和机器学习畛域大多应用Python语言，对散布机制而言十分不平安。所以，在开源AI崛起的同时，咱们也须要“平安的开源AI”。

开源AI的将来

这整个过程不禁让咱们想起软件1.0是如何被开源“席卷”的。

版本控制：从Bitkeeper到Git
语言：从Java工具链到Python、JavaScript和Rust
IDE：从“有许多不错的IDE”到VS Code占据了>60%的市场份额
数据库：从Oracle/IBM到Postgres/MySQL

Anders Hejlsberg是Turbo Pasca、TypeScript等五种编程语言的创建者。他曾说过如下驰名舆论：在将来，编程语言如果不开源，就无奈取得成功。现在，开发所需的工具栈越来越多，置信你也会收回同样的感叹。

因而，咱们很容易联想到软件2.0、软件3.0可能也会被开源“吞噬”，但同时还有一些问题没有解决：

问题1：经济激励

对于有经济头脑的人来说，将根底模型进行开源公布有违他们的直觉。训练GPT-3的老本大概在460万美元到1200万美元之间，其中不包含人力老本和试验老本。即便是号称训练老本只有60万美元（Stability AI的创始人Emad示意，实际成本要比这低得多）的Stable Diffusion，也不可能在没有发出投资的状况下进行开源。

看看OpenAI通过API变现的过程，每个人都可能明确AI经济如何造成：

(模型钻研与模型基础设施的价值/利润孰大孰小还有待商讨，上图暂且把它们设置为大概相等。)

Stability AI的既定目标是成为非营利性参与者，这就使它压低了领有专有根底模型钻研的经济价值，但同时这能够扩充AI的总TAM（Total Addressable Market，总可用市场）：

这也体现了施振荣提出的行业价值散布微笑曲线模型。Ben Thompson也对此进行了宽泛探讨。

还有一个悬而未决的问题是：Stability AI打算如何融资，9月取得的1亿美元的A轮融资为Stability AI博得了喘息工夫。但在Stability AI的盈利模式清晰之前，其生态系统都不会真正稳定下来。

对此，Emad回应：“咱们的商业模式很简略，规模和服务都与一般的COSS（Commercial Open Source Software，商业开源软件）类似，只是在减少附加值方面会有一些波折。”

问题 2：开源许可

依据开源铁杆粉丝的说法：咱们对“license”这个词的了解有误。严格来说，一个我的项目只有领有了一个由OSI批准的开源许可证，能力算是开源（OSI批准的开源许可证共有几十个）许多所谓的“开源”AI模型或衍生品都没有开源许可，例如，以下我的项目都疏忽了许可证这个重要问题：

AUTOMATIC1111/stable-diffusion-webui#24
divamgupta/diffusionbee-stable-diffusion-ui#5
breadthe/sd-buddy#20

Stable Diffusion模型是以新的CreativeML Open RAIL-M许可证公布的，它规定了模型权重的应用标准（模型权重就是破费60万美元训练所获的外围成绩），其中局部内容与OSI认证的许可证雷同，但用例限度方面的内容则不雷同。如果你已经与法律部门和OSI的人打过交道就晓得，这个许可很可能不被认可，而且因为没有法律先例可依，对于这个许可证的有效性七嘴八舌。

Stability AI曾经分明表明能够将他们的产品用于商业目标，甚至公开反对Midjourney应用Stable Diffusion。但如果有一天，开源产品的应用危险比当初高出1000倍，法律细节的重要性就会浮现。

HuggingFace的AI参谋Carlos Muñoz Ferrandis示意：“Meta公布了OPT175（大型语言模型）、BB3（聊天机器人）和 SEER（计算机视觉模型），其许可证相似于RAIL（包含用例限度）并且仅用于钻研目标（依据不同的模型抉择不同的许可）。
援用

OpenAI的Whisper语音辨认模型的模型、权重和代码都基于简略宽松的MIT许可证进行开源。

Emad示意：“除了Stable Diffusion之外，Stability AI反对的所有模型都基于MIT许可公布，包含消耗了120万个A100小时训练进去的的OpenCLIP模型。”

问题 3：“开源”的到底是什么？

至此，本文都还没提到：“凋谢源代码”到底意味着什么。

在典型的软件1.0背景下，“开源”意味着代码库是凋谢的，但不肯定公开了基础设施的设置细节，或者所积攒的/代码操作的数据。换言之，凋谢代码并不代表凋谢基础设施细节或凋谢数据（在实践中，开源社区会心愿开源主体披露一些对于如何自托管（self-host）的根本指南，但这也并非强制要求）。

随着软件2.0的倒退，数据收集变得十分重要，甚至开始主导代码（代码则被“降级”为模型的骨架）。像ImageNet这样的凋谢数据集帮忙培训了整整一代的ML工程师，它还促成了Kaggle较量的衰亡，以及ImageNet挑战赛自身（挑战赛中诞生的AlexNet和CNN将整个AI畛域推向深度学习）。

此外，还呈现了Numerai平台，它通过半同态加密，将实在的金融数据加密，数据科学家能够依据这些“外表无意义”的加密数据，训练出预测模型，用于金融投资——尽管不是严格意义上的凋谢，但也足够凋谢，能够让数据科学家在下面赚点外快。不过，惯常的做法仍然是不公开模型权重，因为权重是训练得出的最有价值的货色。

随着软件3.0和Chinchilla模型所验证的缩放法则的呈现（该法则揭示了模型性能与参数量、数据集大小和计算量之间的关系，可用于领导大型模型的训练），大型语言模型和根底模型就成了代表人类历史上对于繁多大型语料库进行的一次大投资。

“开源AI”静止正通过以下方面推动技术的提高：

开源数据集： 例如，LAION-5B和The Pile。这些数据集已针对动漫图站Danbooru上的素材、日语、中文和俄语进行了批改。
开源模型： 通常以钻研论文的模式公布——如果提供足够的细节，内部人员就能够复制出这个新模型，就像复制GPT3和Dreambooth一样。
开源权重： 这是由HuggingFace的BigScience我的项目（Bloom模型的发布者）发动的新静止，Stability AI的文本转图像模型以及OpenAI的Whisper模型也接过了开源权重的大旗（开源权重的经济性问题在前文的“问题1”中已做探讨）。
开源接口： 容许间接拜访代码，使用户能够批改和编写他们本人的CLI、UI等等，而不像OpenAI的GPT3那样，只提供一个API来调用。
开源提醒词： 用户（如Riley Goodside）和钻研人员（如Aran Komatsuzaki）分享了提醒词技术方面的冲破，以解锁根底模型的潜在能力。

开源AI层级根本如此，确切程序可能依据理论状况会有所不同。

开源人工智能研究所？

OSI设立之时可能没有思考到“开源”AI所波及的上述方方面面，而开源AI文化的基石之一是建设一个满足开源社区冀望、具备标准和法律先例的可信规范。或者Hugging Face和Stability AI能够抓住机会填补这一空缺，又或者这样的规范曾经诞生了，只是我还没有发现。

（本文经受权后由OneFlow编译公布，原文：https://lspace.swyx.io/p/open…。译文转载请分割OneFlow取得受权。）

欢送下载体验 OneFlow v0.8.0 最新版本：https://github.com/Oneflow-In…

关于人工智能:开源风暴吞噬AI界从Stable-Diffusion的爆火说起

Dreambooth：开源社区掌舵我的项目倒退

钻研人员做不到，但开源能做到的

开源人工智能研究所？

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:开源风暴吞噬AI界从Stable-Diffusion的爆火说起

Dreambooth：开源社区掌舵我的项目倒退

钻研人员做不到，但开源能做到的

开源人工智能研究所？

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复