关于人工智能:开源风暴吞噬AI界从Stable-Diffusion的爆火说起

6次阅读

共计 7138 个字符,预计需要花费 18 分钟才能阅读完成。

近日,文本生成图像模型 Stable Diffusion 背地的公司 Stability AI 发表取得了 1.01 亿美元超额融资,估值达 10 亿美元,这家基于开源社区的“草根”企业的风头一时间甚至盖过了业界顶级钻研机构 OpenAI。

本文作者认为,只管开源我的项目存在商业模式、开源许可协定等方面的挑战,但通过良好开源社区的驱动,AI 我的项目的技术倒退、利用广度和发明空间都有了意想不到的倒退,正如开源“吞噬”软件 1.0,“开源 AI”静止将在软件 2.0 时代不可阻挡。OneFlow 社区对此进行了编译。

作者|swyx
翻译|胡燕君、贾川

文本转图像模型的倒退周期历时数年:

  • 2020 年 7 月:OpenAI 发文介绍 Image GPT 模型,将语言模型利用到图像畛域。
  • 2022 年 3 月:AI 图像生成平台 Midjourney 启动 Beta 版本测试。
  • 2022 年 4 月:OpenAI 发表容许肯定数量的用户对其 AI 图像生成工具 DALL-E 2 进行“研究性试用”。
  • 2022 年 5 月:Google 以论文模式颁布其文本 - 图像生成模型 Imagen,Imagen 由 PyTorch 实现。
  • 2022 年 7 月:OpenAI 通过 UI/API 凋谢 DALL-E 2 进行公开测试,参加公测的用户须先进入期待名单。
  • 2022 年 7 月:Midjourney 通过 Discord 通信平台公布音讯示意行将进行公开测试。
  • 2022 年 8 月:文本 - 图像生成模型 Stable Diffusion 公布,这是一款基于 OpenRAIL- M 许可的开源模型。
  • 2022 年 9 月:OpenAI 勾销 DALL-E 2 的期待名单。

GPT- 3 从颁布到被复制历时 10 个月:

  • 2020 年 5 月:OpenAI 以论文模式公开 GPT-3,并在随后的 6 月公布了未公开的 Beta 版 API。
  • 2020 年 7 月:非营利开源钻研组织 EleutherAI 成立,成为 OpenAI 的替代者。
  • 2020 年 9 月:Microsoft 取得 GPT- 3 的独家受权。
  • 2021 年 1 月:EleutherAI 颁布其 800G 数据集 The Pile。
  • 2021 年 3 月:EleutherAI 颁布了别离含 13 亿和 27 亿参数的两版开源 GPT-Neo 模型(GPT-Neo 是对 GPT- 3 的克隆版)。
  • 2021 年 11 月:OpenAI 勾销 GPT- 3 的期待名单,开发人员能够间接报名应用其 API。
  • 2022 年 5 月:Meta 颁布大型语言模型 OPT-175B,供钻研人员应用,还颁布了模型日志和开源许可证明。
  • 2022 年 6 月:俄罗斯互联网巨头 Yandex 颁布了 YaLM-100B,这是一个基于 Apache- 2 许可的类 GPT 开源模型。
  • 2022 年 7 月:HuggingFace 公开了 BLOOM-176B,一个基于 RAIL 许可证明的大型语言模型。

GPT- 2 从颁布到被复制历时 6 个月:

  • 2019 年 2 月,OpenAI 发表 GPT- 2 诞生,为了防止模型受到不良利用(如被用于制作虚伪新闻等),过后决定不将模型齐全开源;3 月,OpenAI 放弃“非营利机构”的定位,成立 OpenAI LP(无限合伙公司),宣称进入“无限营利”经营模式。
  • 8 月,两名计算机硕士复制出 GPT- 2 并将其对外公开,称为 OpenGPT-2。
  • 11 月,通过审慎的分阶段逐渐颁布,OpenAI 终于齐全开源了含 15 亿参数的 GPT- 2 模型。

上述工夫线曾经过高度精简,理论发展史还可追溯到 2015 年提出的扩散模型(Diffusion Model)、2017 年提出的 Transformer 模型,以及更早之前对生成反抗网络(GANs)的钻研。

乏味的是,2022 年 9 月,OpenAI 基于 MIT 许可公开了其 Whisper 语音转文本模型,并且不设置付费 API。当然,语音转文本性能受到不良利用的可能性较低,所以此类模型的开源危险也更低,但也有观点认为,OpenAI 此次的开源决定是受到 Stable Diffusion 开源后爆红的影响。

Dreambooth:开源社区掌舵我的项目倒退

一个先进的开源社区能够施展魔法般的作用。业余的钻研团队或资金短缺的团队或者能够开发出很好的根底模型,但只有开源社区能力更好地将各种用例产品化,并且优化模型的理论落地应用。

最能体现这一点的例子是 Dreambooth 的倒退。Dreambooth 是一个文本转图像模型,反对经小样本学习(Few-Shot Learning)后生成精调图像,生成的图像既可保留主体的精密特色,又能为主体切换任意背景。

Dreambooth 体现了文本转图像模型的现实优化方向,因为它不止须要用户下载模型间接运行,还须要用户依据样本图像进行精密训练,但原始端口须要的内存太大,大多数用户的训练设施都无奈满足条件。

2022 年 9 月,Corridor Digital 的一则 YouTube 视频展现了 Dreambooth 的神奇性能,视频使用文本 - 图像生成模型依据视频创作者自己照片生成特效人物图像,很快爆火(视频:https://www.youtube.com/watch…)

这是 Dreambooth 的倒退历程:

2022 年 8 月 26 日,Dreambooth 发表诞生;12 天后颁布了开源端口;又过了 25 天后,训练 Dreambooth 的所需内存空间升高了 79%;10 月 8 日,Dreambooth 曾经能在 8GB GPU 上训练。

对 Dreambooth 的优化大多数由 Xavier Xiao 和 Shivam Shrirao 通过 GitHub 实现,意大利工程师 Matteo Serva 也提供了帮忙。Xavier Xiao 来自新加坡,博士主攻生成模型与优化,现就职于 AWS AI;Shivam Shrirao,计算机视觉高级工程师,现居印度。这两位都并非 Dreambooth 原始团队的成员。

当初,容易优化的中央都已优化结束,于是有人开始放心:持续优化上来的投入产出比会越来越低,但起初这种放心不攻自破。8 月份时,Stable Diffusion 能够在内存为 5~10GB 的 GPU 上运行——商用 GPU 的内存个别为 6~12GB,苹果产品都有对立内存(Unified Memory)。到了 9 月,Stable Diffusion 已能在 iPhone XS 上运行。

这应该是所有开源 AI 模型都想通过优化达到的指标。如果能够在小设施上运行,图像生成将不再受限于昂扬的云计算费用和微薄的利润,能够失去更宽泛的应用。

钻研人员做不到,但开源能做到的

在目前的三大新兴文本转图像模型中,Stable Diffusion 诞生得最晚,但因为领有倒退良好的开源社区,它的用户关注度和利用广度都超过 Midjourney 和 DALL-E。

这启发咱们,如果开源其余畛域的 AI 模型(如音乐、生物、语言模型),将同样能够发明新机遇。

在技术水平上,开源社区能够带来以下几方面的改善:

欠缺文档

Stable Diffusion 原始版本的 README 文档对老手而言不太敌对
于是开源社区单干制作了:

  • 两个版本的指南:https://rentry.org/GUItard;https://keras.io/guides/keras…
  • 博客文章
  • 推特帖
  • YouTube 视频教程
  • Google Colabs 教程
  • 网页正文和图解

共享提醒词

  • (注:提醒词即向文本转图像模型输出的文本。)提醒词工程(Prompt Engineering)是一门技术活,GPT- 3 语言模型颁布三年以来,不少人总能通过扭转提醒词组织模式让模型产生令人惊奇的输入后果。这意味着,大型语言模型还存在很大的潜在摸索空间,既然它能提供出其不意的输入后果,那么它也有可能实现超乎咱们设想的性能。
  • 每个文本转图像工具的用户社区都有约定俗成的共享提醒词的形式,这样咱们就能够构建提醒词展览集,从而大幅缩小提醒词搜查工夫(从 >30 秒升高到 <300 毫秒,升高整整两个数量级!),并晋升提醒词工程的提高速率。
  • 这也有助于社区协力解决各种技术难题:例如,如何生成真切的手部图片和为什么否定式提醒词的成果更好(否定式提醒词即在提醒词中形容用户不心愿生成什么。)

创立新 UI,晋升模型可及性

  • Stable Diffusion 是 Python 脚本,用户能够创立本人的 UI 来满足本人的需要,不用局限于 Stability AI 的 Dreambooth(注:Stability AI 是 Stable Diffusion 的研发公司)。
  • AUTOMATIC1111 成为 Stable Diffusion 用户社区罕用的网络 UI,它具备多种性能,集结了社区成员发现的应用教训和技巧。
  • 机器学习社区偏向于应用 Windows,因而开源社区想了各种办法让 Stable Diffusion 能够在 M1 Mac 乃至 iPhone 上应用(如前文例子所述)。
  • Stable Diffusion 的 UI 通常是独立的 APP,但新的应用模式能够将 Stable Diffusion 植入 Photoshop、Figma、GIMP 甚至 VR,让用户能更自在地将 Stable Diffusion 融入本人的工作流。

通过扩大现有性能发明新用例

  • 我不分明 Inpainting 和 Outpainting 性能的最后发明者是谁,DALL- E 的官宣文章中有所提及,但直至呈现开源 UI 后,这两个性能才变得十分遍及。
  • 更多功能例如:超高清 outpainting、3D worlds。
  • 另一种成熟的翻新形式是与其余工具 / 技术混合,例子包含:
  1. “反向提醒词工程”,即依据图像生成提醒词(CLIP Interrogator 就是一个这样的工具)。
  2. 应用 txt2mask 加强 Inpainting。
  3. 各种前期解决步骤,如 Real-ESRGAN, TECOGAN, GFPGAN, VQGAN, 以及利用 automatic1111 中的 hires fix”解决图像中的重叠问题等。
  4. 创立 GRPC 服务器,用于与 Stability AI 的通信。
  5. 为向新模态扩大做筹备,如 txt2music 和 music2img。

优化外围

  • 如前所述,开源社区胜利将 Stable Diffusion 和 Dreambooth 的所需内存最小化。
  • 还将 Stable Diffusion 提速 50%。

此外我还想说的是,人工智能和机器学习畛域大多应用 Python 语言,对散布机制而言十分不平安。所以,在开源 AI 崛起的同时,咱们也须要“平安的开源 AI”。

开源 AI 的将来

这整个过程不禁让咱们想起软件 1.0 是如何被开源“席卷”的。

  • 版本控制:从 Bitkeeper 到 Git
  • 语言:从 Java 工具链到 Python、JavaScript 和 Rust
  • IDE:从“有许多不错的 IDE”到 VS Code 占据了 >60% 的市场份额
  • 数据库:从 Oracle/IBM 到 Postgres/MySQL

Anders Hejlsberg 是 Turbo Pasca、TypeScript 等五种编程语言的创建者。他曾说过如下驰名舆论:在将来,编程语言如果不开源,就无奈取得成功。现在,开发所需的工具栈越来越多,置信你也会收回同样的感叹。

因而,咱们很容易联想到软件 2.0、软件 3.0 可能也会被开源“吞噬”,但同时还有一些问题没有解决:

问题 1:经济激励

对于有经济头脑的人来说,将根底模型进行开源公布有违他们的直觉。训练 GPT- 3 的老本大概在 460 万美元到 1200 万美元之间,其中不包含人力老本和试验老本。即便是号称训练老本只有 60 万美元(Stability AI 的创始人 Emad 示意,实际成本要比这低得多)的 Stable Diffusion,也不可能在没有发出投资的状况下进行开源。

看看 OpenAI 通过 API 变现的过程,每个人都可能明确 AI 经济如何造成:

(模型钻研与模型基础设施的价值 / 利润孰大孰小还有待商讨,上图暂且把它们设置为大概相等。)

Stability AI 的既定目标是成为非营利性参与者,这就使它压低了领有专有根底模型钻研的经济价值,但同时这能够扩充 AI 的总 TAM(Total Addressable Market,总可用市场):

这也体现了施振荣提出的行业价值散布微笑曲线模型。Ben Thompson 也对此进行了宽泛探讨。

还有一个悬而未决的问题是:Stability AI 打算如何融资,9 月取得的 1 亿美元的 A 轮融资为 Stability AI 博得了喘息工夫。但在 Stability AI 的盈利模式清晰之前,其生态系统都不会真正稳定下来。

对此,Emad 回应:“咱们的商业模式很简略,规模和服务都与一般的 COSS(Commercial Open Source Software,商业开源软件)类似,只是在减少附加值方面会有一些波折。”

问题 2:开源许可

依据开源铁杆粉丝的说法:咱们对“license”这个词的了解有误。严格来说,一个我的项目只有领有了一个由 OSI 批准的开源许可证,能力算是开源(OSI 批准的开源许可证共有几十个)许多所谓的“开源”AI 模型或衍生品都没有开源许可,例如,以下我的项目都疏忽了许可证这个重要问题:

  • AUTOMATIC1111/stable-diffusion-webui#24
  • divamgupta/diffusionbee-stable-diffusion-ui#5
  • breadthe/sd-buddy#20

Stable Diffusion 模型是以新的 CreativeML Open RAIL- M 许可证公布的,它规定了模型权重的应用标准(模型权重就是破费 60 万美元训练所获的外围成绩),其中局部内容与 OSI 认证的许可证雷同,但用例限度方面的内容则不雷同。如果你已经与法律部门和 OSI 的人打过交道就晓得,这个许可很可能不被认可,而且因为没有法律先例可依,对于这个许可证的有效性七嘴八舌。

Stability AI 曾经分明表明能够将他们的产品用于商业目标,甚至公开反对 Midjourney 应用 Stable Diffusion。但如果有一天,开源产品的应用危险比当初高出 1000 倍,法律细节的重要性就会浮现。

HuggingFace 的 AI 参谋 Carlos Muñoz Ferrandis 示意:“Meta 公布了 OPT175(大型语言模型)、BB3(聊天机器人)和 SEER(计算机视觉模型),其许可证相似于 RAIL(包含用例限度)并且仅用于钻研目标(依据不同的模型抉择不同的许可)。
援用

OpenAI 的 Whisper 语音辨认模型的模型、权重和代码都基于简略宽松的 MIT 许可证进行开源。

Emad 示意:“除了 Stable Diffusion 之外,Stability AI 反对的所有模型都基于 MIT 许可公布,包含消耗了 120 万个 A100 小时训练进去的的 OpenCLIP 模型。”

问题 3:“开源”的到底是什么?

至此,本文都还没提到:“凋谢源代码”到底意味着什么。

在典型的软件 1.0 背景下,“开源”意味着代码库是凋谢的,但不肯定公开了基础设施的设置细节,或者所积攒的 / 代码操作的数据。换言之,凋谢代码并不代表凋谢基础设施细节或凋谢数据(在实践中,开源社区会心愿开源主体披露一些对于如何自托管(self-host)的根本指南,但这也并非强制要求)。

随着软件 2.0 的倒退,数据收集变得十分重要,甚至开始主导代码(代码则被“降级”为模型的骨架)。像 ImageNet 这样的凋谢数据集帮忙培训了整整一代的 ML 工程师,它还促成了 Kaggle 较量的衰亡,以及 ImageNet 挑战赛自身(挑战赛中诞生的 AlexNet 和 CNN 将整个 AI 畛域推向深度学习)。

此外,还呈现了 Numerai 平台,它通过半同态加密,将实在的金融数据加密,数据科学家能够依据这些“外表无意义”的加密数据,训练出预测模型,用于金融投资——尽管不是严格意义上的凋谢,但也足够凋谢,能够让数据科学家在下面赚点外快。不过,惯常的做法仍然是不公开模型权重,因为权重是训练得出的最有价值的货色。

随着软件 3.0 和 Chinchilla 模型所验证的缩放法则的呈现(该法则揭示了模型性能与参数量、数据集大小和计算量之间的关系,可用于领导大型模型的训练),大型语言模型和根底模型就成了代表人类历史上对于繁多大型语料库进行的一次大投资。

“开源 AI”静止正通过以下方面推动技术的提高:

  • 开源数据集: 例如,LAION-5B 和 The Pile。这些数据集已针对动漫图站 Danbooru 上的素材、日语、中文和俄语进行了批改。
  • 开源模型:通常以钻研论文的模式公布——如果提供足够的细节,内部人员就能够复制出这个新模型,就像复制 GPT3 和 Dreambooth 一样。
  • 开源权重: 这是由 HuggingFace 的 BigScience 我的项目(Bloom 模型的发布者)发动的新静止,Stability AI 的文本转图像模型以及 OpenAI 的 Whisper 模型也接过了开源权重的大旗(开源权重的经济性问题在前文的“问题 1”中已做探讨)。
  • 开源接口: 容许间接拜访代码,使用户能够批改和编写他们本人的 CLI、UI 等等,而不像 OpenAI 的 GPT3 那样,只提供一个 API 来调用。
  • 开源提醒词: 用户(如 Riley Goodside)和钻研人员(如 Aran Komatsuzaki)分享了提醒词技术方面的冲破,以解锁根底模型的潜在能力。

开源 AI 层级根本如此,确切程序可能依据理论状况会有所不同。

开源人工智能研究所?

OSI 设立之时可能没有思考到“开源”AI 所波及的上述方方面面,而开源 AI 文化的基石之一是建设一个满足开源社区冀望、具备标准和法律先例的可信规范。或者 Hugging Face 和 Stability AI 能够抓住机会填补这一空缺,又或者这样的规范曾经诞生了,只是我还没有发现。

(本文经受权后由 OneFlow 编译公布,原文:https://lspace.swyx.io/p/open…。译文转载请分割 OneFlow 取得受权。)

欢送下载体验 OneFlow v0.8.0 最新版本:https://github.com/Oneflow-In…

正文完
 0