共计 2876 个字符,预计需要花费 8 分钟才能阅读完成。
AI 绘画发展史
在议论 Stable Diffusion 之前,有必要先理解 AI 绘画的倒退历程。
早在 2012 年,华人科学家吴恩达领导的团队训练出了过后世界上最大的深度学习网络。这个网络可能自主学习辨认猫等物体,并在短短三天工夫内绘制出了一张含糊但可辨识的猫图。只管这张图片很含糊,但它展现了深度学习在图像识别方面的后劲。
到了 2014 年,加拿大蒙特利尔大学的谷歌科学家 Ian Goodfellow 提出了生成反抗网络 GAN 的算法,这一算法一度成为 AI 生成绘画的支流方向。GAN 的原理是通过训练两个深度神经网络模型——生成器 Generator 和判断器 Discriminator,使得生成器可能生成与实在数据类似的新数据样本,并且判断器能够精确地区分生成器生成的假样本和实在数据。GAN 的核心思想是博弈,生成器试图坑骗判断器,而判断器则致力分别真伪,二者互相反抗、相互协作,最终实现高质量的数据生成成果。
2016 年,基于 GAN 的第一个文本到图像模型 GAN-INT-CLS 问世,证实了 GAN 在从文本生成图像方面的可行性,为各类基于 GAN 的有条件图像生成模型的涌现关上了大门。然而,GAN 在训练过程中很容易呈现不稳固或解体的状况,因而难以大规模利用。
同年 10 月,NVIDIA 提出了 ProgressiveGAN,通过逐步减少神经网络规模生成高分辨率图像,从而升高了模型训练难度并进步了生成品质,为起初的 StyleGAN 的崛起铺平了路线。
2017 年,谷歌发表了驰名论文《Attention Is All You Need》,提出了 Transformer 构造,随后在自然语言解决畛域大放异彩;尽管 Transformer 是为了解决自然语言解决问题而设计的,但它在图像生成畛域也显示了微小的后劲。2020 年,他们又提出了 ViT 概念,尝试用 Transformer 构造代替传统的卷积神经网络 CNN 构造在计算机视觉中的利用。
2020 年呈现了转折。加州大学伯克利分校提出了家喻户晓的去噪扩散概率模型 DDPM,简化了原有模型的损失函数,将训练指标转变为预测以后步增加的噪声信息,极大升高了训练难度,并将网络模块由全卷积网络替换为 Unet,晋升了模型的表达能力。
2021 年 1 月,OpenAI 公布了基于 VQVAE 模型的 DALL-E 和 CLIP 模型 Contrastive Language-Image Pre-Training,它们别离用于文本到图像生成和文本与图像之间的比照学习。这让 AI 仿佛第一次真正“了解”了人类的形容并进行创作,激发了人们前所未有的对 AI 绘画的激情。2021 年 10 月,谷歌公布的 Disco Diffusion 模型以其惊人的图像生成成果拉开了扩散模型的时代尾声。
2022 年 2 月,由一些开源社区的工程师开发的基于扩散模型的 AI 绘图生成器 Disco Diffusion 推出。从那时起,AI 绘画进入了疾速倒退的轨道,潘多拉魔盒未然关上。Disco Diffusion 相比传统的 AI 模型更加易用,钻研人员建设了欠缺的帮忙文档和社群,越来越多的人开始关注它。同年 3 月,由 Disco Diffusion 外围开发人员参加开发的 AI 生成器 MidJourney 正式公布。MidJourney 抉择搭载在 Discord 平台,借助聊天式的人机交互形式,使得操作更加简便,而且无需简单的参数调节,只需向聊天窗口输出文字就能够生成图像。
更重要的是,MidJourney 生成的图片成果十分惊艳,以至于普通人简直无奈分辨出其生成的作品是否是由 AI 绘制的。在 MidJourney 公布 5 个月后,美国科罗拉多州博览会的艺术较量评比出了后果,一幅名为《太空歌剧院》的画作取得了第一名,然而其并非人类画师的作品,而是由名为 MidJourney 的人工智能创作的。
当参赛者颁布这幅作品是由 AI 绘制时,引发了许多人类画家的愤恨和焦虑。
2022 年 4 月 10 日,之前提到的 OpenAI 的 DALL·E 2 公布了。无论是 Disco Diffusion 还是 MidJourney,仔细察看后依然可能看出其是由 AI 生成的,但 DALL·E 2 生成的图像曾经无奈与人类作品辨别开了。
Stable Diffusion
2022 年 7 月 29 日,由 Stability.AI 公司研发的 Stable Diffusion 的 AI 生成器开始内测。人们发现用它生成的 AI 绘画作品品质堪比 DALL·E 2,而且限度更少。Stable Diffusion 的内测共分 4 波,邀请了 15000 名用户参加,仅仅十天后,就有一千七百万张图片通过它生成。最要害的是,Stable Diffusion 的开发公司 Stability AI 秉承着开源的理念,“AI by the people,for the people”,这意味着任何人都能够在本地部署本人的 AI 绘画生成器,真正实现了每个人“只有你会谈话,就可能发明出一幅画”。开源社区 HuggingFace 迅速适配了它,使得集体部署变得更加简略;而开源工具 Stable-diffusion-webui 则将多种图像生成工具集成在一起,甚至能够在网络端微调模型、训练集体专属模型,备受好评,在 GitHub 上取得了 3.4 万颗星,使得扩散生成模型彻底走出了大型服务,向集体部署迈进。
2022 年 11 月,Stable Diffusion 2.0 公布,新版本生成的分辨率进步了四倍,生成速度也更快。
Stable Diffusion 基于 Latent Diffusion Models,将最耗时的扩散过程放在低维度的潜变量空间,大大降低了算力需要以及集体部署门槛。它应用的潜空间编码缩减因子为 8,换句话说,图像的长和宽被缩减为原来的八分之一,例如一个 512512 的图像在潜空间中间接变为 6464,从而节俭了 64 倍的内存!在此基础上,Stable Diffusion 还升高了性能要求。不仅能够疾速(以秒计算)生成一张细节丰盛的 512512 图像,而且只需一张英伟达生产级的 8GB 2060 显卡。如果没有这个空间压缩转换,它将须要一张 512GB 显存的超级显卡。依照显卡硬件的倒退法则,消费者至多须要 8-10 年的工夫能力享受到这类利用。这个算法上的重要迭代使得 AI 作画提前进入了每个人的生存。
在本文中,咱们探讨了 Stable Diffusion 的倒退历程以及对其的介绍。如果你同样是 AI 绘画的爱好者,欢送和我一起交换探讨。将来,我将继续更新这个系列,分享 Stable Diffusion 的教程以及其余 AI 绘画软件的教学内容。如果您喜爱这些内容,欢送关注咱们!感谢您的浏览,期待在下一期再与您相见!
对于极限科技(INFINI Labs)
极限科技,全称极限数据(北京)科技有限公司,是一家专一于实时搜寻与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据摸索与剖析体验。
极限科技是一支年老的团队,采纳人造分布式的形式来进行近程合作,员工散布在寰球各地,心愿通过致力成为中国乃至寰球企业大数据实时搜寻剖析产品的首选,为中国技术品牌输入添砖加瓦。
官网:https://www.infinilabs.com