关于算法:AI绘画火了一文看懂背后技术原理

50次阅读

共计 9953 个字符,预计需要花费 25 分钟才能阅读完成。

导语 | 近些年 AI 蓬勃发展,在各行各业都有着不同形式的利用。而 AI 创作艺术和生产内容无疑是今年以来最热门的话题,AI 创作到底产生过什么,原理又是如何,是噱头还是会有对咱们有用的潜在利用场景呢?咱们旨在深入浅出的尝试答复这些问题。

AI 创作怎么火了?往年开始,文本形容主动生成图片(Text-to-Image)的 AI 绘画黑科技一下子变火了。很多人对 AI 绘画产生微小趣味是从一副 AI 作品的新闻开始的。这幅由 MidJourney 生成的数字油画加入了 Colorado 博览会的艺术较量,并且取得了第一名。这个事件能够设想的引起了微小的争执。(难道 300 刀的奖金撬起了 3 千亿的市场?)

Jason Allen’s A.I.-generated work,“Théâtre D’opéra Spatial,”took first place in the digital category at the Colorado State Fair.Credit…via Jason AllenDisco Diffusion 是往年 2 月爆火的 AI 图像生成程序,能够依据形容的场景关键词渲染对应的图片。往年 4 月,赫赫有名的 OpenAI 也公布了新模型 DALL-E 2,命名来源于著名画家 Dali 和机器人总动员 Wall-E,同样反对 Text-to-Image。在年初的时候,Disco Diffusion 能够生成一些有气氛感的图片,但还无奈生成粗劣的人脸,但很快到了 DALL-E 2 后就能够十分清晰的画出人脸了。而当初到了 Stable Diffusion 在创作的粗劣水平和作画速度上更上了一个新的台阶。

Disco Diffusion: Mechanical arm with a paint brush and a canvas by Li Shuxing and Tyler Edlin

DALL-E2: 将 Johannes Vermeer 的名画“戴珍珠耳环的女孩”转换生成不同的脸孔

Stable Diffusion: a beautiful painting of a building in a serene landscape2022 年 8 月,被视为当下最强的 AI 创作工具 Stable Diffusion 正式凋谢,这无疑进一步给 AI 创作带来了最近的炽热。通过网站注册就能够应用,提供了不便简洁的 UI,也大大降低了这类工具的应用门槛,而且效率高,图像品质好。而如果不想花钱的话,Stable Diffusion 还正式开源了代码、模型和 weights,在 huggingface 上都能够间接 clone 和下载,部署到 GPU 上就能够轻易用了。huggingface 上同时也曾经有了 diffusers 库,能够成为调包侠间接应用,colab 上也都有现成的 notebook example 了。也因而热度,推出 Stable Diffusion 的 AI 公司 StabilityAI 实现了 1 亿美元的种子轮融资,公司估值达到了 10 亿美元。

Stable Diffusion 开源后的搜寻热度曾经放弃两个月了和机器学习刚开始火的时候一样,AI 生成技术也并不是凭空出现的。只是近一两年以来,作品的品质和计算速度日益疾速晋升,让咱们疏忽了 AI 绘画同样悠久的历史。

历史倒退 AI 绘画在计算机呈现后不久就曾经开始有了最后的摸索。在 70 年的时候艺术家 Harold Cohen 就曾经发明了程序“AARON”进行绘画,而不同于当初的黑科技,过后 AARON 是真的去操作机械臂来画画。Harold 对 AARON 的改良继续了很久,80 年代的时候,ARRON 能够尝试画三维物体,并且很快就能够画彩图了。但 AARON 没有开源,所以它学习的是 Harold 自己的形象色调绘画格调。2006 年,呈现了 The Painting Fool,有点相似 AARON,通过观察照片提取色彩信息,应用事实中的资料进行创作,所以同样电脑程序通过学习信息就行物理绘画的形式。

当初咱们说的更多的“AI 创作”的概念,更多的指的是基于 Deep Learning 模型进行主动作图的程序,这种绘画形式得益于近些年计算机软硬件的高速倒退。2012 年两位大神 Andrew Ng 和 Jeff Dean 进行了一次试验,应用 1.6 万个 CPU 和 Youtube 上一千万个猫脸图片用了 3 天训练了过后最大的深度学习网络,生成了一个猫脸。在当初看来这个后果不值一提,但对过后的 CV 畛域来说,是具备突破性的意义的尝试,并且正式开启了 AI 创作的全新方向。

2006 年,李飞飞传授发现了很多钻研工作在 AI 算法方面疏忽了“数据”的重要性,于是带头开始构建大型图像数据集 – ImageNet,也因而图像识别大赛由此拉开帷幕,三年后李飞飞团队发表了 ImageNet 的论文从而真正公布了 ImageNet 数据集,给 AI 创作提供了弱小的数据库。同样 2006 年,Geoffrey Hilton 团队实现了 GPU 优化深度神经网络的办法,从而“深度学习”这个新名词的概念被提出,各种 Neural Networks 的技术手段开始一直呈现,深度学习的倒退也减速了 AI 在两个赛道 Discriminative model 和 Generative model 的倒退。2012 年的 AlexNet,2014 年的 VGGNet,2015 年的 ResNet,2016 年的 DenseNet 都是前者的经典模型。而对于 Generative model,2014 年大神 Ian Goodfellow 提出了 GAN,两个神经网络互相学习和训练,被认为是 CV 畛域的重大突破,通过两个神经网络的互相博弈,使得生成的数据分布更靠近实在数据分布。从此 2014 年的 GAN、VAE 以及 2016 年的 PixelRNN/CNN 成为了三类支流的 Generative models。2017-2018 年深度学习框架也建设成熟,PyTorch 和 Tensorflow 成为首选框架,提供了很多图像处理的大量预训练模型,大大降低了技术门槛。2018 年,Nvidia 公布了 Video-to-Video synthesis,它能够通过发生器、鉴别器网络等模块,合成高分辨率照片一样实在的视频,实现了把 AI 推向新的发明场景。GAN 的大规模应用,也呈现了很多基于 GAN 的模型迭代和优化,2019 年 BigGAN 的呈现让 GAN 的世界更弱小,由它训练生成的图像曾经无奈分辨真假了,被认为是过后最强的图像生成器。然而 GAN 仍然存在一些缺点,比方一些钻研中都有提到模型的稳定性和收敛较差,尤其是面对更加简单和多样的数据。更为重要的是,让生成的数据分布靠近实在数据分布,也就是靠近现有的内容的样子同样会造成一个问题,就是生成的内容是十分靠近现有内容,靠近也就是没法冲破带来艺术上的“翻新”。而 2020 年开始在图片生成畛域钻研更多的 Diffusion model 克服了这些问题。Diffusion model 的外围原理就是给图片去噪的过程中了解有意义的图像是如何生成的,同时又大大简化了模型训练过程数据处理的难度和稳定性问题。所以 Diffusion 模型生成的图片相比 GAN 模型京都更高,且随着样本数量和训练时长的累积,Diffusion model 展示了对艺术表白格调更好的模拟能力。2021 年的比照钻研表明,在同样的 ImageNet 的数据库训练后的图片生成品质,应用 Diffusion model 失去的 FID 评估后果要优于过后最好的 Generative models BigGAN-deep 等等。正如结尾提到,往年的 AI 热点属于文本创作内容,而其实始终到 2021 年初,OpenAI 公布的 DALL- E 其 AI 绘画程度也就个别,但这里开始领有的一个重要能力就能够依照文本形容进行创作。而后往年 2022 年,在三座大山 Stable Diffusion、DALL-E 2、MidJourney 生成的各种画作中,曾经引起了各种人群包含开发者、艺术家、美术工作者等等的趣味尝试和争执。Stable Diffusion 的开源和简略的过滤器性能无疑将 Text-to-Imagede 的热点和争议推向了低潮。而很快大厂们不再只局限于图片,同时又推出了 Text-to-Video 的产品。Meta 在刚过去的九月底发表了新的 AI 产品 Make-A-Video,使用者能够同样应用文本的形式生产简洁和高质量的短视频,他们的阐明是零碎模型能够从文本 - 图片配对数据中学习这个世界的样子并从视频片段中推理没有文本状况下的世界变动。从实现场景来看也有多种应用形式,比方文本形容不同类型的场景动作、应用单张或一对图片生成变动视频、在原始视频中退出额定的元素和变动,Meta 也表明了他们之后会公布 demo 工具。很快在十月初,Google 也公布了他们新的 AI 产品 Imagen Video,同样是应用文本生产视频的工具。Imagen Video 还在研发阶段,但 Google 的学术论文表明了这个工具能够通过文本形容生产 24 fps 的分辨率在 1280×768 的视频,同时能够有风格化能力和物体 3D 旋转能力。文章还表明 Imagen Video 在文本内容的视频出现上也会绝对于优于 DALL- E 和 Stable Diffusion。又没过几天,Google 和 Phenaki 发表了另一个文本生产视频工具 Phenaki,甚至能够生产 2 分钟以上较长的视频。Google 同时也阐明了“问题数据”对于 AI 模型的影响和潜在的危险,公司始终致力于谨严过滤暴力和色情内容以及文化偏差等问题,因而短期内并不会开源 Imagen Video 模型,但咱们置信不久的未来,不论通过工具或者源代码的形式,这些 cutting-edge 的视频生产模型也会和图片生产模型一样很快和 AI 创作者们相见。

既然有了 Text-to-Image 和 Text-to-Video,那 Text-to-Speech 必定也要蹭一下热度。10 月中旬 postcast.ai 公布了一段音频是跟用 AI 生成的跟 Steve Jobs 的对话火了(新闻),从语音语调上听起来真的和 Steve 自己没有差异,齐全不像是机器人的声音。而技术提供方 play.ht 在他们的网站上也上线了新的这个十分有吸引力的性能 Voice Cloning,下面提供各种名人的 AI 合成声音。他们并没有提供更多的技术信息,但看起来他们应用了 2020 年上线并在 2021 年底凋谢的 GPT3 模型,同时从成果上看起来曾经十分靠近复制真人的声音了。

技术解读看到历史和一些活泼的例子,是不是感觉 AI 生成各种内容曾经就在眼前了?咱们能够轻易写几句话就能生成精美的图片、视频、声音满足各种需要了?然而实际操作上仍然会有很多的限度。上面咱们就来适当分析一下最近较热的文本生成图片和视频技术原理,到底实现了什么性能以及相干的局限性在哪里,前面咱们再针对实际游戏内容做一些 demo,更贴合利用场景的理解这些局限性。(一)Text-to-Image 技术不同的 AI 图片生成器技术构造上会有差异,本文在最初也附上了一些重要模型的参考文献。咱们在这里次要针对最近热门的 Stable Diffusion 和 DALL-E 2 做一些解读和探讨。这类的 AI 生成模型的核心技术能力就是,把人类创作的内容,用某一个高维的数学向量进行示意。如果这种内容到向量的“翻译”足够正当且能代表内容的特色,那么人类所有的创作内容都能够转化为这个空间里的向量。当把这个世界上所有的内容都转化为向量,而在这个空间中还无奈示意进去的向量就是还没有发明进去的内容。而咱们曾经晓得了这些已知内容的向量,那咱们就能够通过反向转化,用 AI“发明”出还没有被发明的内容。Stable DiffusionStable Diffusion 的整体上来说次要是三个局部,language model、diffusion model 和 decoder。

Language model 次要将输出的文本提醒转化为能够输出到 diffusion model 应用的示意模式,通常应用 embedding 加上一些 random noise 输出到下一层。diffusion model 次要是一个工夫条件 U -Net,它将一些高斯噪声和文本示意作为模型输出,将对应的图像增加一点高斯噪声,从而失去一个略微有噪点的图像,而后在工夫线上反复这个过程,对于略微有噪点的图像,持续增加高斯噪声,以取得更有噪点的图像,反复屡次到几百次后就能够取得齐全嘈杂的图像。这么做的过程中,晓得每个步骤的图像版本。而后训练的 NN 就能够将噪声较大的示例作为输出,具备预测图像去噪版本的能力。在训练过程中,还有一个 encoder,是 decoder 的对应局部,encoder 的指标是将输出图像转化为具备高语义意义的缩减采样示意,但打消与手头图像不太相干的高频视觉噪声。这里的做法是将 encoder 与 diffusion 的训练离开。这样,能够训练 encoder 获得最佳图像示意,而后在上游训练几个扩散模型,这样就能够在像素空间的训练上比原始图像计算少 64 倍,因为训练模型的训练和推理是计算最贵的局部。decoder 的次要作用就是对应 encoder 的局部,取得扩散模型的输入并将其放大到残缺图像。比方扩散模型在 64×64 px 上训练,解码器将其进步到 512×512 px。DALL-E 2DALL-E 2 其实是三个子模块拼接而成的,具体来说:一个基于 CLIP 模型的编码模块,指标是训练好的文本和图像 encoder,从而能够把文本和图像都被编码为相应的特色空间。一个先验(prior)模块,指标是实现文本编码到图像编码的转换。一个 decoder 模块,该模块通过解码图像编码生成指标图像。在本篇文章开始前,心愿你能够理解 go 的一些根本的内存常识,不须要太深刻,简略总结了如下几点:

从下面的模型拆解中能够看出,DALL-E 2 和 Stable Diffusion 的 text encoder 都是基于 openAI 提出的 CLIP,图像的生成都是基于 diffusion model。其中,CLIP 是学习任意给定的图像和题目(caption)之间的相干水平。其原理是计算图像和题目各自 embedding 之后的高维数学向量的余弦类似度(cosine similarity)。

(二)Text-to-Video 技术文本生成视频大略从 2017 年就开始有一些钻研了,但始终都有很多限度。而从往年 10 月初 Meta 发表了他们的产品 Make-A-Video 以及 Google 发表了 Imagen Video。这两款都是翻新了 Text-to-Video 的技术场景。而这两款最新产品都是从他们的 Text-to-Image 产品衍生而言的,所以技术实现形式也是基于 Text-to-Image 的技术演变而成。实质上来说咱们能够认为动态图片就是只有一帧的视频。生成视频须要思考图片中的元素在工夫线上的变动,所以比生成照片会难很多,除了依据文本信息生成正当和正确的图片像素外,还必须推理图片像素对应的信息如何随工夫变动。这里咱们次要依据 Make-A-Video 的钻研论文做一下拆解。Meta’s Make-A-VideoMake-A-Video 正是建设在 text-to-Image 技术最新进展的根底上,应用的是一种通过时空合成的 diffusion model 将基于 Text-to-Image 的模型扩大到 Text-to-Video 的办法。原理很间接:从文本 - 图像数据里学习形容的世界长什么样(文本生成图像)从无文本的视频数据中学习世界的变动(图像在时间轴上的变动)训练数据是 23 亿文本 - 图像数据(Schuhmann et al),以及千万级别的视频数据(WebVid-10M and HD-VILA-100M)。整体上来说 Make-A-Video 也是有三个重要组成部分,所有的组成部分都是离开训练:基于文本图像 pair 训练的根本的 Text-to-Image 的模型,总共会用到三个网络:Prior 网络:从文本信息生成 Image 特征向量,也是惟一接管文本信息的网络。Decoder 网络:从图像特色网络生成低分辨率 64×64 的图片。两个空间的高分辨率网络:生成 256×256 和 768×768 的图片。时空卷积层和留神层,将基于第一局部的网络扩大到工夫维度在模型初始化阶段扩大蕴含了工夫维度,而扩大后包含了新的留神层,能够从视频数据中学习信息的工夫变动 temporal layer 是通过未标注的视频数据进行 fine-tune,个别从视频中抽取 16 帧。所以加上工夫维度的 decoder 能够生成 16 帧的图片以及用于高帧速率生成的插帧网络空间的超分辨率模型以及插帧模型,进步的高帧速率和分辨率,让视觉品质看起来更好。

整体评估上都要优于往年早些期间的钻研:

劣势:这里的益处很显著就是不再须要应用大量的文本视频 pair 数据来训练模型。因而也大大减速了模型训练工夫。继承了当初最好的文本生成图像模型的优质后果。* 前两点都是之前 text-to-video 生成模型倒退的瓶颈。限度:这个办法无奈学习只能从视频中失去的关系文本和景象的关系,比方一个人是从左往右挥手还是从右往左挥手的的视频细节。目前限于简略的动作和变动,包含多个场景和事件的较长视频,或者更多的视频中展示的故事细节很难实现。一样是应用大量公开数据的大规模模型,一样有用于生产无害内容的危险。Google’s Imagen Video 是由 7 个串联的子模型形成,模型蕴含多达 116 亿个参数,其中 T5 是一个 language model 用来了解文本语义,Base 是负责生产视频中的关键帧,SSR 模型晋升视频的像素,TSR 负责填充关键帧之间辅助帧。

可能实现的技术利用场景通过底层技术尤其在 CV、NLP 相干的各类模型在不同内容和多模态场景中的尝试和迭代,对于 AI 创作和内容生产同样无外乎在不同类型内容(文本、音频、图像、视频)生产和内容跨类型的生产场景。下图很好地总结了这些理论中能够应用的技术场景。

针对游戏内容的 Demo 这些技术实现是否同样能给咱们提供游戏相干的利用场景呢?咱们在这里针对绝对较为成熟的图像相干的生成场景做了几个 demo 尝试。整体上来说在咱们游戏中台相干的业务场景中是有一些利用点的。上面看一下这几个 demo 的样子。(一)文本生成图像针对庄周这个英雄的样子咱们应用工具和代码都尝试了一下如何可能生产不同格调的庄周游戏中的样子:

通过咱们以下形容后的样子,同时也能够加上卡通、二次元、素描等等格调的形容,咱们失去各种不同格调类型的样子:Ultra detailed illustration of a butterfly anime boy covered in liquid chrome, with green short hair, beautiful and clear facial features, lost in a dreamy fairy landscape, crystal butterflies around, vivid colors, 8k, anime vibes, octane render, uplifting, magical composition, trending on artstation

咱们在各种尝试的过程中很显著的感知和发现一些限度:文本形容生成的后果会有一些随机性,生成的图片大概率是很难齐全依照“需要”生成,更多带来的是“惊喜”,这种惊喜在肯定的层面上代表的也是一种艺术风格。所以在理论的应用中并不是很实用于依照严格要求生产图片的工作,而更多的实用于有肯定的形容,可能给艺术创意带来一些灵感的爆发和参考。文本的精确形容对于生成的图片样子是极其重要的,技术自身对文本形容和措辞有较高要求,需对脑海中的外围创意细节有较为精确的形容。生产 Domain-specific 例如腾讯游戏高度一致的内容元素需对预训练大模型进行再训练。而文本生成视频的场景绝对很新,Google/Meta 也是这两三周才官宣对应的视频生成器,且还没有凋谢应用和开源,但咱们预估以目前的热度和迭代速度,在将来的 3 - 6 个月内咱们能够对相干能力有更清晰的摸索和尝试。(二)图像交融和变换图像自身的交融变换在早几年的时候就曾经有了一些钻研和摸索,且有了绝对较为成熟的生成的样子,这里咱们应用战争精英的素材尝试做一种变换格调的样子。战争精英素材原图和星空:

更加深度的将星空的色彩和变动交融到原始图片中:

绝对较浅度的将星空的色彩像素交融到原始图片中:

另外一种很有意思的形式是,咱们能够变换人物格调,比方王者英雄不知火舞和亚瑟在咱们印象的样子,咱们能够把他们 Q 化成数码宝贝的样子:不知火舞

亚瑟

试想一下,这些不同的技术实现甚至都能够串联在一起,比方咱们能够先用文本形容生成图片,再对图片进行格调变换等等,那这里能够操作的事件就越来越多了,这里就不一一开展了。而再进一步思考(发自懒人的思考),咱们是不是都不必去思考文本怎么写?有没有帮忙生成文本或者咱们能够搜寻之前生成过的文本?答案是有,比方 Phraser 就提供了这样的形式,甚至能够通过图片搜寻相干的文本:

AI 创作的意义及危险(一)意义正如结尾提到,往年的 AI 热点属于 AI 创作,从 2 月的 Disco Diffusion,到 4 月的 DALL-E 2 和 MidJourney 内测,到 5 / 6 月的 Google 模型 Imagen 和 Parti,再到 7 月底的 Stable Diffusion。越来越多的人开始尝试 AI 创作图像、声音、视频、3D 内容等等,这让咱们看到了 AI 在艺术畛域越来越多的可能性。十多年前当世界都开始为 AI 和机器学习欢呼的时候,咱们看到了很多 AI 能够做的事件,而“创作力”和“想象力”也是始终以来 AI 最无奈啃动的硬骨头,也是人类世界在 AI 和机器取代背后最初的倔强,然而当初看起来也是能够被技术拆解的。从 Alpha GO 身上,咱们就看到了 AI 在智慧和谋略上就曾经冲破了人类极限,而 AI 创作又进一步在创造力和想象力逐步取代人类。在将来,一个各方面成熟的 AI 齐全取代人类看起来曾经是越来越事实的问题。如果 AI 将来能够实现计算机领域上下游所有的事件包含本人写代码,那么人类须要思考的问题就是如何和一个超过本人所有方面的人共存于世了。(二)危险 AI 创作的大火在很长时间当前回头看肯定有 Stable Diffusion 的开源的一席之地,同样这也会带来一些争议和危险。Stability AI 的开源是简略粗犷的,他们简直不对生成内容做任何审核或者过滤,他们只蕴含了一些关键词过滤,但技术上能够轻松绕过,Reddit 上就有教程如何 5 秒内移除 Stable Diffusion 的平安过滤。因而用户能够轻松指控 Stable Diffusion 生成暴力或不良图片,描述公众人物和名人,也能够高度仿造艺术品或者有版权保护的图像,aka deepfakes。由此咱们也能够构想这项技术可能被用于各类歹意和影响微小的用处,咱们还很难判断在更久的将来,这项技术的开源是会给咱们更大的技术革新还是各种问题。目前最大的乱子可能就是 Stable Diffusion 让生成暴力和色情图像变得更容易,且内容中往往蕴含真人特色。尽管开源阐明禁止人们应用该模型施行各类犯罪行为,但只有把 Stable Diffusion 下载到本人的电脑上,使用者能够齐全不守束缚。尽管很多论坛例如 Reddit 有不少束缚政策且会封禁相干内容,但仍有用户一直生成各种名人明星的荒诞图像,AI 生成内容的伦理问题再次会呈现在风口浪尖。在 AI 创作内容的这些模型中,训练数据中一类很显著的视觉素材就是受版权保护的作品。这在艺术家眼里,模拟艺术风格和美学的行为是不道德行为,且可能违反版权。Stable Diffusion 也是其中重要一员,它的训练集 LAION-5B 蕴含 50 多亿张图像与匹配的文本标注,其中就蕴含了大量受版权保护的内容,这些内容其实归泛滥独立艺术家和业余摄影师所有。这些版权争议,也给这些 AI 创作工具带来了偷盗艺术家创作成绩的骂名,也让很多有抱负有想法的艺术家越来越难以生存。

参考资料:
1.https://arxiv.org/pdf/2209.14…
2.https://arxiv.org/pdf/2112.10…
3.[1907.05600] Generative Modeling by Estimating Gradients of the Data Distribution
4.https://arxiv.org/pdf/2204.06…
5.https://imagen.research.google
6.[2105.05233] Diffusion Models Beat GANs on Image Synthesis
7.https://ommer-lab.com/researc…
(留神:后盾回复关键词“AI”,即可获取 demo 生产工具)
开发者黄历

正文完
 0