关于算法:AI绘画火了一文看懂背后技术原理

导语 | 近些年AI蓬勃发展，在各行各业都有着不同形式的利用。而AI创作艺术和生产内容无疑是今年以来最热门的话题，AI创作到底产生过什么，原理又是如何，是噱头还是会有对咱们有用的潜在利用场景呢？咱们旨在深入浅出的尝试答复这些问题。

AI创作怎么火了？往年开始，文本形容主动生成图片（Text-to-Image）的AI绘画黑科技一下子变火了。很多人对AI绘画产生微小趣味是从一副AI作品的新闻开始的。这幅由MidJourney生成的数字油画加入了Colorado博览会的艺术较量，并且取得了第一名。这个事件能够设想的引起了微小的争执。（难道300刀的奖金撬起了3千亿的市场？）

Jason Allen’s A.I.-generated work, “Théâtre D’opéra Spatial,” took first place in the digital category at the Colorado State Fair.Credit…via Jason AllenDisco Diffusion是往年2月爆火的AI图像生成程序，能够依据形容的场景关键词渲染对应的图片。往年4月，赫赫有名的OpenAI也公布了新模型DALL-E 2，命名来源于著名画家Dali和机器人总动员Wall-E，同样反对Text-to-Image。在年初的时候，Disco Diffusion能够生成一些有气氛感的图片，但还无奈生成粗劣的人脸，但很快到了DALL-E 2后就能够十分清晰的画出人脸了。而当初到了Stable Diffusion在创作的粗劣水平和作画速度上更上了一个新的台阶。

Disco Diffusion: Mechanical arm with a paint brush and a canvas by Li Shuxing and Tyler Edlin

DALL-E2: 将Johannes Vermeer 的名画“戴珍珠耳环的女孩”转换生成不同的脸孔

Stable Diffusion: a beautiful painting of a building in a serene landscape2022年8月，被视为当下最强的AI创作工具Stable Diffusion正式凋谢，这无疑进一步给AI创作带来了最近的炽热。通过网站注册就能够应用，提供了不便简洁的UI，也大大降低了这类工具的应用门槛，而且效率高，图像品质好。而如果不想花钱的话，Stable Diffusion还正式开源了代码、模型和weights，在huggingface上都能够间接clone和下载，部署到GPU上就能够轻易用了。huggingface上同时也曾经有了diffusers库，能够成为调包侠间接应用，colab上也都有现成的notebook example了。也因而热度，推出Stable Diffusion的AI公司StabilityAI实现了1亿美元的种子轮融资，公司估值达到了10亿美元。

Stable Diffusion开源后的搜寻热度曾经放弃两个月了和机器学习刚开始火的时候一样，AI生成技术也并不是凭空出现的。只是近一两年以来，作品的品质和计算速度日益疾速晋升，让咱们疏忽了AI绘画同样悠久的历史。

历史倒退AI绘画在计算机呈现后不久就曾经开始有了最后的摸索。在70年的时候艺术家Harold Cohen就曾经发明了程序“AARON”进行绘画，而不同于当初的黑科技，过后AARON是真的去操作机械臂来画画。Harold对AARON的改良继续了很久，80年代的时候，ARRON能够尝试画三维物体，并且很快就能够画彩图了。但AARON没有开源，所以它学习的是Harold自己的形象色调绘画格调。2006年，呈现了The Painting Fool，有点相似AARON，通过观察照片提取色彩信息，应用事实中的资料进行创作，所以同样电脑程序通过学习信息就行物理绘画的形式。

当初咱们说的更多的“AI创作”的概念，更多的指的是基于Deep Learning模型进行主动作图的程序，这种绘画形式得益于近些年计算机软硬件的高速倒退。2012年两位大神Andrew Ng和Jeff Dean进行了一次试验，应用1.6万个CPU和Youtube上一千万个猫脸图片用了3天训练了过后最大的深度学习网络，生成了一个猫脸。在当初看来这个后果不值一提，但对过后的CV畛域来说，是具备突破性的意义的尝试，并且正式开启了AI创作的全新方向。

2006年，李飞飞传授发现了很多钻研工作在AI算法方面疏忽了“数据”的重要性，于是带头开始构建大型图像数据集 – ImageNet，也因而图像识别大赛由此拉开帷幕，三年后李飞飞团队发表了ImageNet的论文从而真正公布了ImageNet数据集，给AI创作提供了弱小的数据库。同样2006年，Geoffrey Hilton团队实现了GPU优化深度神经网络的办法，从而“深度学习”这个新名词的概念被提出，各种Neural Networks的技术手段开始一直呈现，深度学习的倒退也减速了AI在两个赛道Discriminative model和Generative model的倒退。2012年的AlexNet，2014年的VGGNet，2015年的ResNet，2016年的DenseNet都是前者的经典模型。而对于Generative model，2014年大神Ian Goodfellow提出了GAN，两个神经网络互相学习和训练，被认为是CV畛域的重大突破，通过两个神经网络的互相博弈，使得生成的数据分布更靠近实在数据分布。从此2014年的GAN、VAE以及2016年的PixelRNN/CNN成为了三类支流的Generative models。2017-2018年深度学习框架也建设成熟，PyTorch和Tensorflow成为首选框架，提供了很多图像处理的大量预训练模型，大大降低了技术门槛。2018年，Nvidia公布了Video-to-Video synthesis，它能够通过发生器、鉴别器网络等模块，合成高分辨率照片一样实在的视频，实现了把AI推向新的发明场景。GAN的大规模应用，也呈现了很多基于GAN的模型迭代和优化，2019年BigGAN的呈现让GAN的世界更弱小，由它训练生成的图像曾经无奈分辨真假了，被认为是过后最强的图像生成器。然而GAN仍然存在一些缺点，比方一些钻研中都有提到模型的稳定性和收敛较差，尤其是面对更加简单和多样的数据。更为重要的是，让生成的数据分布靠近实在数据分布，也就是靠近现有的内容的样子同样会造成一个问题，就是生成的内容是十分靠近现有内容，靠近也就是没法冲破带来艺术上的“翻新”。而2020年开始在图片生成畛域钻研更多的Diffusion model克服了这些问题。Diffusion model的外围原理就是给图片去噪的过程中了解有意义的图像是如何生成的，同时又大大简化了模型训练过程数据处理的难度和稳定性问题。所以Diffusion模型生成的图片相比GAN模型京都更高，且随着样本数量和训练时长的累积，Diffusion model展示了对艺术表白格调更好的模拟能力。2021年的比照钻研表明，在同样的ImageNet的数据库训练后的图片生成品质，应用Diffusion model失去的FID评估后果要优于过后最好的Generative models BigGAN-deep等等。正如结尾提到，往年的AI热点属于文本创作内容，而其实始终到2021年初，OpenAI公布的DALL-E其AI绘画程度也就个别，但这里开始领有的一个重要能力就能够依照文本形容进行创作。而后往年2022年，在三座大山Stable Diffusion、DALL-E 2、MidJourney生成的各种画作中，曾经引起了各种人群包含开发者、艺术家、美术工作者等等的趣味尝试和争执。Stable Diffusion的开源和简略的过滤器性能无疑将Text-to-Imagede的热点和争议推向了低潮。而很快大厂们不再只局限于图片，同时又推出了Text-to-Video的产品。Meta在刚过去的九月底发表了新的AI产品Make-A-Video，使用者能够同样应用文本的形式生产简洁和高质量的短视频，他们的阐明是零碎模型能够从文本-图片配对数据中学习这个世界的样子并从视频片段中推理没有文本状况下的世界变动。从实现场景来看也有多种应用形式，比方文本形容不同类型的场景动作、应用单张或一对图片生成变动视频、在原始视频中退出额定的元素和变动，Meta也表明了他们之后会公布demo工具。很快在十月初，Google也公布了他们新的AI产品Imagen Video，同样是应用文本生产视频的工具。Imagen Video还在研发阶段，但Google的学术论文表明了这个工具能够通过文本形容生产24 fps的分辨率在1280×768的视频，同时能够有风格化能力和物体3D旋转能力。文章还表明Imagen Video在文本内容的视频出现上也会绝对于优于DALL-E和Stable Diffusion。又没过几天，Google和Phenaki发表了另一个文本生产视频工具Phenaki，甚至能够生产2分钟以上较长的视频。Google同时也阐明了“问题数据”对于AI模型的影响和潜在的危险，公司始终致力于谨严过滤暴力和色情内容以及文化偏差等问题，因而短期内并不会开源Imagen Video模型，但咱们置信不久的未来，不论通过工具或者源代码的形式，这些cutting-edge的视频生产模型也会和图片生产模型一样很快和AI创作者们相见。

既然有了Text-to-Image和Text-to-Video，那Text-to-Speech必定也要蹭一下热度。10月中旬postcast.ai公布了一段音频是跟用AI生成的跟Steve Jobs的对话火了（新闻），从语音语调上听起来真的和Steve自己没有差异，齐全不像是机器人的声音。而技术提供方play.ht在他们的网站上也上线了新的这个十分有吸引力的性能Voice Cloning，下面提供各种名人的AI合成声音。他们并没有提供更多的技术信息，但看起来他们应用了2020年上线并在2021年底凋谢的GPT3模型，同时从成果上看起来曾经十分靠近复制真人的声音了。

技术解读看到历史和一些活泼的例子，是不是感觉AI生成各种内容曾经就在眼前了？咱们能够轻易写几句话就能生成精美的图片、视频、声音满足各种需要了？然而实际操作上仍然会有很多的限度。上面咱们就来适当分析一下最近较热的文本生成图片和视频技术原理，到底实现了什么性能以及相干的局限性在哪里，前面咱们再针对实际游戏内容做一些demo，更贴合利用场景的理解这些局限性。（一）Text-to-Image技术不同的AI图片生成器技术构造上会有差异，本文在最初也附上了一些重要模型的参考文献。咱们在这里次要针对最近热门的Stable Diffusion和DALL-E 2做一些解读和探讨。这类的AI生成模型的核心技术能力就是，把人类创作的内容，用某一个高维的数学向量进行示意。如果这种内容到向量的“翻译”足够正当且能代表内容的特色，那么人类所有的创作内容都能够转化为这个空间里的向量。当把这个世界上所有的内容都转化为向量，而在这个空间中还无奈示意进去的向量就是还没有发明进去的内容。而咱们曾经晓得了这些已知内容的向量，那咱们就能够通过反向转化，用AI“发明”出还没有被发明的内容。Stable DiffusionStable Diffusion的整体上来说次要是三个局部，language model、diffusion model和decoder。

Language model次要将输出的文本提醒转化为能够输出到diffusion model应用的示意模式，通常应用embedding加上一些random noise输出到下一层。diffusion model次要是一个工夫条件U-Net，它将一些高斯噪声和文本示意作为模型输出，将对应的图像增加一点高斯噪声，从而失去一个略微有噪点的图像，而后在工夫线上反复这个过程，对于略微有噪点的图像，持续增加高斯噪声，以取得更有噪点的图像，反复屡次到几百次后就能够取得齐全嘈杂的图像。这么做的过程中，晓得每个步骤的图像版本。而后训练的NN就能够将噪声较大的示例作为输出，具备预测图像去噪版本的能力。在训练过程中，还有一个encoder，是decoder的对应局部，encoder的指标是将输出图像转化为具备高语义意义的缩减采样示意，但打消与手头图像不太相干的高频视觉噪声。这里的做法是将encoder与diffusion的训练离开。这样，能够训练encoder获得最佳图像示意，而后在上游训练几个扩散模型，这样就能够在像素空间的训练上比原始图像计算少64倍，因为训练模型的训练和推理是计算最贵的局部。decoder的次要作用就是对应encoder的局部，取得扩散模型的输入并将其放大到残缺图像。比方扩散模型在64×64 px上训练，解码器将其进步到512×512 px。DALL-E 2DALL-E 2其实是三个子模块拼接而成的，具体来说：一个基于CLIP模型的编码模块，指标是训练好的文本和图像encoder，从而能够把文本和图像都被编码为相应的特色空间。一个先验（prior）模块，指标是实现文本编码到图像编码的转换。一个decoder模块，该模块通过解码图像编码生成指标图像。在本篇文章开始前，心愿你能够理解go的一些根本的内存常识，不须要太深刻，简略总结了如下几点：

从下面的模型拆解中能够看出，DALL-E 2和Stable Diffusion的text encoder都是基于openAI提出的CLIP，图像的生成都是基于diffusion model。其中，CLIP是学习任意给定的图像和题目（caption）之间的相干水平。其原理是计算图像和题目各自embedding之后的高维数学向量的余弦类似度（cosine similarity）。

（二）Text-to-Video技术文本生成视频大略从2017年就开始有一些钻研了，但始终都有很多限度。而从往年10月初Meta发表了他们的产品Make-A-Video以及Google发表了Imagen Video。这两款都是翻新了Text-to-Video的技术场景。而这两款最新产品都是从他们的Text-to-Image产品衍生而言的，所以技术实现形式也是基于Text-to-Image的技术演变而成。实质上来说咱们能够认为动态图片就是只有一帧的视频。生成视频须要思考图片中的元素在工夫线上的变动，所以比生成照片会难很多，除了依据文本信息生成正当和正确的图片像素外，还必须推理图片像素对应的信息如何随工夫变动。这里咱们次要依据Make-A-Video的钻研论文做一下拆解。Meta’s Make-A-VideoMake-A-Video正是建设在text-to-Image技术最新进展的根底上，应用的是一种通过时空合成的diffusion model将基于Text-to-Image的模型扩大到Text-to-Video的办法。原理很间接：从文本-图像数据里学习形容的世界长什么样（文本生成图像）从无文本的视频数据中学习世界的变动（图像在时间轴上的变动）训练数据是23亿文本-图像数据（Schuhmann et al），以及千万级别的视频数据（WebVid-10M and HD-VILA-100M）。整体上来说Make-A-Video也是有三个重要组成部分，所有的组成部分都是离开训练：基于文本图像pair训练的根本的Text-to-Image的模型，总共会用到三个网络：Prior网络：从文本信息生成Image特征向量，也是惟一接管文本信息的网络。Decoder网络：从图像特色网络生成低分辨率64×64的图片。两个空间的高分辨率网络：生成256×256和768×768的图片。时空卷积层和留神层，将基于第一局部的网络扩大到工夫维度在模型初始化阶段扩大蕴含了工夫维度，而扩大后包含了新的留神层，能够从视频数据中学习信息的工夫变动temporal layer是通过未标注的视频数据进行fine-tune，个别从视频中抽取16帧。所以加上工夫维度的decoder能够生成16帧的图片以及用于高帧速率生成的插帧网络空间的超分辨率模型以及插帧模型，进步的高帧速率和分辨率，让视觉品质看起来更好。

整体评估上都要优于往年早些期间的钻研：

劣势：这里的益处很显著就是不再须要应用大量的文本视频pair数据来训练模型。因而也大大减速了模型训练工夫。继承了当初最好的文本生成图像模型的优质后果。*前两点都是之前text-to-video生成模型倒退的瓶颈。限度：这个办法无奈学习只能从视频中失去的关系文本和景象的关系，比方一个人是从左往右挥手还是从右往左挥手的的视频细节。目前限于简略的动作和变动，包含多个场景和事件的较长视频，或者更多的视频中展示的故事细节很难实现。一样是应用大量公开数据的大规模模型，一样有用于生产无害内容的危险。Google’s Imagen Video是由7个串联的子模型形成，模型蕴含多达116亿个参数，其中T5是一个language model用来了解文本语义，Base是负责生产视频中的关键帧，SSR模型晋升视频的像素，TSR负责填充关键帧之间辅助帧。

可能实现的技术利用场景通过底层技术尤其在CV、NLP相干的各类模型在不同内容和多模态场景中的尝试和迭代，对于AI创作和内容生产同样无外乎在不同类型内容（文本、音频、图像、视频）生产和内容跨类型的生产场景。下图很好地总结了这些理论中能够应用的技术场景。

针对游戏内容的Demo这些技术实现是否同样能给咱们提供游戏相干的利用场景呢？咱们在这里针对绝对较为成熟的图像相干的生成场景做了几个demo尝试。整体上来说在咱们游戏中台相干的业务场景中是有一些利用点的。上面看一下这几个demo的样子。（一）文本生成图像针对庄周这个英雄的样子咱们应用工具和代码都尝试了一下如何可能生产不同格调的庄周游戏中的样子：

通过咱们以下形容后的样子，同时也能够加上卡通、二次元、素描等等格调的形容，咱们失去各种不同格调类型的样子：Ultra detailed illustration of a butterfly anime boy covered in liquid chrome, with green short hair, beautiful and clear facial features, lost in a dreamy fairy landscape, crystal butterflies around, vivid colors, 8k, anime vibes, octane render, uplifting, magical composition, trending on artstation

咱们在各种尝试的过程中很显著的感知和发现一些限度：文本形容生成的后果会有一些随机性，生成的图片大概率是很难齐全依照“需要”生成，更多带来的是“惊喜”，这种惊喜在肯定的层面上代表的也是一种艺术风格。所以在理论的应用中并不是很实用于依照严格要求生产图片的工作，而更多的实用于有肯定的形容，可能给艺术创意带来一些灵感的爆发和参考。文本的精确形容对于生成的图片样子是极其重要的，技术自身对文本形容和措辞有较高要求，需对脑海中的外围创意细节有较为精确的形容。生产Domain-specific例如腾讯游戏高度一致的内容元素需对预训练大模型进行再训练。而文本生成视频的场景绝对很新，Google/Meta也是这两三周才官宣对应的视频生成器，且还没有凋谢应用和开源，但咱们预估以目前的热度和迭代速度，在将来的3-6个月内咱们能够对相干能力有更清晰的摸索和尝试。（二）图像交融和变换图像自身的交融变换在早几年的时候就曾经有了一些钻研和摸索，且有了绝对较为成熟的生成的样子，这里咱们应用战争精英的素材尝试做一种变换格调的样子。战争精英素材原图和星空：

更加深度的将星空的色彩和变动交融到原始图片中：

绝对较浅度的将星空的色彩像素交融到原始图片中：

另外一种很有意思的形式是，咱们能够变换人物格调，比方王者英雄不知火舞和亚瑟在咱们印象的样子，咱们能够把他们Q化成数码宝贝的样子：不知火舞

亚瑟

试想一下，这些不同的技术实现甚至都能够串联在一起，比方咱们能够先用文本形容生成图片，再对图片进行格调变换等等，那这里能够操作的事件就越来越多了，这里就不一一开展了。而再进一步思考（发自懒人的思考），咱们是不是都不必去思考文本怎么写？有没有帮忙生成文本或者咱们能够搜寻之前生成过的文本？答案是有，比方Phraser就提供了这样的形式，甚至能够通过图片搜寻相干的文本：

AI创作的意义及危险（一）意义正如结尾提到，往年的AI热点属于AI创作，从2月的Disco Diffusion，到4月的DALL-E 2和MidJourney内测，到5/6月的Google模型Imagen和Parti，再到7月底的Stable Diffusion。越来越多的人开始尝试AI创作图像、声音、视频、3D内容等等，这让咱们看到了AI在艺术畛域越来越多的可能性。十多年前当世界都开始为AI和机器学习欢呼的时候，咱们看到了很多AI能够做的事件，而“创作力”和“想象力”也是始终以来AI最无奈啃动的硬骨头，也是人类世界在AI和机器取代背后最初的倔强，然而当初看起来也是能够被技术拆解的。从Alpha GO身上，咱们就看到了AI在智慧和谋略上就曾经冲破了人类极限，而AI创作又进一步在创造力和想象力逐步取代人类。在将来，一个各方面成熟的AI齐全取代人类看起来曾经是越来越事实的问题。如果AI将来能够实现计算机领域上下游所有的事件包含本人写代码，那么人类须要思考的问题就是如何和一个超过本人所有方面的人共存于世了。（二）危险AI创作的大火在很长时间当前回头看肯定有Stable Diffusion的开源的一席之地，同样这也会带来一些争议和危险。Stability AI的开源是简略粗犷的，他们简直不对生成内容做任何审核或者过滤，他们只蕴含了一些关键词过滤，但技术上能够轻松绕过，Reddit上就有教程如何5秒内移除Stable Diffusion的平安过滤。因而用户能够轻松指控Stable Diffusion生成暴力或不良图片，描述公众人物和名人，也能够高度仿造艺术品或者有版权保护的图像，aka deepfakes。由此咱们也能够构想这项技术可能被用于各类歹意和影响微小的用处，咱们还很难判断在更久的将来，这项技术的开源是会给咱们更大的技术革新还是各种问题。目前最大的乱子可能就是Stable Diffusion让生成暴力和色情图像变得更容易，且内容中往往蕴含真人特色。尽管开源阐明禁止人们应用该模型施行各类犯罪行为，但只有把Stable Diffusion下载到本人的电脑上，使用者能够齐全不守束缚。尽管很多论坛例如Reddit有不少束缚政策且会封禁相干内容，但仍有用户一直生成各种名人明星的荒诞图像，AI生成内容的伦理问题再次会呈现在风口浪尖。在AI创作内容的这些模型中，训练数据中一类很显著的视觉素材就是受版权保护的作品。这在艺术家眼里，模拟艺术风格和美学的行为是不道德行为，且可能违反版权。Stable Diffusion也是其中重要一员，它的训练集LAION-5B蕴含50多亿张图像与匹配的文本标注，其中就蕴含了大量受版权保护的内容，这些内容其实归泛滥独立艺术家和业余摄影师所有。这些版权争议，也给这些AI创作工具带来了偷盗艺术家创作成绩的骂名，也让很多有抱负有想法的艺术家越来越难以生存。

参考资料：
1.https://arxiv.org/pdf/2209.14…
2.https://arxiv.org/pdf/2112.10…
3.[1907.05600] Generative Modeling by Estimating Gradients of the Data Distribution
4.https://arxiv.org/pdf/2204.06…
5.https://imagen.research.google
6.[2105.05233] Diffusion Models Beat GANs on Image Synthesis
7.https://ommer-lab.com/researc…
（留神：后盾回复关键词“AI”，即可获取demo生产工具）
开发者黄历

关于算法:AI绘画火了一文看懂背后技术原理

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于算法:AI绘画火了一文看懂背后技术原理

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复