关于人工智能:从文本创建艺术AI图像生成器的数据集是如何构建的

AIGC系列分享是整数智能推出的一个全新分享系列，在这个系列中，咱们将介绍与AIGC概念相干的乏味内容。AIGC系列次要分为以下几篇文章：

被称为下一代风口的AIGC到底是什么？
AIGC的数据集构建计划分享系列:
- 从文本创立艺术，AI图像生成器的数据集是如何构建的
- ChatGPT的数据集构建计划（敬请期待）
- 未完待续......

最近，“AI绘画”吸引了很多人的眼光，而“AI绘画”在近期获得如此微小停顿的起因之一得益于Stable Diffusion的开源。

引自Imagen官网

什么是文图生成技术

文本形容：A small cabin on top of a snowy mountain in the style of Disney, artstation

文图生成技术的钻研开始于2010年中期，随同着深度学习技术的倒退而提高。截至2023年2月，目前已知的最先进的文生图模型有：OpenAI的DALL-E2、Google的ImageGen和StableilityAI的Stable Diffusion。这些模型生成的图片曾经开始靠近实在照片以及人类所绘艺术作品的品质。

在深度学习衰亡之前，搭建文本到图像模型的尝试仅限于通过排列现有的组件图像进行拼贴，例如从剪切画数据库中抉择图像造成相似于拼贴画的图像。随着深度学习的倒退，越来越多的机构提出基于深度学习的文生图模型。

2015年，由多伦多大学钻研人员提出第一个现代化文生图模型：alignDRAW。它应用带有注意力机制的循环变分主动编码器来扩大之前的DRAW架构，使其能以文本序列作为输出。只管alignDRAW生成的图片是含糊，不真切的，然而该模型可能演绎出训练数据中没有的物体。并且能够适当地解决新的文本形容，例如：“停车标识在蓝天上飞”。这表明该模型在肯定水平上能够了解语言形容，并生成新的货色，而不是仅仅在“回放”训练集中的数据。

文本形容：停车标识在蓝天上飞，引自aligenDRAW

论文2016年，Reed、Akata、Yan等人首先试图将生成反抗网络（GAN）用于文生图工作。他们通过在特定畛域的数据集上训练生成器以及判断器。训练实现的模型可能从文本形容中生成“视觉上可信的”物体。然而，基于GANs生成的图片在视觉上只可“远观”，在细节上不足一致性。此外，基于GANs生成的图片多样性不够好，生成的图片都差不多，原创性不佳。常见的基于GANs的文图生成模型有：AttnGAN、DM-GAN、DF-GAN、XMC-GAN、VQGAN+CLIP、GauGANs、StyleGAN、Make-A-Scen等。

2021年1月，OpenAI公布了DALL-E，这是最早引起公众宽泛关注的文生图模型之一。DALL-E模型是GPT-3的多模态实现，它基于Transformer架构，领有120亿个参数。该模型在一个从网上收集的蕴含2.5亿个图像文本对的数据集上进行训练失去。DALL-E会依据文本形容生成多个图像，之后由CLIP模型对这些图像进行排序，以出现最高品质的图像。除了生成各种格调的图像（相机写实主义图像、绘画、表情符号等）之外，它还能够“操作和重新排列”图像中的对象。其创作者指出DALL-E的一项能力是在没有明确批示的状况下将设计元素正确搁置在新鲜的作品中。例如，输出文本：“衣着圣诞衣服的企鹅”。DALL-E不仅生成企鹅衣着毛衣的图像，还会生成与主题相干的圣诞老人的帽子。如下所示：

文本形容：衣着圣诞衣的企鹅

同年4月份，OpenAI发表了新版本的DALL-E2，声称它能够从文本形容中生成照片般真切的图像。与DALL-E相比，DALL-E2在速度、图像品质、训练数据集以及语言理解能力都有了显著改良。不过有时候模型也会呈现谬误。比方DALL-E2就无奈辨别：“黄色的书和红色的花瓶”。

文本形容：黄色的书和红色的花瓶，右边图片由Imagen生成，左边图片由DALL-E2生成，引自Imagen论文

2022年5月，Google推出Imagen。它是一种文本到图像（text-to-image）扩散模型（diffusion model），具备前所未有的逼真度和深度的语言了解。Imagen建设在大型Transformer语言模型了解文本语义的能力之上，依赖于扩散模型生成高保真的图像。Imagen表明了以下四点论断：

解冻大型预训练模型的文本编码器对于文本到图像工作十分无效
缩放预训练文本编码器的大小比缩放扩散模型的大小更重要
提出一种新的阈值扩散采样器，能够应用十分大的无分类器领导权重
引入了一种新的高效的U-Net架构，其计算效率更高，内存效率更高，收敛速度更快

文本形容：A brain riding a rocketship heading towards the moon，引自Imagen官网

2022年7月，OpenAI推出Stable Diffusion。Stable Diffusion是一个基于Latent Diffusion Models（潜在扩散模型，LDMs）的文图生成（text-to-image）模型。得益于Stability AI的计算资源以及LAION的数据资源的反对，Stable Diffusion在LAION-Aesthetics（LAION-5B的美学子集）上训练了一个Latent Diffusion Models，专门用于文图生成。Latent Diffusion Models通过在一个潜在示意空间中迭代“去噪”数据来生成图像，而后将示意后果解码为残缺的图像，让文图生成工作可能在生产级GPU上，在10秒级别工夫生成图片，大大降低落地门槛，也带来了文图生成畛域的大火。

文图生成样例，引自Stable Diffusion论文

同年11月，OpenAI公布了Stable Diffusion 2.0。与最后的v1版本相比，Stable Diffusion 2.0版本应用全新的文本编码器（OpenCLIP）训练文本到图像模型，这大大提高了生成图像的品质。此版本的文生图模型能够生成默认分辨率为512x512像素以及768x768像素的图像。此外，该模型在LAION-Aesthetics（LAION-5B的美学子集）进行训练。与v1版本不同的是，v2版本应用LAION的NSFW（色情和性内容过滤器）过滤掉了数据集中的成人内容。

文本形容：一只戴墨镜的兔子

Stable Diffusion 2.0还包含一个超分辨率扩散模型，它能够将图像的分辨率进步4倍。联合文本到图像模型，Stable Diffusion 2.0当初能够生成分辨率为2048x2048甚至更高分辨率的图像。

左图：128x128低分辨率的图片，右图：512x512高分辨率的图片，引自Stable Diffusion 2.0官网

除了实现根本的文生图工作、超分辨率工作之外，Stable Diffusion 2.0还能够玩转很多其余工作。比方Stable Diffusion 2.0 在v1版本图像到图像（image-to-image）的个性之上，提出深度疏导的稳固扩散模型（depth-guided stable diffusion）：depth2img。它应用现有模型推断输出图像的深度，而后应用文本和深度信息生成新的图像。

depth2img，引自Stable Diffusion 2.0官网

此外，Stability AI团队在Stable Diffusion 2.0的根底上提出一个新的文本疏导的图像模型。这能够智能且疾速地切换图像中的局部内容。

图像修补模型生成的图像，引自Stable Diffusion 2.0官网

同年12月，OpenAI公布了Stable Diffusion 2.1版本（公司效率不堪称不高），次要作了以下3点晋升。

调整过滤器，减少数据量：在2.0版本中，为了避免色情内容和名人肖像的滥用，Stability AI应用LAION的NSFW（色情和性内容过滤器），过滤了成人内容。然而，该过滤器过于激进，这导致一些不置可否的图像惨遭“谐和”，这缩小模型训练数据集中的人物数量。因而，2.1版本调整了过滤器（能够涩涩，但依然去除绝大多数涩涩内容）
增强非标准分辨率图像渲染：该版本的模型显著晋升了修建、室内设计、野生动物和景观场景方面的图像品质，能够为用户提供漂亮的近景和史诗般的宽屏图像
增强反向提醒词：它容许用户通知模型不生成什么，用于打消不须要的细节，使得生成的图像更加粗劣

文本形容：A mecha robot in a favela in expressionist style，左图：v1.0版本，右图v2.1版本

图解Stable Diffusion原理

在大抵理解文图技术之后，大家是不是想要理解图文生成模型的原理以及如何构建训练数据集呢？别急，上面，咱们将以Stable Diffusion为例子，以图文的形式带着大家一起掀开Stable Diffusion的面纱。

Stable Diffusion text-to-image示意图，引自Jay Alammar博客

Stable Diffusion是个比拟杂合的零碎，次要由三个外围模块组成：

Text Encoder（文本编码器）
Image Information Creator（图像信息生成器）
Image Decoder（图像生成器）

Stable Diffusion模块示意图，引自Jay Alammar博客

Text Encoder（文本编码器）

该模块负责解决语义信息。通常是利用CLIP（v1版本）、OpenCLIP（v2版本）等模型将人类语言（文字）编码为计算机语言（语义向量）。训练CLIP（OpenCLIP）则须要一个图文配对的数据集。

CLIP训练流程图，引自Jay Alammar博客

Image Infomation Creator（图片信息生成器）

该模块负责生成图片隐变量。其外围则是一个屡次迭代的去噪过程，即训练一个去噪的扩散模型。模型的输出是一个带噪声的图片隐变量（含语义向量），通过扩散模型，逐渐去除隐变量中的噪声（模型的预测指标是噪声），最终失去去除噪声的隐变量（加噪图减去噪声）。训练这个扩散模型，则须要一个“去噪”数据集。

噪声预测器，引自Jay Alammar博客

Image Decoder（图片生成器）

该模块利用隐变量生成真正的图片。具体性能是输出去噪的隐变量，通过Image Decoder，输入一张真正的图片。

不同迭代次数下的隐向量可视化，引自Jay Alammar博客

Stable Diffusion数据集构建形式

由上文可知，Stable Diffusion 算法通过了三个版本的迭代，其训练的数据集也产生不同水平的变更。总而言之，Stable Diffusion 系列模型都是在LAION-Aesthetics（LAION-5B的美学子集）上训练失去。区别在于Stable Diffusion 2.0应用LAION的NSFW（色情和性内容过滤器）过滤掉了数据集中的成人内容。Stable Diffusion 2.1调整了过滤器权重，保留了局部“涩涩”数据，扩充了数据集。

数据集内容

此类数据集由图片以及图片对应的标签（形容）组成，次要用来训练CLIP、OpenCLIP等多模态模型。

数据集：图片以及它们的形容，引自Jay Alammar博客

数据集构建

LAION-5B是目前已知且开源的最大规模的多模态数据集。它通过CommonCrawl获取文本和图片，而后应用CLIP过滤掉图像和文本嵌入类似度低于0.28的图文对，最终保留下来50亿个图像-文本对。该数据集蕴含23.2亿的英文形容，22.6亿个100+其余语言以及12.7亿的未知语。

LAION-5B数据集构建pipeline，引自LAION-5B论文

LAION-5B数据集的构建蕴含3个次要组件：

Common Crawl网页的分布式过滤
图像-文本对的分布式下载
内容过滤

【Common Crawl网页的分布式过滤】：为了从Common Crawl中提取图像-文本对，作者团队从Common Crawl的WAT元数据文件中解析HTML IMG（图片）标记。具体来说，只采集具备alt-text的图像。alt-text是IMG标记的一个HTML属性，它蕴含在相应图像无奈出现状况下的文字代替。在提出代替文字后，应用CLD3进行语言检测，有三种可能的输入：英语、其余语言或未检测到语言。采集的后果数据存储在PostgreSQL服务器中，以便下一阶段进行解决。目前，该服务器始终保护大概500亿个图像URL。

【图像-文本对的分布式下载】：为了最大限度地利用资源，作者团队通过应用Trio和Asks Python库的异步申请从解析过的URL下载原始图像。作者抉择一个具备2个vCPUS，1GB RAM和10Mbps下载宽带的小型云节点作为工作实例。这样，工作人员能够在大概10-15分钟内解决10,000个链接。

【内容过滤】：从Common Crawl下载WAT文件后，删除小于5个字符的文本、小于5KB的图像数据以及潜在的歹意、大图像或冗余图像数据。而后依据图像-文本对的内容对其进行过滤。具体来说，应用OpenAI的ViT-B/32 CLIP模型计算图像和文本编码之间的余弦类似度，而后删除所有余弦类似度小于0.28的英文图像-文本对，以及所有类似度低于0.26的其余图像-文本对。这一步删除了原始500亿张图像中的90%，只剩下近60亿张图片。

作者将LAION-5公布为3个子集：

LAION-2B-en：蕴含23.2亿英文-图像对
LAION-2B-multi：蕴含2236亿个来自100多种其余语言的图像-文本对。其中前5种语言别离是俄语（10.6%）、法语（7.4%）、德语（6.6%）、西班牙语（6.6%）和汉语（6.3%）
LAION-2B-nolang：蕴含12.7亿个语言无奈被分明检测到的图像-文本对

作者团队提供Apache Parquet格局的元数据文件，每个图像-文本对蕴含以下属性：

64位整数标识符
图像的URL
文本字符串
图像的长和宽
文本与图像之间的文本类似度
来自NSFW和水印检测器的输入（别离是0到1之间的一个分数）

此外，为了适应不同工作的数据需要。LAION-5B还提供不同的子集。例如：LAION-High-Resolution（一个规模为170M，图像分辨率大于1024的超分辨率子集，用于超分辨率工作），LAION-Aesthetic（一个120M的美学图片子集，用于文图生成工作）。

值得一提的是，LAION-Aesthetic应用以下三个准则，从LAION-5B数据集中抉择符合条件的图像：

只保留pwatermark < 0.8、punsafe < 0.5的数据。
针对上述数据，进行美学打分（依照人类审美对图片进行打分，一共10个等级，得分越高，图片越合乎美学规范），保留得分大于8的数据，失去一个10M的美学子集。
当升高美学得分（得分大于7），即可失去一个120M的美学子集。

美学图片与惯例图像，引自LAION-5B官网

数据集应用

此类数据集是在图文数据集的根底之上，退出噪声，构建“去噪”数据集。次要用来训练Difussion models。

Stable Diffusion则是在LAION-5B的一个子集（LAION-Aesthetics）上训练失去的。有了图文数据集之后，只须要向一般的照片中增加噪声（高斯噪声），就有了带噪声的图片。具体的数据集构建形式如下所示：

从图文数据集中随机抉择照片
生成从强到弱的各个强度的噪声
抉择某个噪声强度
将噪声加到图片里

训练数据集构建形式：1.抉择图片；2.生成不同强度的噪声；3.从中抉择强度（比方强度1）；4.将噪声退出图片里；引自Jay Alammar博客

当初就实现了训练集外面的一张图片。实际上，噪声能够被划分为更加细腻的等级。若将其分为几十个甚至上百个等级档位，那么就能够创立出成千上万个训练集。比方，咱们将噪声设置为100个档位，上面就展现了利用不同档位联合不同图片创立6张训练图片的过程：

加噪数据集样例，引自Jay Alammar博客

值得注意的是，训练好的Diffusion模型生成的图片是靠近训练集散布的，它和训练集保有雷同的像素法则。比方，用一个艺术家数据集去训练模型，那么它就会遵循美学的色彩散布。用真实世界的训练集去训练模型，那么它就会遵循真实世界的法则。

上述数据集构建形式，不仅适宜Stable Diffusion，也实用于OpenAI的Dall-E2和Google的Imagen。

然而，上述过程临时没有引入文字和语义向量的管制。换言之，如果单纯依照上述办法构建数据集来训练模型，咱们可能失去一些炫酷的图片，但无法控制最初生成的后果。因而，在构建数据集的时候，还须要引入本文语义输出。如下图所示：

数据集蕴含编码后的文本，因为所有操作在潜空间进行操作，因而输出图像和预测噪声都在潜空间中，引自Jay Alammar博客

至此，训练Diffusion models的数据集就构建实现了。训练Diffusion models的管道如下图所示：

Diffusion models pipeline，输出：加噪图片、噪声强度、文本嵌入；输入：预测的噪声，引自Jay Alammar博客

常见的可用于文图生成的数据集

COCO（COCO Captions）

COCO Captions是一个字幕数据集，它以场景了解为指标，从日常生活场景中捕捉图片数据，通过人工生成图片形容。该数据集蕴含330K个图文对。
数据集下载链接：https://cocodataset.org/

Visual Genome

Visual Genome是李飞飞在2016年公布的大规模图片语义了解数据集，含图像和问答数据。标注密集，语义多样。该数据集蕴含5M个图文对。
数据集下载链接：http://visualgenome.org/

Conceptual Captions（CC）

Conceptual Captions（CC）是一个非人工正文的多模态数据，蕴含图像URL以及字幕。对应的字幕形容是从网站的alt-text属性过滤而来。CC数据集因为数据量的不同分为CC3M（约330万对图文对）以及CC12M（约1200万对图文对）两个版本。
数据集下载链接： https://ai.google.com/researc...

YFCC100M

YFCC100M数据库是2014年来基于雅虎Flickr的影像数据库。该库由一亿条产生于2004年至2014年间的多条媒体数据组成，其中蕴含了9920万张的照片数据以及80万条视频数据。YFCC100M数据集是在数据库的根底之上建设了一个文本数据文档，文档中每一行都是一条照片或视频的元数据。
数据集下载链接：http://projects.dfki.uni-kl.d...

ALT200M

ALT200M是微软团队为了钻研缩放趋势在形容工作上的特点而构建的一个大规模图像-文本数据集。该数据集蕴含200M个图像-文本对。对应的文本形容是从网站的alt-text属性过滤而来。（公有数据集，无数据集链接）

LAION-400M

LAION-400M通过CommonCrwal获取2014-2021年网页中的文本和图片，而后应用CLIP过滤掉图像和文本嵌入类似度低于0.3的图文对，最终保留4亿个图像-文本对。然而，LAION-400M含有大量令人不适的图片，对文图生成工作影响较大。很多人用该数据集来生成色情图片，产生不好的影响。因而，更大更洁净的数据集成为需要。
数据集下载链接：https://laion.ai/blog/laion-4...

LAION-5B

LAION-5B是目前已知且开源的最大规模的多模态数据集。它通过CommonCrawl获取文本和图片，而后应用CLIP过滤掉图像和文本嵌入类似度低于0.28的图文对，最终保留下来50亿个图像-文本对。该数据集蕴含23.2亿的英文形容，22.6亿个100+其余语言以及12.7亿的未知语。
数据集下载链接：https://laion.ai/blog/laion-5...

整数智能的数据服务助力您玩转AIGC

80%的数据 + 20%的算法 = 更好的AI

人工智能的研发是一个十分标准化的流程，它会经验4步，从数据采集->数据标注->模型训练->模型部署。而80%的研发工夫，则耗费在了数据采集与数据标注的环节。数据工程的外围在于高效率、高质量的数据标注。

整数智能——AI行业的数据合伙人

整数智能信息技术（杭州）有限责任公司，起源自浙江大学计算机翻新技术研究院，致力于成为AI行业的数据合伙人。整数智能也是中国人工智能产业倒退联盟、ASAM协会、浙江省人工智能产业技术联盟成员。

整数智能提供了智能数据工程平台（ABAVA Platform）与数据集构建服务（ACE Service）。满足了智能驾驶、AIGC、智慧医疗、智能安防、智慧城市、工业制作、智能语音、公共治理等数十个利用场景的数据需要。目前公司已单干海内外顶级科技公司与科研机构200余家，领有知识产权数十项，屡次参加人工智能畛域的规范与白皮书撰写。整数智能也受到《CCTV财经频道》《新锐杭商》《浙江卫视》《苏州卫视》等多家新闻媒体报道。

1.专业级的团队和技术撑持

弱小的研发团队继续迭代AI数据平台ABAVA Platform，发明极致的AI数据标注效率
数据专家为您制订数据集构建计划，满足您对数据集的定制化需要

2.满足全畛域多场景的数据标注需要

在图像与视频数据方面，反对关键点标注、线标注、框标注、语义宰割标注、平面框标注、逐帧标注等标注需要
在点云数据方面，反对3D点云框标注、3D点云语义宰割、3D点云车道线标注、2/3D交融标注等标注需要
在文本数据方面，反对NER命名实体标注、SPO文本三元组标注、内容审核、情绪剖析等标注需要
在音频数据方面，反对ASR标注、音素标注、MIDI标注等标注需要

3.极致的的数据交付品质

整数智能领有数十家自建数据产业基地和单干产业基地，笼罩10万名人工智能训练师，逐步形成一套迷信业余的人员、品质管控及数据安全保障机制
依靠数据标注方面所积攒的教训，平台可达成100万张图像标注量级的峰值。整数智能数据管理平台通过流程与机制的双重保障，为您提供品质更优、响应速度更快的数据服务，助力企业用户实现降本增效

分割咱们

心愿可能与正在浏览这篇文章的您进一步交换沟通，一起摸索AI数据的更多可能性。欢送分割咱们：
电话（微信同号）：137-8507-0844
邮箱：zzj@molardata.com