关于stable-diffusion:糟了糟了总部被SD画完都Q了这篇深入浅出贴助你早日实现Stable-Diffusion自由-京东云技术团队

53次阅读

共计 10028 个字符,预计需要花费 26 分钟才能阅读完成。

我也不想题目党,可乐高积木版的总部大楼就是好萌啊!

我是憨憨,一个不会画画的设计师。过来半年里,AI 绘画已经屡次引爆公众探讨,网络上那些粗劣的二次元同人插画、堪比真人的 AI 穿搭博主、突破次元壁的赛博 Coser……背地都有一个“幕后黑手”—— Stable Diffusion,其背地的技术便是人们常说的扩散模型(扩散模型这个概念源自热力学,在图像生成问题中得以利用)。

想晓得下面这些粗劣的插画是如何实现的吗?接下来,我将联合这个案例带你走进 Stable Diffusion 的世界,帮你系统性地理解并把握这神奇 AI 绘画魔法。

尽管咱们把这个过程称之为 AI 绘画,但实际上它并不是像人类画图一样打草稿、构线描边,再去上色、对细节加工……这样循序渐进地去实现一幅画作的,它采取了一个人类未曾构想的门路 —— Diffusion(扩散)。

一、Diffusion:眼一闭一睁,一张图画好了

有一个十分形象的形式,来解释 Diffusion 的原理。

这是我家的傻狗,你能够将本人的角色带入到执行绘画指令的 AI 中,当初让你把这幅画用宫崎骏格调从新绘制一遍,你做失去吗?你能够尝试着把眼睛眯成一条缝去看它(如果你远视能够摘掉本人的眼镜),它是不是变得含糊了?放弃这个状态,设想着它正在逐步变成动漫里的样子,随后缓缓睁开眼睛……

这就是一个扩散模型工作的根本流程了。

在这个过程中,AI 会将图片通过减少噪声的形式进行“扩散”,使它变得含糊,就像是眯起眼睛的你一样,当内容含糊了当前,你就有更充沛的空间去从它本来的状态抽离,并且设想它是否能变成其余模样。AI 通过深度学习的形式,将很多不同的图像都转换成了这样的形象内容,并逐步开始了解了这个“扩散”的过程,每学一张图,它就会通过一些形式提取图像里的信息特色,并和它的原图建设关联。

在方才的例子中,当提到宫崎骏格调的时候,你的脑海里必定也会跳出跟这类作品相干的格调特质来,因为你看过并且记得,这个时候,咱们开始去设想它变成动画片里的样子,并且用一个动漫的形式“睁开眼睛”,让图片复原清晰,这就是在对图像进行逆向的扩散,也就是去噪。这幅画,就曾经被你脑海里对于宫崎骏的设想从新绘制一遍了。

这一原理,为咱们在 AI 绘画中的操作提供了实践根底和指导思想。当然,这只是一个简略的比喻,在实在的 AI 图像生成过程中要远简单得多,咱们只须要晓得,在 SD 外面咱们能接触到的各种提醒词、模型、controlNet 等,其实管制的都只是 AI 的学习、转化、去噪过程,而非它一笔一画的动作。

二、一副 AI 绘画作品 = 提醒词 + 参数设置 + 模型

这是 Stable Diffusion webUI,咱们所有的操作都是在这里实现的。webUI 其实只是一个执行的程序,用来屏蔽掉 Stable Diffusion 简单的模型和代码操作。当你在浏览器里关上了这个 webUI 当前,就能够利用它开始作画了。

WebUI 下面一整排标签栏对应了不同的性能,做图最罕用的是前两个:文生图与图生图,它代表的是两种绘制的根本形式,第三个标签的更多次要用于对图片进行 AI 放大解决,它能够让你生成更清晰的大图。

看过《哈利波特》的影迷肯定会记得,在霍格沃滋的魔法世界里,一个魔咒想要胜利施展,不仅须要集中精力念对咒语,还须要一根魔杖,以及正确地挥动魔杖的手势,任何一个步骤呈现谬误,都有可能导致魔咒动员的失败,极其状况甚至会被反噬,在 AI 绘画的魔法世界里也是相似。

1、提醒词:指挥 AI 作图的咒语

WebUI 中被咱们输出进去的形容文字或图像信息,就是 Prompts (提醒词):用于生成图像的文字输出,须要应用英文输出,但你也能够通过摸索 Extensions 来实现中文输出。提醒词的涵盖范畴很广,能够包含:主体、格调、色彩、质感特点等一些具体因素。

提醒词分成两局部,一部分是正向的提醒词,另一部分是反向提醒词,别离用来管制你想要在画面里呈现的、想排除在外的内容。

AI 生成进去的货色是具备随机性的,每次生成进去的货色都会不太一样,这个过程就像是在“抽卡”:想出好的图片,得靠运气来抽。比方:一个女孩在林中散步,这其实只是一个十分概括的形容,这个女孩长什么样子、森林里有什么、工夫是早上还是早晨、天气如何……这些 AI 都不晓得,提醒词太过于抽象,那 AI 就只能瞎蒙、抽卡了。咱们能够把本人设想成一个有情的甲方,向 AI 沟通你的需要、AI 须要改良的中央。咱们对 AI 提的要求其实就是提醒词 Prompts,如果 AI 没有达到想要的成果,就一直补充、阐明,多试几次总有一次能够抽到想要的成果~

虽说 AI 是人工智能,但它和人类智慧还是有肯定差距的,有时候你会发现即便提醒词曾经给了很多,本人仍然很难向 AI 表白分明本人的需要。其实在现实生活里,这种对于需要的传递偏差与谬误解读其实也普遍存在着,比方:总是干架的产品经理和程序员、甲方客户与设计师。拿我相熟的设计举例,如果你是需求方,除了一直对着设计师一遍又一遍的怒吼需要以外,还有什么方法让他疾速开窍呢?

你能够拿着一张海报或者 banner,通知设计师我想要的感觉是这样的,那他就会更直观、具体的感触到你的想法。AI 绘画也是一样,当你感觉提醒词不足以表白你的想法,或者心愿以一个更为简略清晰的形式传递一些要求的时候,那就再丢一张图片给他就好了。此时,图片的作用和文字是相当的,就是都作为一种信息输送到 AI 那里,让它拿来生成一张新的图片,这就是图生图。

2、参数设置:管制咒语施放的魔杖

这部分内容介绍一下在 AI 绘画过程中,webUI 外面这些简单的参数设置。

(1)采样算法(Sampler) 简略来说,通过这些采样算法,噪声图像能够逐步变得更清晰。webUI 提供的算法选项十分多,包含 Euler a、DPM、DDIM 等。我分享几个咱们常常会用到的:

  • 想应用疾速、新鲜且品质不错的算法,能够尝试 DPM++ 2M Karras,设置 20~30 步;
  • 想要高质量的图像,那么能够思考应用 DPM++ SDE Karras,设置 10~15 步(计算较慢的采样器)、或者应用 DDIM 求解器,设置 10~15 步;
  • 喜爱稳固、可重现的图像,请防止应用任何原始采样器(SDE 类采样器);
  • Euler、Euler a 比拟适宜插画格调,出图比拟奢侈;

(2)采样迭代步数(Steps) 与采样算法配合应用,示意生成图像的步数。步数越大,须要期待的工夫越长。通常 20-30 步就足够了。默认的采样步数个别都是 20。如果你的算力短缺且想谋求更高的粗疏度,就设置为 30-40,最低不要低于 10,不然你可能会被你本人产出的作品吓到。

(3)面部修复 在画人物的时候须要勾选上,他能够改善细节、纠正不精确的特色,让生成的人脸显得更加天然和好看,相似美图秀秀的一键美颜。

(4)宽度 & 高度 生成图像的宽度和高度分辨率。默认的分辨率是 512 x 512, 但这个分辨率下的图片,哪怕是细节再丰盛,看起来也很含糊,所以设施容许的状况下,咱们个别把它提到 1000 左右。雷同的提醒词用更高的分辨率跑进去,质感齐全都不一样。当然,分辨率设置的太高也会有问题,显卡显存扛不住,呈现“CUDA out of memory”的提醒。为了让我的 AI 绘画有强悍的性能,保障我的出图效率和体验,我应用了 京东云 GPU 云主机,它领有超强的并行计算能力,在深度学习、科学计算、图形图像解决、视频编解码等场景宽泛应用,能够提供触手可得的算力,无效缓解计算压力,让我在高清出图时不再有“爆显存”的懊恼。

(5)平铺 / 分块(Tiling)用来生成无缝贴满整个屏幕的、纹感性图片的,如果没有须要谨慎勾选哦,它会让你的画面变得很奇怪。

(6)提醒词相关性(SFG Scale)CFG Scale 的范畴是 1-30,默认值为 7。咱们能够通过调整不同的 Scale 值来察看图像的变动。它的数值越高,AI 绘画忠诚地反馈你提醒词的水平就越高,7~12 之间是比拟平安的数值,数值太高则容易引起图片变形。

(7)随机种子(Seed)生成图像的随机种子,相似于抽奖的侥幸种子,会影响生成的图像后果,是咱们用来管制画面内容一致性的重要参数。如果咱们想要画面放弃一样的格调,就能够应用同一个随机种子。在这个随机种子外面,有 2 个性能按钮,点击右侧的骰子,能够把随机参数设置成 -1,每一次都抽一张新的卡;点击两头的循环按钮,就会把种子设置成上一张图片抽出来的数字。

(8)生成批次、每批数量 每批、每次次生成的图像数量,如果显存不够大,倡议调小数值。因为 AI 绘画的不确定性,即便是同一组提醒词,也须要重复试验。这个试验过程有时候会很漫长,如果你想让 AI 始终一直地依照同一组提醒词和参数出图,能够尝试批次数调高,绘制的过程则会一直反复地进行。所以齐全能够让它一口气来上个几十次甚至上百次,本人去吃个饭、睡一觉,让显卡默默地在这里打黑工。增大 [每批数量] 能够让每批次绘制的图像数量增多,实践上效率会更高,但它同一批绘制的办法是:把这些图片拼在一起看作一张更大的图片,所以如果你的设施不好,非常容易爆显存。

🎉🎉感激认真的你曾经浏览完 4218 个字了,如果读到了这里,阐明你对这类话题感兴趣,也对我的科普比拟认可,文末有 交换群 能够退出🎉🎉

3、模型:要施展的魔法品种

AI 之所以能满足你的各种奇奇怪怪的需要,其实来源于它对很多其余画作的深度学习,咱们把拿图片给 AI 学的这个过程,叫做喂图。学习的内容不仅包含对具体事物的形象描述,还包含对他们的出现形式,说艰深一点,就是“画风”。如果咱们喂给 AI 的图片都是二次元格调的,那他的世界就是二次元的;如果你喂给 AI 的图片都是真实世界里的照片,那它就画不出“画”来。咱们“喂”给 AI 图片以及 AI 学习的这个过程,会被打包、整合到一个文件外面,他们就是 AI 绘画中的“模型”:应用不同格调的模型,就能做出不同格调的作品。

大模型: 在 webUI 左上角的内容就是咱们常说的大模型,也叫做根底模型,比方 sd-v1.5.ckpt,sd 官网自带的根底模型。这类模型都是由 dreambooth 技术,通过大量数据训练,能够生成各类常见元素的图片,一个全能工具,不可短少,否则 sd 不能启动,文中的很多图片来自不同的大模型,感兴趣的能够留言一起探讨。

VAE 模型:变分自解码器(Variational Auto Encoder),vae 的作用是加强模型的色调、光照等体现成果,相当于给模型加了美颜滤镜。所以如果你发现你的模型做的图发灰,检查一下 vae 文件是否勾选。目前少数比拟新的模型,其实都曾经把 VAE 整合进大模型文件里了,少数模型作者都会举荐他们认为适合的 VAE,也有一些广泛实用于大多数模型的 VAE,例如 kf-f8-anime。

下载渠道:一个是 HuggingFace,它是一个容许用户共享 AI 学习模型和数据集的平台,蕴含的内容十分广,不仅有 AI 绘画,也包含很多其余 AI 畛域的内容,因而呈现出了比拟高的业余门槛;另一个是 Civitai,俗称 C 站,它是一个业余的 AI 绘画模型分享平台,在这里看到的各种模型展现是十分图像化、具体化的,并且在 C 站浏览、下载模型均不须要注册。

实际上模型不止 Checkpoint 一种,接下来再为你介绍 3 种用来微调主模型的 ” 小模型 ”。

(1)Lora 模型:最近最火爆的模型,最大的特点就是简直图像上的信息它都能够训练,并且还原度十分高。当初网络上风行的很多 Ai 真人绘图软件根本都是用的 Lora 模型。Lora 模型次要用于固定图片格调,因为这类模型具备容易训练、对电脑配置要求低等特点,因而应用 Lora 训练的人更多。

比方下面这张图,应用的 lora 模型是 LegoAlrev,它能够让咱们的总部大楼呈现出乐高积木的格调。

目前 LoRa 次要利用特点是各种游戏、动漫角色的二次创作构建,因为训练 LoRa 须要针对一个对象的各个方面的素材,如果是人物,那就须要不同姿态、不同表情、甚至是不同画风的货色,来帮忙 AI 固定外面的特色。一些热门的 ACG 角色往往领有充沛的素材可供训练,进去的成果是十分不错的。

(2)Embeddings 模型:又叫 Textual Inversion 模型,须要和主模型一起搭配应用,能够简略了解为提词打包模型,体积个别只有几十 kb。能够生成特定角色的特色、格调或者画风。

如果说 checkpoint 是一本大字典,那 Embeddings 就像是字典外面的一片小书签,它可能精准的指向个别字、词的含意,从而提供一个极其高效的索引。这种索引形式,除了能帮 AI 更好地画好字典里曾经有的货色以外,有时候也能够帮咱们实现特定形象的出现。比方:咱们想让 AI 画一只“猫又”,字典里尽管没有间接记录猫又这种比拟偏远的概念,但它晓得“猫”怎么画、晓得“人”怎么画,也可能晓得“妖怪”怎么画,那咱们就在字典上记有这些概念的页面里,别离夹上一片醒目的书签,那 AI 一听到“猫又”,就间接翻到这几页,把外面的信息汇总到一起,就晓得“猫又”是个什么货色了。

(3)Hypernetwork 模型:同样须要搭配主模型一起应用,它最罕用于画风、成果的转换,也能够用于生成指定的角色。相比 Embeddings 和 LoRa 来看,网上少数研究者对 Hypernetwork 在图像生成方面的评估并不好,并且它的作用其实是能够局部被 LoRa 取代的,当初也有不少优良的 LoRa 通过对训练样本的把控实现了画风的塑造植入,我平时用的不多,所以这里就不过多介绍了。

三、高清放大 - 回绝低质量的出图

在 webUI 里,有一系列性能是专门为乐优化产出图像品质,让咱们取得更大、更高清的图片而存在的,例如高分辨率修复、Upscale 脚本,以及附加性能中的图片放大算法,他们的实质都是把低分辨率的图片再拿去“图生图”一次,从而失去一张更大的图片。

在方才的生成的图片中,它的画面看上去还挺粗劣,但因为分辨率低,导致了一些细节的缺失和凌乱,这里咱们应用 Upscale 脚本来实现高清放大。

把它从图库浏览器加载至图生图,所有的生成参数会主动同步过去,为了获得和原图比拟类似的成果,管制重绘幅度在 0.4 左右。在参数设置区域的最下方,有一个用于加载脚本的选项,抉择放大脚本,缩放系数相当于放大倍数,放大算法决定了在将这个低分辨率的版本“打回重画”的时候 AI 如何操作。图块重叠的像素(Tile overlap)抉择 64,宽度和高度在原有根底上各加 64,设置实现后点击生成就能够了。

这个过程绘制办法很奇妙,它是通过把这张图平均的切成 4 块去画的,画完当前再拼回到一起。如果只是机械地拼成 4 块,那相邻图块之间的接缝处必定会呈现十分僵硬的过渡边缘,方才设置的 64 像素重叠就是来解决这个问题的,它是一个缓冲带,能够让 4 块区域“拼合”的过程变得更加丝滑。

四、部分重绘 - 对画作的自在批改

扩散算法给图像生成带来了有限的可能性,却也有许多不可预估的问题,例如人物四肢的凌乱、景观的错位等等。

咱们抽取到一张盲盒格调的公司总部大楼,然而还想在这个根底上再做改良:草地上多一些花,咱们能够借助关键词、并借助随机种子固定画面,但这样肯定会碰到两个问题:首先,即便随机种子完全一致,当提醒词发生变化时,这个新的随机过程也是绝对不可控的,就可能会呈现人换了姿态、画面大幅变动的状况;另一方面,如果图片曾经通过了高清修复或者 upscale 放大,这意味着要从新画一张十分大的图,消耗工夫就更长了。咱们对这张图 99% 都是称心的,重画一张值得吗?咱们试着把这 1% 独自拎进去解决一下,这时咱们能够用部分重绘这个性能。

部分重绘就像咱们写作业时应用的涂改液、修改带一样,它能够针对一张大图里的某一个区域笼罩重画,既能修改谬误,又不至于把整张纸撕掉重画一遍。

将一张图拎进去进行部分重绘的形式有很多,最简略的就是在图库浏览器里间接点击右下角的部分重绘按钮,它会跳转到图生图,因为部分重绘属于图生图的一个上司分支性能。也能够通过图片区域上方的标签切换到部分重绘(inPaint),在这里除了能够加载用 AI 画进去的图以外,还能够应用电脑上的其余素材图片。

有一个小小的变动:当你把鼠标挪动到图片区域上时,会呈现一个画笔,应用它能够在图片上涂出彩色区域,覆盖住想要 AI 重画的中央。右上角有两个按钮,撤销、调节画笔的笔触大小。

这外面有一个“蒙版”的概念,蒙版是图像处理畛域的专业名词,泛指一些用以限定解决区域的范畴对象,字面意义上了解就是一个蒙住了某些要害区域的版子,如果你学过 PS,对这个概念肯定不会生疏。在这里咱们画笔涂进去的彩色,也是一个这样的蒙版。蒙版蒙住的内容,能够想像是把这一小块拿给 AI 图生图的时候,它接管到的信息。

在重绘的过程中,整张图片都经验了一个从新加噪并去噪的过程,相当于把这一块拿进去独自“图生图”一下,最初再拼回到原图里。用这种形式,就能够自在的指挥 AI 针对画面外部的各个区域做独自的批改了,而想要进一步的把控批改的细节,就须要调整部分重绘参数,他们会具体决定这个重绘过程的一些实现形式。

[原图] 就是原图的内容,而如果你想给 AI 多一点施展空间,能够选填充,这样会把原图高度含糊当前再输出进去生成,前面两种波及潜变量、潜空间的生成形式原理比较复杂,简略的说就是把这个图生图的过程进一步复杂化了,退出了加噪、去噪的过程,实践上对图像的扭转会更显著,你能够试一下。

重绘区域的 [全图] 和 [仅蒙版] 是 AI 针对你的画面做解决时的一个逻辑,如果选全图,那么 AI 会基于你新的要求(提醒词、参数)把整张图从新画一遍,但最初只保留画进去的这一块区域拼回去;如果抉择的是仅蒙版,那画面画幅会放大到蒙版区域左近,把这个区域当作一张残缺的画面,然会再拼回去,这种形式波及的区域小,绘制速度很快,但因为它没法读取图像全貌,所以经常出现拼上去当前变得奇奇怪怪的问题。因而,少数时候我都会倡议你把“格局关上”。

这不是说 [仅蒙版] 的重绘就一点价值也没有,一些针对性强的批改反而会心愿放大图片画幅,但这个时候你须要升高重绘幅度防止变形,并且对提醒词做污染解决。

仅蒙版模式的 [边缘预留像素],和下面放大时提到过的“拼合缓冲带”作用相似,这里不再赘述了。

[蒙版含糊] 决定了你的这个重绘区域边缘和其余局部是如何接触的,这个和 PS 外面“羽化”的概念十分像,一个 10 以内的含糊数值能够让重绘区域拼接进去的过程更加丝滑。

祝贺你!曾经看完了 90% 的内容,能够的话给我个 一键三连 吧~

五、ControlNet-AI 绘画的工业革命

往年 2 月,一款名叫 ControlNet 的 AI 绘画插件横空出世,固定构图、定义姿态、描述轮廓,单凭线稿就能生成一张饱满粗劣的插画。ControlNet 翻译过去就是“管制网”,开发者是一位叫做 Lvmin Zhang 的华侨,早在 2017 年,他就发表过一篇论文钻研应用增强型残差 U -Net 与辅助分类器生成反抗网络来实现动漫素描的格调迁徙。他第一篇对于 ControlNet 的钻研论文发表在 23 年 2 月 10 号,几天后就将适配于 webUI 的 ControlNet 扩大开源在了 GitHub 上,一经公开就引发了重磅探讨。

上文说到,基于扩散模型的 ”AI 绘画 ” 是十分难以管制的,去扩散这张图片的过程充斥了随机性,如果只是用于自娱自乐,那这种随机性并不会带来很大的困扰,画进去的内容和料想中有一点偏差也能够承受,但一些真正面对具体“需要”的时候,如果不能做到准确的“管制”,只能依赖“抽卡”式的重复尝试来失去想要的货色,那 AI 的产出程度是不足稳定性的,也相对无奈称之为一个真正的生产力。ControlNet 以一种近乎降维打击的形式实现了很多前所未有的管制,我集体感觉,它的呈现间接把 SD 晋升到了能够大规模商用的高度,从而拉开了同 Midjourney 的差距。

在作用原理上,ControlNet 和 LoRA 有许多相似之处,定位都是对大扩散模型做微调的额定网络,它的核心作用是基于一些额定输出给它的信息来给扩散模型的生成提供明确的指引,这个过程和图生图有点像,实质上都是在通过一些形式给 AI 提供额定的信息,但 ControlNet 记录的信息比图生图里的图片更为纯正,排除了图片自身的元素——比方下面已有的色彩、线条的影响,那就不会对其余你想要通过提醒词、LoRA 等去输出的信息形成太多影响。

目前有很多做 ControlNet 的模型,这里联合一开始的案例介绍一下 Canny。

Canny 是一个最重要的模型,它来自于图像处理畛域里的一种边缘检测算法,致力于辨认并提取出图像外面的边缘特色。Canny 简直能够被利用在任何须要还原图像形状特色的场景里,比方画一只狗狗、一辆汽车,这些简单形象通过它们的形状失去了辨认,那 Canny 就会把这种形状特色应用线条勾画进去,在生成的时候管制图像还原。如果你的图像里蕴含了一些须要准确表白的内容,例如文字、标识,应用 Canny 能够无效确保它不变形。

输出一张图片,抉择 Canny 预处理器和模型,它只有一种解决伎俩,没有那么花里胡哨,点击“爆炸”,解决进去的线条图是这样一幅有点草膏滋味的黑底白线线条图。应用 Canny 过程中,如果有些线条无奈被辨认进去,那能够思考适当升高上面两个 Threshold(阈值)的数值,它能将更多明暗差别不是那么显著的线条辨认进来,从而让形体更加精确。但留神,线条也不能过于密集了,不然生成进去的图像可能会有很多无用的小细节,显得有点“脏”。

就像提醒词不怕越加越多、多个 LoRA 模型能够依照不同权重一起应用,ControlNet 也能够把几种不同的模型“混合”在一起,从而实现更加精准的管制。

在设置外面,找到 ControlNet 的设置选项,在外面有一个多重 ControlNet(MultiControlNet)的最大模型数量,默认值是 1,你能够将它调大 - 保留 - 重启 webUI,你的 ControlNet 就变得略微不一样了:原来只有一组 ControlNet 选项,但当初下面冒出来几个新的“Unit”, 你能够在外面配置齐全不同的预处理器和模型组,也能够应用齐全不一样的图片作为输出信息:一个经典的组合是 lineart + brightness,实现创意字体成果,更多简单的玩法,你能够自行尝试~也能够文末退出 交换群,咱们一起摸索炼丹之术❤️

看到这里你应该开始慌了,ControlNet 曾经有了 15 种不同的管制模型,而他们光是两两组合,就会有超过 100 种理论利用,但其实,并不是轻易 2 个凑一起就肯定行的,这外面组合的要害就在于你须要让他们存在肯定水平的“互补”,让一个网络帮另一个网络实现那些它做不到的事件。

ControlNet 的倒退很快,只凭记忆力去追赶它,如同骑着共享单车去追高铁一样可望不可即,但无论是看起来精打细算的 Onenpose、Depth,还是天马行空的 HED、Scribble,又或者实现创新性部分重绘的 inPaint 模型、在放大工作流中用于减少细节的 Tile 模型,以及前不久刚公布用于固定特色的 Reference Only……它们都是在某些方面帮忙咱们去对 AI 施加一些用语言、文字不是那么好传播的“管制”,而从严格到宽松,管制效应的强弱在变动,最终塑造图像的形式也会有差别。只有看清 ControlNet 的实质,预处理器和模型作用的基本关系,以及在这两头给 AI 施加“管制”的尺度,你就具备了自在去摸索任何一种 ControlNet 的能力。

六、取代你的不是 AI,而是比你更会用 AI 的人

在 AI 绘画诞生以来,围绕它的探讨和争议素来没有进行过,有人认为它会“取代”设计师,对行业造成冲击;有人不了解他的生成形式,认为它始终是一个“玩具”……随着 AI 的疾速进化,AI 绘画曾经从一种试验性的新技术,变成了一个领有有限后劲的新型生产力,并开始被行业广泛承受。网易、腾讯等大厂体验设计团队都曾经开始应用 AI 晋升工作效率,并一直摸索新的可能性。

我晓得此刻的你在放心什么,Stable Diffusion 的架构如此简单,让很多没有代码根底的小白望而生畏。为了让大家更低门槛的体验在云端“高兴作画”,我为你制作了零碎镜像,外面内置了 Stable Diffusion 及主动补全提醒词等一系列好用的插件,还下载好了几款目前社区里比拟火的模型,真正做到开箱即用。

购买形式非常简单,在京东云官网下单后买 GPU 标准型(12C48G P40),当初购买立项新人 19.9 元 / 7 天 的 1 折体验价。

应用办法:1、开明时抉择 [AI 绘画 Stable Diffusion 镜像];2、公网 IP 申请及绑定;3、依照镜像应用阐明 开启端口、启动服务,而后就能够在浏览器内拜访 [IP+7860 端口],即可进入 SD 的魔法世界。如果你还有疑难,能够评论区留言或者退出下方交换群。

看到这里,这篇帖子也进入了序幕,感激你的工夫,让这篇帖子变得有意义❤️。在 AI 绘画这个畛域,咱们能够摸索的常识和利用场景还有很多,在接下来的日子里,我也将持续与你分享。

作者:京东科技 叶楠

起源:京东云开发者社区

正文完
 0