关于人工智能:扩散模型的Prompt指南如何编写一个明确提示

46次阅读

共计 6853 个字符,预计需要花费 18 分钟才能阅读完成。

Prompt(提醒)是扩散模型生成图像的内容起源,构建好的提醒是每一个 Stable Diffusion 用户须要解决的第一步。本文总结所有对于提醒的内容,这样能够让你生成更精确,更好的图像

一个好的提醒

首先咱们看看什么是好的提醒,好的提醒必须是具体和具体的。最好的方法是查看关键字类别和列表,关键字类别包含(因为提醒都是英文的,所以这里咱们也间接写英文的)

  1. Subject
  2. Medium
  3. Style
  4. Artist
  5. Website
  6. Resolution
  7. Additional details
  8. Color
  9. Lighting

你不须要所有类别的关键字,然而你须要从外面找到最须要的。

本文将应用 v1.5 根本模型。在本文的最初还有最新的 2.0 的模型后果的展现。所有图像都是用 30 步 dpm++ 2M Karas 采样器生成的,图像大小为 512×704。

1、Subject

你想在图像中看到的货色。一个常见的谬误是写得不够多。比方你想生成一个女巫:

A sorceress

这种词尽管简略,然而这给设想留下了太多的空间。你想让女巫长什么样? 她穿什么? 她在施什么魔法? 她是站着,跑着,还是沉没在地面? 背景场景是什么?

一个最常见技巧是应用名人的名字。它们有很强的成果,是管制主题外观的绝佳办法。然而些名字不仅会扭转脸,还会扭转姿态和其余货色,所以前面咱们会来解决这个问题。

作为一个演示,让咱们让女巫看起来像 Emma Watson,咱们假如她很弱小,很神秘还会应用闪电魔法。咱们心愿她的服装十分粗疏,这样她看起来会很乏味,那么提醒词变为了:

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing

名字对这个模特产生了很大的影响。我认为她在稳固扩散的用户中很受欢迎,因为她看起来体面,年老,在各种场景中都很稳固。

2、Medium

Medium 是能够了解为资料或类别。例如插图、油画、3D 渲染和摄影。Medium 有很强的影响力,因为一个关键字就能扭转格调图像的格调。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting

这些图像从照片变成了 digital painting。

3、Style

Style 是指形象的艺术风格。例如印象派、超现实主义、波普艺术等。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body

格调确实是批改了,然而对于我的审美,不太喜爱这个格调

4、Artist

艺术家的名字是强修饰符。它们能够应用特定的艺术家作为参考来模拟格调。应用多个艺术家的名字来混合他也是能够的。当初让咱们再加上超级英雄漫画艺术家 Stanley Artgerm Lau 和 19 世纪的肖像画家 Alphonse Mucha。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha

能够看到两位艺术家的格调交融在一起,成果很好。

5、Website

像 Artstation 和 Deviant Art 这样的小众网站汇集了许多不同类型的图像。在提醒中应用它们能够疏导图像向这些格调聚拢。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation

这尽管不是一个微小的变动,但图像的确看起来像在 Artstation 上找到的。

6、Resolution

分辨率示意图像的清晰度和细节。让咱们增加关键字

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus

因为后面的图像曾经十分清晰和具体了。所以可能影响不是很大,但作为补充也没什么大问题。

7、Additional details

附加细节是用来润饰图像,能够为图像增加一些气氛。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian

手画的并不好,这是因为 1.5 的模型就这样,这是一个已知的问题。

8、Color

能够通过增加色彩关键字来管制图像的整体色彩。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold

就是这种黄金 AK 的成果😏

9、Lighting

任何摄影师都会通知你,灯光是发明胜利图像的关键因素。灯光关键字能够对图像的外观产生微小的影响。让咱们为提示符增加电影般的灯光和光明。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold, cinematic lighting, dark

基本上一个好的提醒蕴含的局部咱们就介绍完了,在主题中增加了一些关键字的图像曾经很好了。对于 Stable Diffusion 通常不须要有很多关键词就能够取得好的图像。然而 Midjourney 还是须要的。

否定提醒 Negative prompt

应用否定提醒是另一种很好的管制图像的办法,这里的提醒内容是不想要的货色。能够是名称,能够是款式,不须要的属性,等等

应用负提示符对于 v2 模型是必须的。如果没有它,图像将远远不如 v1。而对于咱们当初介绍的 v1.5,它们是可选的,但倡议应用它们,因为它们就算没用,也不会有害处。

上面是作为 Negative prompt 输出的词语

ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy

看看这张,就十分的霸气。

提醒的语法

如果你应用 Midjourney,那么能够跳过这节,然而如果你应用稳固扩散的话,那么肯定要看完。

本文以 Stable Diffusion web 为例

1、关键词权重

权重语法是(keyword: factor)。Factor 是一个值: 小于 1 示意不重要,大于 1 示意更重要。

例如,咱们能够在上面的提醒中调整关键字 dog 的权重,这样会生成多个狗

(dog:1.5), autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell.

2、() 和 []

调整关键字强度的等效办法是应用 () 和[]。(keyword)将关键字强度进步 1.1 倍,与 (keyword:1.1) 雷同。[keyword]将关键字强度升高为 0.9 倍, 与(keyword:0.9)。

也能够进行嵌套:

(keyword): 1.1
((keyword)): 1.21
(((keyword))): 1.33

都是乘法的关系:

[keyword]: 0.9
[[keyword]]: 0.81
[[[keyword]]]: 0.73

3、混合关键字

也能够混合应用两个关键字。

[keyword1 : keyword2: factor]

Factor 管制 keyword1 切换到 keyword2 的步骤。它是一个 0 到 1 之间的数字。

Oil painting portrait of [Joe Biden: Donald Trump: 0.5]

如果是 30 步采样,那么步骤 1 到 15 中的提醒为

Oil painting portrait of Joe Biden

16 到 30 步就变为了:

Oil painting portrait of Donald Trump

能够看到两头的步骤“懂王”穿了一套红色西装,更像是拜登装。这是一个十分重要的关键字混合规定的完满示例: 第一个关键字决定全局组合。晚期的扩散步骤决定了整体的组成。前面的步骤细化细节。

4、脸的混合

一个常见的用例是借用演员的形象创立一个具备特定外观的新面孔,比方,[Emma Watson: Amber heard: 0.85],看看 40 步的后果:

如果可能认真抉择两个名称并调整因子,咱们就能够准确地失去想要的外观。

以上就是一些根本的语法除此以外在 Stable Diffusion web 中还能够应用 <lora> 来指定应用的 lora,这个咱们在前面做演示

提示符能够有多长?

一半状况下的限度是 75 个令牌。这也跟据你应用的 Stable Diffusion 服务有所不同

这里的令牌与单词会有所不同。Stable Diffusion 应用 CLIP 模型主动将提醒转换为令牌标记,这是它所晓得的单词的数字示意。如果你输出一个它以前没见过的词,它会被分解成 2 个或更多的子词,直到它晓得它是什么,所以会被转换为更多的令牌。例如,dream 是一个,beach 是一个。然而如果没有空格 dreambeach,因为模型不意识这个词,所以模型把这个词分解成它晓得的 dream 和 beach 算作 2 个。

AUTOMATIC1111 的 Stable Diffusion web 没有限度。然而如果提示符蕴含超过 75 个标记(CLIP 标记器的限度),它将开始另一个 75 个标记的新块,新的“限度”变为 150。这个过程会始终继续上来,直到你的内存耗尽。

并且每 75 个标记的块都是独立解决的,产生的示意在输出 Stable Diffusion 的 U -Net 之前被连接起来。

能够通过查看提醒输入框右上角的小框来查看令牌的数量。

查看关键字

咱们应用的关键字并不意味着它是无效的。所以须要查看关键字的有效性。例如,v1.5 模型晓得美国画家 Henry Asencio 吗?

henry asencio

看来它晓得

那么 wlop 呢?

wlop

看来训练的时候没有这个关键词,所以咱们通过测试,这个模型就别用这个关键词了。

限度设想

要想用好 Stable Diffusion 你须要像 Stable Diffusion 一样思考。它只是一个图像采样器,生成的像素值,所以你要限度他的设想,通过提醒放大它的采样空间。

看看上面的区别:

castle

castle, blue sky background

wide angle view of castle, blue sky backgroun

在提醒中增加更多的形容关键字放大了城堡的样本范畴。在提示符中指定的越多,图像的变动就越少。

属性关联

有些属性是严密相干的。稳固扩散产生最有可能产生意想不到的关联效应的图像。

a young female with blue eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light

a young female with brown eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light

尽管没有注明种族。但因为蓝眼睛的人次要是欧洲人,所以产生了白人。棕色眼睛在不同种族中更常见,所以你会看到更多样化的种族样本,这个看着就是亚洲人。

微调

最初就最关怀的微调:应用自定义模型是最简略的办法来实现一个格调,因为大型的开源社区,数百个自定义模型是收费的。

应用 DreamShaper(一种针对人像插图进行了微调的模型):

这是一种十分帅气的格调。该模型具备生成清晰而丑陋的脸孔,DreamShaper 是 v1.5 的一个很好的微调办法,然而当初曾经是 2.0 了,咱们有了更新的办法。

Stable Diffusion 2.0

咱们以前介绍过 Stable Diffusion 1.5 的本地装置,然而当初曾经更新到 2.0 了,借助于 AUTOMATIC1111 的 Stable Diffusion web 咱们能够很好的自定义和加载模型

下面的提醒是:

<lora:koreanDollLikeness_v15:0.66>, ((Smile))),best quality, ultra high res, (photorealistic:1.4), 1girl,(green yoga pants:1), (Kpop idol), (aegyo sal:1), (Medium-sized chest), (Medium-sized breasts),(light brown short ponytail:1.2), ((puffy eyes)), looking at viewer, full body, streets, outdoors

如果你看了本文,肯定只有这些内容的含意,而后须要介绍的是 <lora:koreanDollLikeness_v15:0.66> 咱们这里应用了 koreanDollLikeness_v15 这个 lora(新的微调模型)

否定提醒是:

paintings,sketches,(worst quality:2),(lowquality:2),(normal quality:2),lowres, normalquality,((monochrome)),((grayscale)),skin spots,acnes, skin blemishes,age spot,glans

随机种子:738359080

大图:

看着不错把,比 1.5 强很多了,咱们在本人电脑上也能够间接应用,在今天的文章中咱们将介绍:如何装置 AUTOMATIC1111 的 Stable Diffusion web,下载模型,找 lora 等操作你能够生成跟我这个一样的图片。

https://avoid.overfit.cn/post/79149f5b661c46bdaf92ae59b220d35e

正文完
 0