关于自然语言处理:Midjourney文心一格prompt教程Text-Prompt下篇游戏实物人物风景动漫邮票海报等生成

40次阅读

共计 20073 个字符,预计需要花费 51 分钟才能阅读完成。

Midjourney| 文心一格 prompt 教程[Text Prompt(下篇)]:游戏、实物、人物、风光、动漫、邮票、海报等生成,终极模板教学

场景 6:游戏

Prompt 真的越长越好吗?

依照 Midjourney 的官网文档里的说法,并不一定:

Prompts can be very simple. Single words (or even an emoji!) will produce an image. Very short prompts will rely heavily on Midjourney’s default style, so a more descriptive prompt is better for a unique look. However, super-long prompts aren’t always better. Concentrate on the main concepts you want to create.

但你会发现,如同中文社区分享的 prompt 都十分长,但只有各位仔细观察,或者用翻译软件查一查,你会发现很神奇的事件:

  1. 有一些词拼写错误。起因是某书,不反对复制黏贴,导致很多人 OCR prompt,而后辨认谬误,大家都在搬运 prompt,导致谬误始终传递,这也算是新时代的水印了吧。
  2. 有一些词十分反复,比方 8k、UHD、Ultra Quality,他们都在说一个事件,就是高清,加多了也不会有叠加作用。
  3. 很多词你基本不晓得为啥须要,但如同每个人都加了。比方 8K 这些词,你有想过这个词是有必要的吗?是有用的吗?但实际上这些词官网并不举荐应用,这些词甚至对你的图会造成毁坏(详见 Midjourney 官网 FAQ 一章)。

如果你看完我的教程,你会发现我讲的例子里,很多图只有很少的 prompt 就能形容分明,生成的图片也不差。

当然我并不是说,不能写很长的 prompt,如果你生成的内容原本就很简单,那写长一点也没所谓,但写完问问本人,这有必要吗?

像素游戏

说到游戏,我最喜爱的格调是像素风,像素格调个别有:

  • 8-bit
  • 16-bit
  • 32-bit

各位都能够本人试试,介绍一个我写的 prompt,最近塞尔达公布了最新作《王国之泪》,很喜爱他们的天空岛的设定,所以用 Midjourney 生成了一个 16-bit pixel art 版本:

Prompt 解释
类型是什么? 16-bit pixel art 16 bit 格调
主体是什么? island in the clouds, ancient ruins 天空岛,岛上有陈迹
背景是什么? null 主题形容里其实曾经有背景了(clouds),所以我就没反复写
构图是怎么的? null 不太重要,就让 AI 自由发挥
用什么镜头? null 不太重要,就让 AI 自由发挥
是什么格调? Zelda style 因为是复刻塞尔达,所以加了塞尔达格调
参数 null 没有加任何参数

再生成一个宠物小精灵的场景:

Prompt 解释
类型是什么? 8-bit pixel art 换成了更复旧的 8 bit 格调
主体是什么? types of Pokémon 我想让 AI 生成宠物小精灵图谱一样的内容

这两个 prompt 都很短,但很有意思,可玩性挺强的,各位能够多玩玩:

3D 游戏——场景

因为篇幅的起因,我无奈将所有无关 3D 游戏的 prompt 都介绍完,我只能筛选一些我比拟喜爱的格调讲一下,而且我不是业余的 3D 设计师,所以未免会有讲错的中央,望见谅。

在 3D 场景设计里,我最喜爱的应该是像素风 3D 微缩场景,也不晓得是不是叫这个名字😂,写一个 prompt 给大家看看:

Prompt 解释
类型是什么? isometric clean pixel art 这个格调我是问了 ChatGPT 的,不确定是不是叫这个。
主体是什么? robotics lab 机器人实验室
背景是什么? null 不太重要,就让 AI 自由发挥
构图是怎么的? null 不太重要,就让 AI 自由发挥
用什么镜头? null 不太重要,就让 AI 自由发挥
是什么格调? null 我在类型里提了,所以不须要反复强调
参数 null 没有加任何参数

以下左图是火星工厂,右图是机器人实验室:

3D 游戏——人物

主体形容我就不多说了,更多是分享 3D prompt 的必要的因素:

<div style={{width:180}}></div> Prompt 解释
类型是什么? blender 3d 我测试了下,只写 3d 也行,但不晓得为啥没那味,加了 blender(一个 3D 建模软件)就会好很多。
主体是什么? Dark Vader, full body, cute 达斯维达的全身像,而后我心愿它生成一个 Q 版的
背景是什么? null 不太重要,就让 AI 自由发挥
构图是怎么的? isometric 等轴侧投影,这是一种用二维立体出现三维物体的办法,成果能够看前面生成的图片,各位就晓得是啥了。
用什么镜头? null 不太重要,就让 AI 自由发挥
是什么格调? Pixar, style of artstation 我这里加了皮克斯格调,以及跟之前讲插画的那章加了 behance 相似,加了 artstation 后成果有变好(artstation 跟 behance 相似,也是设计师分享作品的一个网站,但次要分享 3d 或游戏相干的内容)
参数 null 没有加任何参数

我用以上 prompt 生成了达斯维达和风暴兵的,我感觉风暴兵还挺可恶的:

3D 游戏——配备

游戏配备十分十分多,我没法一一给大家介绍,只介绍一些我理解的,首先是戒指,多大数的游戏戒指都是那种印章戒指(signet ring),

Prompt 解释
类型是什么? blender 3d 这个可加可不加
主体是什么? star war, signet ring 星球大战的印章戒指
背景是什么? null 不太重要,就让 AI 自由发挥
构图是怎么的? isometric 等轴侧投影(这个可加可不加)
用什么镜头? null 不太重要,就让 AI 自由发挥
是什么格调? null 不太重要,就让 AI 自由发挥
参数 null 没有加任何参数

另外一个可能常见的是配备集(我不确定这个中文是否正确,英文叫 Item Collections),写法是这样的:

Prompt 解释
类型是什么? blender 3d, game sheet game sheet 简略说是那种游戏设定图,个别就是列举各种配备
主体是什么? lightsabers, paladin armor, 心愿生成一些列的星球大战的光剑和圣骑士盔甲
背景是什么? null 不太重要,就让 AI 自由发挥
构图是怎么的? null 类型蕴含了,所以不必填
用什么镜头? null 不太重要,就让 AI 自由发挥
是什么格调? style of Hearthstone 我很喜爱炉石传说的格调,也很好奇,中古格调,遇上将来题材,会生成怎么的设计
参数 null 没有加任何参数

最初生成的后果如下,但我对配备集的生成不是很称心,前面我会介绍一个技巧,教大家如何渐进优化生成的图片:

技巧十:控制变量法渐进优化

很多人把 AI 生成图片比喻为炼丹,我感觉十分贴切,很多时候,也不晓得为啥,在 prompt 里加一点神秘配方,图片就会很不一样。

不过我感觉尽管过程很像炼丹,但并不代表咱们须要像今人那样,用撞大运的形式炼制丹药。我认为目前应用 Midjourney 最好的办法是:控制变量渐进优化法。

拿下面那个配备集的图片为例,我心愿它生成的是配备,并且是一件件地排布,而且光剑的成果也很奇怪,首先咱们来逐条排查 prompt:

<div style={{width:180}}></div> Prompt 查看
类型是什么? blender 3d, game sheet 这个如同有点问题,我心愿的炉石传说的格调,如同不是这种粗劣的 3D 成果,生成的格调更像是星际争霸的,而炉石传说是那种黏土格调(clay render)。
主体是什么? lightsabers, paladin armor, 这里可能也有问题,会不会是没有写 different types of lightsabers 导致只生成一种光剑。
背景是什么? null 这个应该没啥问题
构图是怎么的? null 这个应该没啥问题
用什么镜头? null 这个应该没啥问题
是什么格调? style of Hearthstone 感觉生成的图没有那种中世纪盔甲的油腻感,但如果后面改了黏土格调,会不会好一些?这里可能也须要优化下。
参数 null 这个应该没啥问题

从这个表里能够看到,咱们发现了三个问题,其中第一个黏土格调问题,跟最初一个问题无关,此时我的倡议是:

  1. 每次仅批改一个,其余变量不变。
  2. 批改完一条,成果合乎预期后,再批改下一个。
  3. 我的教训优先批改主体内容,因为主体有的时候会影响其余的变量。
  4. 如果想确定这个批改是否具备一致性,或者说是否符合要求,而不是凑巧合乎,能够用雷同的 prompt 再生成一次。不过因为没生成一次都要花钱,所以这个是可选项。

OK,依照以上准则,咱们批改一下咱们的 prompt,看看生成了什么,确实加了 different types of 后,光剑就多了,问题解决了:

而后咱们批改下 blender 3d,将其改为 clay render(黏土渲染),我改完之后发现生成的后果(右边四张),如同质感还是差了一点,于是我又试了下保留 3d blender 加 oily 的成果(两头四张),以及 clay render 加 oily 两个一起用(左边四张)。

我集体感觉如同两个都改了成果是最好的(左边四张)。

比照一下最开始的 prompt 生成的图片,是不是最终的图片成果更好?所以这个技巧次要想通知大家,写 prompt 没有必要照抄答案,你也有能力本人写好 prompt。

游戏设定稿

游戏这一章,再介绍一个可能会用到的一个场景人物设定稿,prompt 如下:

Prompt 解释
类型是什么? concept design sheet 设定稿
主体是什么? female paladin, character design, 生成一个女性圣骑士的角色设定
背景是什么? white background 设定稿个别都是白底的
构图是怎么的? null 类型蕴含了,所以不必填
用什么镜头? null 不太重要,就让 AI 自由发挥
是什么格调? null 因为我对游戏相干的格调和设计师都不相熟,所以就让 AI 自由发挥了
参数 null 没有加任何参数

最初的后果如下:

场景 7:实物

让 ChatGPT 生成提醒词是不是更好?

我有用 ChatGPT 辅助我生成提醒词,但没有用 Role 模式,而是让它:

  1. 翻译:我晓得我想要的货色,但不晓得其英文形容。
  2. 解答:我须要一些格调词,但我不晓得输出啥时,就会问 ChatGPT,比方「文艺复兴期间的驰名艺术家有哪些?」

我为何没有用 Role 模式?

确实,让 ChatGPT 以 Role 模式帮我生成内容,比拟省时省力,但我集体感觉:

  1. 应用比拟麻烦,须要输出很多提醒,即便通过 App 保留,在屡次输出后,就会超过 token 限度,又要从新输出。
  2. 从 ChatGPT 的原理上看,它只会生成一个「一般」的内容,很难取得超过预期的内容。只是说大多数人甚至连「一般」都达不到,所以才会震惊于它的成果。所以如果你想要生成原创惊艳的图,靠概率是不行的,要靠你的想象力。

不过,这也是我一家之言,如果你感觉这样效率更高,那就用吧~

没啥关系,适宜本人的工具才是好工具。

玩具

OK 言归正传,从本章开始,咱们会逐渐丰盛咱们的 prompt 框架,让图片有更多的细节。实物生成的第一个是场景是玩具,是个十分有意思的场景。

另外,这个场景如果能跟 3D 打印机联合一下,我感觉会十分赞。不晓得有没有有志之士能实现一下。

再解释下 prompt 有哪些更新,从实物这张开始,我讲「背景」调整为「环境」,即主体环境,包含背景、灯光等等:

Prompt 解释
类型是什么? product photography 产品照片
主体是什么? Stormtrooper, plastic, toy 持续用风暴兵和达斯维达为例。因为手办个别都是塑料玩具,所以加了两个词
环境是怎么的? white background, studio lighting 背景:为了突出手办,强调一下红色背景 灯光:减少一些灯光,突出产品
构图是怎么的? null 不太重要,就让 AI 自由发挥
用什么镜头? null 不太重要,就让 AI 自由发挥
是什么格调? hand painted, 我查了下,如同手办的格调应该只有手绘?

另外一个是游戏王里的蓝眼白龙,惋惜 Midjourney 并不知道啥是 Yu-Gi-Oh,只能按字面意思生成了一个:

Prompt 解释
主体是什么? Blue-Eyes White Dragon, plastic, toy 持续用风暴兵和达斯维达为例。因为手办个别都是塑料玩具,所以加了两个词

以下是生成的图片:

另外,我发现 Midjourney 对美式动漫或电影作品反对会好很多,比方冰与火之歌里的龙妈(只是龙有点诡异),还有圣女贞德:

技巧十一:减少格调——国家

说到手办,大家应该第一反馈会想起日本,再介绍一个技巧,在 prompt 里退出 Japanese style 即可,拿圣女贞德作手办,以及之前做的 logo 作为例子:

圣女贞德是不是有种 FF 的感觉?Logo 也比拟简洁,猫的外观也有点像动漫里猫的外观,当然除了 Japanese 还有 Chinese(右边 4 张),甚至 African Style:

技巧十二:减少权重

各位有没有发现,下面那个 Chinese 手办生成的后果如同只有第三张是中国人脸孔?起因是 Chinese style 的权重太低,所以仅输入了一个后果。你在实际的过程中,也必定会遇到,AI 疏忽了某些 prompt 词的状况,比方你提到画面中要有一只鸟,但它就是没画进去。

那为何会产生这样的后果?起因 Midjourney 的 prompt 权重是依照程序一一升高(详情请见我翻译的 Midjourney 官网 FAQ),在咱们下面的 prompt,咱们将 Chinese Style 放到了最初,所以生成的后果也是起码的。疏忽了某些词,这个起因临时为止,但应该很可能是权重导致的问题。

减少权重的办法有很多,最简略的办法就是调整程序,比方将下面的 Chinese Style 放到最后面(而后生成的后果就是眯眯眼 style 了 🤣,我生成了两次,第二次好一些):

product photography, Chinese Style,Joan of Arc, full body, hand painted, plastic, detailed, white background, studio lighting

调整下程序,成果就大不一样,所以各位不要科学所谓的 prompt 模板,多试试。

第二种办法是 Slider 办法。

你须要在 prompt 最初加,而后加上你须要调整权重的词语,接着再加,最初加上权重值。比方还是下面的例子,我想突出 Chinese style 但不想调整程序,就能够改为:

product photography,Joan of Arc, full body, hand painted, plastic, detailed, white background, studio lighting, Chinese Style :: Chinese Style :: 0.5

而后你会发现,如同权重太高了,生成了跟 prompt 无关的图(下方左图),那咱们能够在原来的根底上,再加以下 Joan of Arc 的权重(下方右图):

product photography,Joan of Arc, full body, hand painted, plastic, detailed, white background, studio lighting, Chinese Style :: Joan of Arc:: 0.25 style of Chinese:: 0.5

你能够看到,调整参数后,生成的 4 张图有 2 张具备较强的 Chinese 格调:

不过坦白说来,这个办法,并不特地适宜这个案例,调整主体内容,或者程序,ROI 会更高一些,这个办法更适宜 miss 掉某个 prompt 词时应用,比方官网的案例是这样的:

several sad cats watch a crying woman in a home-office environment with laptop

生成的图片里(左四张图),猫咪们都看着你(你可能才是 crying woman 😂),如果用 slider 的性能(左边四张),crying woman 就呈现在画面里了:

several sad cats watch a crying woman in a home-office environment with laptop:: several sad cats::0.5 crying woman::0.6 laptop::0.7

另外须要留神,slider 可用的参数有 0.25、0.5、0.6、0.7,也能够用这个办法升高权重,区间是 -0.7、-0.6、-0.5、-0.25:

如果你用了 slider 还是没有呈现应该有的画面,那还有一个大招 cowbell,坦白说来,这个并不合乎 Midjourney 的官网最佳实际,但确实是个可行的办法,以上面这个 prompt 为例,生成的图片里,woman 看起来并不 shy(右边四张图):

A songbird sits on the shoulder of a shy blonde woman dressed in white.

此时你能够反复反复再反复(我感觉这就是为何这个办法叫 cowbell 的起因):

A songbird sits on the shoulder shoulder shoulder shoulder shoulder shoulder of a shy shy shy shy shy shy shy blonde woman dressed in white.

食物

另一个我比拟喜爱的实物是食物,食物考究的是「色香味俱全」,所以在形容食物类的 prompt 时,能够往这三个方向想想:

  • 色:食物是什么色彩的(能够通过食物的熟度来管制)。
  • 香:照片没有香味,但咱们能够把香气画进去。
  • 味:照片也同样没有滋味,那咱们加一点细节装璜?比方撒上胡椒、盐、辣椒?
Prompt 解释
类型是什么? food photography 食物照片
主体是什么? steak, medium rare, steaming, light garnishes, sitting on plate 牛排,五分熟,带蒸汽,仅有一点配菜,放在一个碟子上
环境是怎么的? epic lighting 为了突出食物,我加了个聚光灯
构图是怎么的? null 不太重要,就让 AI 自由发挥
用什么镜头? depth of field 为了突出食物,我加了背景虚化,这是背景虚化的另一种表白(有景深)
是什么格调? null 不太重要,就让 AI 自由发挥
参数 null 没有加任何参数

而后再来一碗红烧牛肉面:

技巧十三:善用灯光

坦诚地跟大家说,我不是设计师,也不是摄影师(而且我十分不善于摄影),所以我仅能跟大家分享一下根底内容,因为这个对我来说,太多过程性知识了,不实际操作过,基本不晓得有什么。

言归正传,摄影中,罕用摄影灯光有以下几种:

  1. 主灯 (Key Light):主灯是最根本的摄影灯光之一,通常搁置在被拍摄物体的正前方或正侧方,用于照明主体,决定拍摄物体的次要明暗度。主灯通常是亮度最高的灯光。
  2. 填光灯 (Fill Light):填光灯用于补救主灯照耀的暗影局部,调整暗影的深浅水平,使照片亮堂一些。通常填充光应该比主光暗一些,以避免出现适度曝光。
  3. 逆光灯 (Back Light):逆光灯用于照耀被拍摄物体的反面,可能区别出主体和背景,并使物体轮廓变得清晰,罕用于拍摄骨感、重物感和逆光成果的照片等。
  4. 环境光 (Ambient Light):环境光就是摄影环境天然产生的光线,包含室内照明、自然光、街灯等,它能够补充被拍摄物体的外表,晋升照片的天然度和真实感。
  5. 故事性灯光 (Special Light):通常是为了制作出某种情境或者表白某种意义而应用的,例如烛光、亮光等。它们可能产生和煦、浪漫、神秘等场景和氛围,以摸索和表白艺术的想象力和创造力。

基于这些灯进行排列组合,你会失去不同应用场景的灯光。灯光的细节品种,能够去我演绎的 Lighting List 里查看,我这里次要分享一些罕用和易用的场景灯光:

<div style={{width:180}}>照片</div> 名称 介绍 适宜场景
Mood Lighting 气氛灯。次要是通过在特定的环境中扭转灯光的色彩和亮度等参数来发明一种特定的气氛,以营造舒服、浪漫、放松等感觉。从技术实现上看,Mood lighting 则着重于灯光的色彩和亮度管制,重视发明强烈的视觉效果。 Mood lighting 通常用于室内设计、酒店、餐厅及居家装璜等畛域,旨在发明出一种特定的氛围和体验。

| | Moody Lighting | 情绪灯。它更强调在情感表白和为故事情节服务方面的利用,设计的目标是要把灯光与剧情完满联合起来,以展示角色的共性和情感世界。从技术实现上看,Moody lighting 通常采纳低亮度和大比例遮挡暗影,强调暗部的扫描,以减少画面的纹理和层次感。| Moody lighting 通常用于影视制作、游戏界面、舞台表演等畛域,设计的目标是为了减少故事情节的戏剧成果。|

| | Studio Lighting | 工作室灯光。是一种专门用于摄影工作室、电视和电影等畛域的照明设计。它将光源和灯具搁置在一个专用的摄影工作室中,通过精密的照明来发明出各种不同的气氛和场景成果,以满足各种不同的拍摄需要。| Studio lighting 次要利用于商业摄影、时装摄影、艺术摄影、人像摄影、广告拍摄、电影和电视制作等畛域,目标是通过精密的照明设计来突出主体的特点,达到最佳的拍摄成果。|

| | Cove Lighting | 壁角灯。是一种罕用的室内照明设计,其灯具通常装置在墙壁或吊顶壁橱之间的壁角(即“壁橱”)中,从而营造出舒服、柔和、润滑的环境照明成果。| 这种照明技术能够为房间提供平均的光线,同时进步房间的美感和时尚度。|

| | Soft Lighting | 柔和照明。是指通过应用柔和、漫射的光线来发明出柔和、和煦的气氛成果。柔和的光线通常是通过应用的漫射灯具来实现的,较为常见的是壁灯、台灯、浏览灯等。| 柔和照明成果能够升高照度,加重视觉疲劳,发明出舒服的气氛和感觉。|

| | Hard Lighting | 硬朗照明。是指通过应用聚光灯、筒灯等灯具来聚焦到一个特定的区域中,其光线是绝对集中而间接的。| 发明出刚硬、亮堂的照明成果。硬朗照明经常用于展现场合,如美术馆、商场等环境,以突出展品或商品的特点和质感。|

| | Volumetric Lighting | 体积光。是一种发明真切渲染成果的照明成果技术。它通过在某些场景中增加灯光和各种视觉效果,如扩散、雾、粒子、暗影等,在照明场景中模仿空气中的粒子和尘埃微粒的景象,从而发明出动静、真切、加强立体感和体积感的照明成果。| 实用于多种场景设计中,如电影、电视、视频游戏、动画等畛域。它能够让场景更加真切、平面,减少场景的紧张度和视觉层次感,并带来更具备表现力的视觉效果。|

| | Low-Key Lighting | 低键照明。指的是一种非凡的照明成果,该成果通常通过强烈的侧光或背光和暗影来发明高对比度的画面成果。低键照明的特点是明暗明显、暗影浓厚、暗调占主导地位,经常构建一种缓和、神秘或光明的气氛。| 低键照明广泛应用于电影、电视、摄影等畛域中,经常用来体现悬疑、恐怖、立功等因素。|

| | High-Key Lighting | 高键照明。这种照明成果通过应用亮堂、平均的光线来防止明暗比照并压低暗影的呈现。这种照明成果特点是亮度高、细节丰盛,实用于须要传递愉悦、轻松和开心气氛的场景和环境。| 高键照明通常用于广告、情感电影、电视剧等中。|

| | Epic Light | 史诗光线。是一种创立极富戏剧性、森严感和视觉效果的照明技术,它能够在场景中增加十分亮烈、隆重、壮观的光线,以吸引观众注意力并减少场景的震撼力。| Epic Light 通常用于影视制作、游戏开发、上演等畛域中,以营造出一种高尚、壮丽、雄伟的气氛,能够使观众在看到这些成果时,感到十分震撼和难以忘怀。史诗光线的特点是亮度较高、色彩娇艳,通常用于体现重要的剧情点,如武器的激光、宇宙和平中的太阳和星星、空想电影和电子游戏中的神秘光辉等。|

| | Rembrandt Lighting | 伦勃朗特效是一种起源于荷兰画家伦勃朗的照明成果,其次要特点是在人物脸部造成一个菱形的明暗分界线,嘴巴和下巴的一侧用暗影笼罩,人物的另一侧则被亮光照亮。| 能营造出一种柔和而神秘的成果。|

| | Contre-Jour | 逆光照明。指的是摄影师将光源搁置在被摄物体的背地,令照耀成果在镜头后面产生,造成被摄体轮廓显著的负片状态。| 于光源地位造成的暗摄影整体的虚化,高对比度和显明的轮廓线能够带来文艺和形象的气氛。|

| | Veiling Flare | 透镜毛玻璃。指当光线从透镜或镜头穿过时,透过玻璃或镜头的反光或散射使得图像呈现散射光线或最终成像看起来失真的景象。| |

| | Crepuscular Rays | 拂晓、傍晚光线。也称为太阳光柱,是由日光在云层或尘埃中被反射造成的光线束。因为只有在日出和日落时才有足够的光线穿过云层或照射到失当的夹角,所以 Crepuscular Rays 通常只呈现在日出和日落时刻。| Crepuscular Rays 通常会在云层上造成显著的束状光线,给人以漂亮的感觉。|

| | Rays of Shimmering Light | 闪动光线。是指在光线散射和折射时呈现的光线折射景象。在某些特定的环境下,光线通过不同密度和温度不同的氛围,会呈现一种光线折射、散射的成果,从而造成闪动光束成果。| |

| | Godrays | 神光。是一种由光线穿过云朵、树枝或其余障碍物时,造成的亮光条纹成果。Godrays 通常在光线较强的时候呈现,将光线宰割成条纹状,造成一种梦幻般的成果,也被称为 “crepuscular rays” 的一种。| |

场景 8:人物

名人照片

这算是 V5 的新个性,Midjourney 在 V5 版本意识很多名人,你能够在形容主体的时候,加上名人的名字,就能够生成该名人的照片,咱们生成几个电影里的经典照片:

第一个是 Keanu Reeves,第二个是 Vito Corleone(我并没有输出主演人 Marlon Brando),两组图的 prompt 都非常简单,你能够尝试本人写一下😁

本章最初有答案。

衣服模特

做衣服类电商的敌人可能会比拟须要这个性能:

  1. 用 AI 生成一个虚拟人
  2. 而后将货物照片(比方某件衣服)传给 AI
  3. AI 将虚拟人和货物的照片交融在一起

坦白说来,我感觉 Midjourney 应该是能够的,但目前的成果还不太好,要想实现这个需要,只须要用到后面介绍的技巧九里提到的 blend 性能,具体办法就不在这赘述了,大抵就是我将商品图和人物图用 blend 性能交融了下:

为了验证一致性,我生成了几张 Reeves 的图别离尝试了下,最初输入的后果是这样的:

整体来看,如同还行,但真的用在商品形容图里,我感觉还不太可能,因为外面的衣服跟原图差距还比拟大(能够细看外面的纽扣)。

但我感觉将来 Midjourney 可能会优化好这个性能,并且我感觉如果能够本人训练模型,这个性能实现起来应该不难。

老照片

这个算是名人照片的分支玩法,最近大家应该看到过很多相似的照片,其实 prompt 很简略,主体和背景大家用翻译软件搞搞就行:

Prompt 解释
类型是什么? photography 照片
主体是什么? a group of Chinese people gathered around Darth Vader 一群中国人在围观达斯维达
环境是怎么的? on the street 大巷上
构图是怎么的? null 不太重要,就让 AI 自由发挥
用什么镜头? fuji film 为了使得照片更有那味,减少了一个富士电影镜头
是什么格调? style of 1990s 减少了一个 90s 格调

用相似的 prompt 生成了两组图片:

技巧十四:减少格调——年份

下面的老照片场景,咱们用了 1990s 格调,严格地说,这个 1990s 更适宜放在主体,或者环境里,放在格调里也不是不行,因为不仅仅心愿主体是 1990s 还心愿图片生成的格调也是 1990s。

这就是最初一种格调词用法:年代。

拿插画那一章的两个 prompt 批改一下,我都没在 prompt 里加艺术家的名字,而是改为 style of 1920s,玫瑰的图有点那味,猫的图右上角那张太逗了。

名人照片答案

Reeves 很简略,就是阐明主体,而后注明衣着标志性的衣服,走在大雨里:

Keanu Reeves, wearing a black long leather coat, walking down the street in the rain

而后教父的那张就更简略了:

Vito Corleone sitting on a chair

技巧十五:如何让 Midjourney 生成的人更具备多样性?

这里的多样性其实是指人的高矮胖瘦,甚至身材的一些特殊性等。

不晓得各位有没有发现,大多数用 AI 生成的图片,人物都十分丑陋和英俊,但这并不好,这其实某种程度上代表了社会的偏见。

所以我想在本章重点介绍下,如何让 Midjourney 生成更多样的人体。

办法一:Slider 办法

在上一章,我介绍了减少权重的办法,这个办法还能够帮忙你生成不同体型的人物,以下是 Midjourney 官网社区的案例:

Plus-sized ginger female dressed in bohemian vest, maxi skirt, espadrilles, walking across autumn campus courtyard, morning atmosphere:: plus-sized::-0.3 --ar 2:3

你能够管制 plus-sized 前面的参数,从而使画面中的人物变胖或者变瘦。这里须要留神,并不是正数就是越瘦的意思,而是减弱了 plus-sized 权重,如果你的 prompt 词是 thin 你加个正数 slider 参数那就是变胖了:

办法二:间接形容

Midjourney 是晓得一些多样性的词语的,比方:

  • blind:失明
  • deaf:聋
  • cerebral palsy:小儿麻痹
  • accessibility:行动不便

场景 9:风光

实物和人物介绍完,介绍一下风光。坦白说来,我并不善于摄影,所以这三章写得可能会不太业余。我更多地是介绍办法,以及告知大家可能性。

如果有不对的中央,请见谅。

微缩景观

风光大片,我感觉大家应该都在各大平台看过了,所以本章不会介绍太多常见的风光制作方法。而是介绍一些少见的,我这里介绍一个比拟乏味的类型:

Prompt 解释
类型是什么? Miniature faking 迷你化仿成果(Miniature faking),也称为玩具世界成果,是一种通过特定的拍摄和解决技术来发明出一种放大的场景感觉的办法。这种技术能够让理论大小的对象看起来像是一些小的塑料或金属模型。
主体是什么? Train Lines 火车线路
环境是怎么的? null 不太重要,就让 AI 自由发挥
构图是怎么的? null 不太重要,就让 AI 自由发挥
用什么镜头? null 不太重要,就让 AI 自由发挥
是什么格调? style of Japanese 我想要那种日本火车 style,所以加了这个参数

另外还制作了一个火星工厂:

Prompt 解释
主体是什么? Mars Factory 火星工厂

另外,我还很喜爱用这个成果制作一些多肉动物的照片,主体只有填写:cute mini Haworthia cymbiformis plant in a pot,或者 cute mini Aloe plant in a pot:

修建

严格说来,这个不算风光,但因为我切实不晓得该放哪里,所以还是放到风光这了。

因为我不是修建相干的从业者,所以我这里只介绍一种用法:对于人造物件,能够在主体里退出由 某某某 制作。以修建为例,也不须要在 prompt 里加类型:

Prompt 解释
类型是什么? null 不太重要,就让 AI 自由发挥
主体是什么? Structure by Dame Zaha Mohammad Hadid 我的母校香港理工大学设计学院大楼的设计师 Dame Zaha Mohammad Hadid

左边是 Frank Gehry:

如果你对修建感兴趣,无妨试试两种格调的修建交融在一起试试,说不定会碰撞出有意思的设计。

技巧十六:扭转相机与镜头

前几章节分享了灯光,本章分享下,相机和镜头。

可能有些敌人用过一些手机 App,它并不像 PS 工具那样,容许你批改图片的白平衡等参数,而是让你体验用旧相机(如胶卷相机)拍照,尽管实质上来说,它也是通过各种参数来模仿当年的相机成果,但确实挺有意思的。

在 Midjourney 里,你也能够通过减少相机或者镜头的名称,从而达到相似的成果。依据我的试验,Midjourney 能够扭转以下几类:

  1. 相机:反对不同品种的相机,比方静止相机 GoPro
  2. 胶卷:比方 8 mm 电影胶卷
  3. 镜头:比方 15 mm 镜头
  4. 相机设置:比方长曝光、双重曝光
  5. 景深 & 焦点:比方深景、浅景,还有隐没点

我很喜爱双重曝光的成果,以及长曝光:

不过各位应用时,须要依据本人的场景抉择适合的相机和镜头,比方无人机视角,都不太适宜拍近物:

<div style={{width:180}}>照片</div> 名称 介绍 适宜场景
GoPro 静止相机视角 自拍,或者静止场景
Drone 无人机视角 适宜航拍,或者天空风景
polaroid 宝丽来 应该不须要解释了吧
black and white film 黑白照 应该不须要解释了吧
Kodachrome 柯达生产的黑白幻灯片底片品牌 具备十分高的色彩娇艳度、对比度和持久性。
shot on 8mm 电影 8 毫米胶卷是一种便携式、简略易用的胶片,分辨率比拟低 实用于拍摄家庭和游览等一般场景
shot on 16mm 电影 16 毫米胶卷 16 毫米和 35 毫米次要用于制作电影、纪录片和商业广告。
shot on 35mm 电影 35 毫米胶卷 16 毫米和 35 毫米次要用于制作电影、纪录片和商业广告。
Microscopic 显微镜 适宜一些须要放大察看的实物
Fisheye Lens 鱼眼镜头 鱼眼镜头能够将整个场景拍摄在一个范畴内,这种镜头的视角通常在 100° 至 180° 之间,能够呈现出十分夸大的透视成果。
Wide Angle 广角镜头 适宜风光照,能够让画面包容更多内容
Ultra-Wide Angle 超广镜头 适宜风光照,能够让画面包容更多内容
Panorama 全景 适宜风光照,能够让画面包容更多内容
Short Exposure 短曝光 通常用于追拍运动员、表演者或动物等,或者是拍摄须要疾速决定霎时捕获的场景,例如拍摄火车、汽车、疾速挪动的车辆等。因为短曝光工夫的限度,这种形式能够解冻静止物体并防止出现含糊的状况。
Long Exposure 长曝光 在长曝光的拍摄中,疾速挪动的物体会呈现轨迹,例如流星、车灯、瀑布等,这种形式会给照片发明出愉悦而神秘的气氛。此外,长曝光能够用于拍摄夜晚的大片现象,例如风景、城市夜景、星空等。
Double Exposure 双重曝光 双重曝光的技术,能够发明出疏密有致和扭曲的、手绘和黑白艺术风格的照片。这种技术在拍摄人像、风光和修建等畛域非常受欢迎,因为它能够发明出独特的环境、浪漫和奇怪感觉的图像。
f2.8 2.8 光圈 在拍摄时,光圈值越大,相应的光线进入相机的量就越大,使得相机所取得的图像更亮。f:2.8 的值是一个比拟大的光圈值,因而镜头具备很高的传光能力,适宜在低光环境中应用。同时,在大光圈下能够发明出较小的景深成果,突出焦点主题而含糊背景或前景,从而产生轻柔的背景成果,适宜拍摄人物肖像或商品照片等相似主题。
Depth of Field 景深 是指在摄影中,被拍摄的画面中被认为是清晰的范畴,也称为焦距深度区域,通常用来形容在照片中被认为是清晰的范畴。
Soft Focus 柔焦 指将相机镜头前退出一层非凡的滤镜,使被拍摄的主体轻微含糊以出现柔和的美感成果。柔焦的视觉效果相较于深景和浅景来说更强调画面的情感主题,把重点集中在逐步化解构造感的质感成果上,使它在照片上产生一种有点朦胧的妆容,刻画出一幅浪漫的画面。
Deep Focus 深焦 将摄像头在一个较大的光圈下设置,放弃整个画面都清晰锐利的技术。深景通常须要应用较小的焦距或较远的拍摄间隔,以放弃整个画面的清晰度,是相似于大景深的一种刻画成果。
Shallow Focus 浅焦 将相机的光圈调整到一个绝对较大的闭口,以使摄影师能够依据须要放弃相机在立体上的一个特定区域或主体清晰,而照片中的其余区域则变得模糊不清的技术。这种成果罕用于摄影肖像,使人物在画面上的清晰度突出,并且画面背景走漏轻微的含糊感,带来更具艺术美感的成果。
Vanishing Point 隐没点 隐没点指的是位于无穷远处,用于视觉解决的一点。在透视绘画中,咱们能够设想一个位于无穷远处的点,使得所有线条都向它聚拢。隐没点能够帮忙画家或摄影师达到粗劣的透视解决成果,从而发明出独特的空间感;
Vantage Point 鸟瞰视角 个别出现的成果是照片中会有一个点是最高点,而后在此最高点斜上方拍摄

场景 10:动漫

刚好,在写这一章的时候,Midjourney 公布了其 Niji 的 V5 版本,所以我以下 prompt 我都会在 —niji 5 的参数下运行。

多种 Anime Style

在 niji 5 模型下,默认生成的内容都会自带 Anime 格调,你能够在 prompt 语句的格调局部中增加国家、年代和创作者,还有一种办法是加动漫格调,依据 Midlibrary 的统计,Midjourney 反对的 Anime Style 超过 120 多种。

我这里就不列举了,具体的列表能够看我整顿的 List 或者间接去 Midlibrary,它们总结的是真的好。

我这里只分享几个我感觉不错,且模型反对得也不错的格调(prompt 主体都是 Statue Of Liberty

<div style={{width:180}}>照片</div> 名称 介绍
Chibi Anime Style Chibi Anime Style 是指卡通迷你格调。是一种独特的绘画格调,特地受到日本动漫迷和卡通迷的青睐。该格调的特点是将角色绘制成放大版的款式,更加可恶和卡通化。在这种格调下,一些角色的头比失常比例大得多,人物的描述也更加简化,并且动画在绘制时常罕用短暂工夫的疾速动作来传递动态效果。
Gakuen Anime Style Gakuen Anime Style 是指在日本动漫中常见的一种格调,次要出现校园生活与高中生存的情境。这种格调的作品通常波及到学生会、文化节、恋爱、情谊、竞争等校园主题,角色也往往是年龄在 16-18 岁之间的学生。
Gekiga Anime Style Gekiga Anime Style 是一种比拟惨重、庄重的日本漫画格调,经常波及社会问题、人生哲理等成人主题。这种格调的特点是以彩色、灰色为主色调,图像表现力较强,人物表情和行为也更加实在。
J Horror Anime Style J Horror Anime Style 是指恐怖题材的日本动漫格调,这种格调的作品经常波及灵异、鬼怪、妖怪等超自然力量。
Jidaimono Anime Style Jidaimono Anime Style 是指日本历史剧题材的动漫格调,通常出现现代日本的历史背景和文化特色。这种格调的作品往往描述和平、家族奋斗、忍者、武士道、神话传说等元素,以及用具备浓厚日本特色的艺术表现手法来传递历史文化的外延。
Kawaii Anime Style Kawaii Anime Style 是一种十分可恶和萌的动漫格调,通常呈现出像动物、小孩、角色等可恶的形象。这种格调的作品以色彩显明、轮廓毛糙、脸部表情夸大为次要特点。
Mecha Anime Style Mecha Anime Style 是以机器人为主题的日本动漫格调,通常呈现出大型机器、机甲和平、铁甲舞者等元素。这种格调的作品经常使用科幻、将来世界设定、大规模战斗等元素,以及动静的战斗局面和机器人设计,塑造出简单的机器人世界和角色人物关系。
Realistic Anime Style Realistic Anime Style 是一种实在主义的日本动漫格调,通常呈现出秉持着更加事实和实在的人物形象和情节。这种格调的作品表现力很强,人物形象、环境场景等具备更多的细节,刻画出更为实在的情感世界。
Semi-Realistic Anime Style Semi-Realistic Anime Style 是在 Realistic Anime Style 和 Anime Style 之间的一个中间状态的格调,格调上比拟实在,然而仍带有肯定的动漫格调。这种格调的作品通常波及到带有现实性的情节和人物,然而也经常使用到动漫格调的表现手法。
Shoji Anime Style Shoji Anime Style 是依照日本漫画家小学馆长生涯逐步形成的一种格调。这种格调的作品,通常以聚焦单个人物或小团体的故事为主线。其特点是画面亮堂,色彩谐和,人物表情和行为搞笑夸大,情节简洁易懂。
Kemonomimi Anime Style Kemonomimi Anime Style 是一种带有动物耳朵和尾巴等特色的日本动漫格调,通常以人类或近似人类的形象出现,但却带有不同品种的动物耳朵和尾巴等特色。这种格调的作品与少女漫画 (girls’ manga)、少年漫画(boys’ manga) 等格调都有肯定的关系。

将图片转为动漫格调

这个用到咱们之前教的 img2img 性能,你只须要在 prompt 里退出图片 URL,而后加上以下 prompt 即可(为了更像原图,我加了 iw 参数):

panel from manga --iw 2

另一个我加了 Naoko Takeuchi(美少女兵士的作者),模型还是不长于生成人手:

场景 11:其余

本章节次要是介绍几个我很喜爱,但不晓得如何归类的场景。

不过我写完这一章,我发现他们都很适宜变现,比方制作实体货物啥的 😂

贴纸

不晓得有没有人和我一样有喜爱买贴纸贴笔记本电脑的习惯。某宝虽厉害,但我心愿的货色比拟非主流,有一些无奈满足我的需要,所以就想到让 AI 帮我画一些,以下用风暴兵和达斯维达为例,写一组 prompt:

Prompt 解释
类型是什么? sticker 制作 sticker
主体是什么? Stormtrooper, cute Q 版的风暴兵
环境是怎么的? null 不太重要,就让 AI 自由发挥
构图是怎么的? null 不太重要,就让 AI 自由发挥
拍摄媒介是什么? null 不太重要,就让 AI 自由发挥
是什么格调? vector 思考到时打印的,所以加了个 vector
参数 null 没有加任何参数

生成的后果是这样的,你会发现就是多了一个白边,并且是矢量图格调(我感觉很适宜某宝的敌人用):

剪纸

我十分喜爱那种有档次的剪纸格调(中文应该叫啥呢?我只晓得英文叫 layered paper art)但这种要画进去,还挺艰难的,于是想着用 AI 试试:

Prompt 解释
类型是什么? layered paper art 多层掠影
主体是什么? Death Star, shadowbox, volumetric lighting, 星球大战里的死星,但我不想仅仅单纯地搞一个掠影,我想做一个我常在某宝看到的那种带灯的掠影产品,所以加了个前面两个词,一个是指它是个掠影盒,另一个是带灯
环境是怎么的? null 不太重要,就让 AI 自由发挥
构图是怎么的? null 不太重要,就让 AI 自由发挥
拍摄媒介是什么? null 不太重要,就让 AI 自由发挥
是什么格调? null 不太重要,就让 AI 自由发挥
参数 null 没有加任何参数

用上述的 prompt 生成的后果还挺不错的,但如果你看下图右边 4 张图中的第 3 张,会感觉框里的球很不事实,也不是我想要的那种 2D 重叠的掠影,第 2 张和第 4 张更像是我想要的,批改一下,加个 diorama(二维平面图)。

voilà~ 加上后成果好很多(左边 4 张),太漂亮了,心愿某宝有卖:

邮票

不晓得各位是否还晓得邮票这种货色,2023 年了,我还有集邮的习惯,所以我在想用 AI 生成邮票预计也很有意思,所以就试了下,让 AI 做几张星球大战的复旧邮票:

Prompt 解释
类型是什么? vintage postage stamp 复旧邮票
主体是什么? Stormtrooper, red ink, 持续用风暴兵和达斯维达为例。而后我规定了邮票的色彩是红色
环境是怎么的? null 不太重要,就让 AI 自由发挥
构图是怎么的? null 不太重要,就让 AI 自由发挥
拍摄媒介是什么? null 不太重要,就让 AI 自由发挥
是什么格调? line engraving, intaglio 传统邮票当年工艺是母版印刷,个别是那种线雕、版画格调,所以我这里加了这两个关键词,一个指线雕,一个指版画。
参数 null 没有加任何参数

最初生成的图片,几乎就是艺术:

海报

最初介绍一些海报的做法:

Prompt 解释
类型是什么? movie poster 电影海报
主体是什么? Star War 星球大战
环境是怎么的? null 不太重要,就让 AI 自由发挥
构图是怎么的? null 不太重要,就让 AI 自由发挥
拍摄媒介是什么? null 不太重要,就让 AI 自由发挥
是什么格调? studio ghibli, retro anime 我想让 AI 搞一个吉卜力工作室复旧漫画风的海报
参数 null 没有加任何参数

海报并不仅仅指电影海报,你还能够用它来做广告海报。广告海报则把类型换一下即可。但须要留神,广告海报里须要其余元素来体现「广告」,并不是说加了 advertising 就是广告了。

Prompt 解释
类型是什么? advertising poster 广告海报
主体是什么? Darth Vader points his finger at the viewer 达斯维达手指指着观众
环境是怎么的? null 不太重要,就让 AI 自由发挥
构图是怎么的? null 不太重要,就让 AI 自由发挥
拍摄媒介是什么? null 不太重要,就让 AI 自由发挥
是什么格调? studio ghibli, retro anime 依旧
参数 null 没有加任何参数

技巧十七:看到他人的图,想晓得它的 prompt 是啥

最简略的办法,当然就是间接问。

如果问不到,倒是能够借助一些工具,Midjourney 反对图片转 prompt 性能。办法很简略。第一步在输入框输出 /describe:

点击 describe 后,会弹出一个增加文件的入口,上传文件,并点击回车。

Midjourney 就会返回后果,点击图片下方的 1、2、3、4 按钮,能够间接发 prompt 给 bot,让其生成图片,左边是别离用 #1 和 #4 prompt 生成的图片,我感觉用它来探寻原图的构图、主体、格调应该都不错,但不要预期能生成一个齐全一样的图:

框架总结

通过几个专题的学习,咱们根本将 text prompt 框架里蕴含的元素都过了一遍,但大家可能会感觉内容不好记忆,所以本章我会对框架进行总结。

官网框架

在做总结前,我想先介绍下 Midjourney 官网的框架:

官网的模板很简略,分成四个局部:

  1. 主体
  2. 细节 & 背景
  3. 格调、媒介、艺术家
  4. 参数

我的总结

其实依照官网模板写,你曾经能超过 90% 的初学者,但依据我的试验,我细化了他们的模板的,有以下调整:

  1. 将类型放在了最后面,因为 prompt 的程序会影响权重(详情见我翻译的 Midjourney 官网 FAQ)
  2. 官网的 Middle Bits 和 Last Bits 写得比拟宽泛,我对其进行了拆分,让大家更好记忆。

我用一个表格总结下这个框架,各位能够依据不同场景有选择地应用。

<div style={{width:140}}></div> Prompt 解释
类型是什么? 比方水彩画、插画等等
主体是什么? 形容下图片里的主体是什么,越多细节形容就越好,如果细节没有形容分明,Midjourney 就会随机画给你。主体个别为两大类:<ul><li>Who:人物就形容下性别、样貌、表情、情态、衣着等 </li><li>What:实物的话就要形容它是什么、材质、色彩等等 </li></ul>
环境是怎么的? 环境最次要的形成是以下几个:<ul><li>Background 背景,这个个别分为两类:</li><ul><li> 纯色:次要是色彩为主,或者突变 </li><li> 风光:比方室内背景、街景背景等 </li></ul><li>Light 灯光:光是从哪里投射到主体的?什么类型的光?</li><li>Weather 天气:如果是室外的场景能够适当加一个,这样会让你的照片更天然。</li></ul> 另外最好形容跟主体比拟搭的背景,不然会很奇怪,如果你并不需要太特地的背景,那我倡议你这一栏不必填,让 AI 帮你生成,个别不会太差。
构图是怎么的? 主体和环境都确认后,就要想想如何构图。比方:<ul><li> 镜头的焦点在哪里?</li><li> 主体的朝向是是哪里?</li><li> 主体和背景的画面占比是怎么的?</li></ul>
拍摄媒介是什么? 这里有几个要害:<ul><li> 相机型号 </li><li> 胶卷 </li><li> 镜头 </li><li> 相机设置(如曝光、光圈等)</li></ul>
是什么格调? 能够用 4W 记忆:<ul><li>When:什么年代的格调?</li><li>Who:你想要谁的格调?(人或组织)</li><li>What:什么艺术类型的格调?或者艺术静止的格调?</li><li>Where:什么国家的格调?</li></ul>
参数 这些相似照片的参数设定,比方:<ul><li> 清晰度 </li><li> 长宽比 </li><li> 详情请见参数相干的介绍。</li></ul>

这个模板看起来很长,但它跟各位拍照其实很像(只是程序做了权重优化),各位想想本人的整个拍照的过程,是不是:

  1. 看到某个物体 / 人物(主体),在某个环境下(环境)很漂亮
  2. 拿出手机(拍摄媒介),关上相机,用手机取景器确定好构图(构图),按下快门
  3. 最初 PS 一下(格调 & 参数)

参考链接:

https://github.com/thinkingjimmy/Learning-Prompt

https://github.com/wangxuqi/Prompt-Engineering-Guide-Chinese

https://github.com/tonyyuhang/ChatGPT/tree/main

https://github.com/f/awesome-chatgpt-prompts

正文完
 0