共计 2967 个字符,预计需要花费 8 分钟才能阅读完成。
【导语】:应用文本生成图像的简略命令行工具。
简介
deep-daze 是一个应用 OpenAI 的 CLIP 和 Siren 的,应用文本生成图像的命令行工具,应用简略的语言形容图像内容,即可生成对应的图片。
![shattered plates on the grass
(草地上的碎盘子)](https://gitee.com/kaixiaoyan/…
我的项目地址:
https://github.com/lucidrains…
下载安装
deep-daze 是一个 Python 命令行工具,所以应用的环境中须要先装置 Python,而后执行以下命令即可装置:
$ pip install deep-daze
简略应用
deep-daze 的应用也非常简单,记住一个 imagine 命令即可,如:
$ imagine "a house in the forest"
在 Windows 中须要应用管理员关上 CMD 窗口。
如果内存足够大,能够增加 –deeper 选项来取得更高质量的图片:
$ imagine "shattered plates on the ground" --deeper
deep-daze 有以下选项可供选择:
--img=IMAGE_PATH
默认值:无。用以优化 png/jpg 图像或 PIL 图像的门路。--encoding=ENCODING
默认值:无。用户创立的自定义 CLIP 编码。如果应用,则替换应用的任何文本或图像。--create_story=CREATE_STORY
默认值:False。如果启用此性能,则能够应用比 77 个字符更长的文本,用于创立图片故事。--story_start_words=STORY_START_WORDS
默认值:5。仅在 create_story 为 True 时应用。--story_words_per_epoch=STORY_WORDS_PER_EPOCH
默认值:5。仅在 create_story 为 True 时应用。--story_separator:默认值:无
仅在 create_story 为 True 时应用。定义一个相似. 的分隔符。--lower_bound_cutout=LOWER_BOUND_CUTOUT
默认值:0.1
每批 SIREN 图像的随机切口的大小的采样上限。应小于 0.8。--upper_bound_cutout=UPPER_BOUND_CUTOUT
默认值:1.0
每批 SIREN 图像的随机切口的大小的采样下限。应该放弃在 1.0。--saturate_bound=SATURATE_BOUND
默认值:False
如果为 True,则在训练期间将 LOWER_BOUND_CUTOUT 线性减少至 0.75。--learning_rate=LEARNING_RATE
默认值:1e-05
神经网络的学习率。--num_layers=NUM_LAYERS
默认值:16
Siren 神经网络的暗藏层数量。--batch_size=BATCH_SIZE
默认值:4
计算损失之前传递到 Siren 图像的数量。减小此值可能会升高内存和准确性。--gradient_accumulate_every=GRADIENT_ACCUMULATE_EVERY
默认值:4
计算出 n 个样本的加权损耗。减少此值有助于以较小的批次大小进步准确性。--epochs=EPOCHS
默认值:20
要运行的次数。--iterations= 迭代
默认值:1050
在给定期间内计算和反向流传损耗的次数。--save_every=SAVE_EVERY
默认值:100
生成图像的每一次迭代是这个数的倍数。--image_width = IMAGE_WIDTH
默认值:512
所需的图像分辨率。--deeper=DEEPER
默认值:False
应用具备 32 个暗藏层的 Siren 神经网络。--overwrite=OVERWRITE
默认值:False
是否笼罩现有的同名生成图像。--save_progress=SAVE_PROGRESS
默认值:False
是否保留在 Siren 训练之前生成的图像。--seed=SEED
类型:可选
默认值:无
要应用的种子用于确定性的运行。--open_folder=OPEN_FOLDER
默认值:True
是否关上生成的图像的文件夹。--save_date_time=SAVE_DATE_TIME
默认值:False
保留文件具备工夫戳。例如 `%y%m%d-%H%M%S-my_phrase_here`
--start_image_path= TART_IMAGE_PATH
默认值:无
首先在原始图像上训练生,而后再转向文本输出
--start_image_train_iters=START_IMAGE_TRAIN_ITERS
默认值:50
在初始图像上进行初始训练的次数
--theta_initial=THETA_INITIAL
默认值:30.0
形容色调空间频率的参数。仅实用于网络的第一层。--theta_hidden = THETA_INITIAL
默认值:30.0
形容色调空间频率的参数。仅实用于网络的暗藏层。--save_gif = SAVE_GIF
默认值:False
是否保留生成过程的 GIF 动画。仅在 save_progress 设置为 True 时无效。
更多
- 基于一张图片进行训练合成
$ imagine 'a clear night sky filled with stars' --start_image_path ./cloudy-night-sky.jpg
原始图片:
合成图片:
- 应用 Python 进行调用
from deep_daze import Imagine
imagine = Imagine(
text = 'cosmic love and attention',
num_layers = 24,
)
imagine()
- 每迭代四次就保留,以该格局保留图片:insert\_text\_here.00001.png,insert\_text\_here.00002.png,…
imagine = Imagine(
text=text,
save_every=4,
save_progress=True
)
- 创立带有工夫戳和序列号的文件
imagine = Imagine(
text=text,
save_every=4,
save_progress=True,
save_date_time=True,
)
开源前哨
日常分享热门、乏味和实用的开源我的项目。参加保护 10 万 + Star 的开源技术资源库,包含:Python、Java、C/C++、Go、JS、CSS、Node.js、PHP、.NET 等。
正文完