【导语】:应用文本生成图像的简略命令行工具。

简介

deep-daze 是一个应用 OpenAI 的 CLIP 和 Siren 的,应用文本生成图像的命令行工具,应用简略的语言形容图像内容,即可生成对应的图片。

![shattered plates on the grass
(草地上的碎盘子)](https://gitee.com/kaixiaoyan/...

我的项目地址:

https://github.com/lucidrains...

下载安装

deep-daze是一个Python命令行工具,所以应用的环境中须要先装置Python,而后执行以下命令即可装置:

$ pip install deep-daze

简略应用

deep-daze的应用也非常简单,记住一个imagine命令即可,如:

$ imagine "a house in the forest"  

在Windows中须要应用管理员关上CMD窗口。

如果内存足够大,能够增加--deeper选项来取得更高质量的图片:

$ imagine "shattered plates on the ground" --deeper  

deep-daze有以下选项可供选择:

--img=IMAGE_PATH      默认值:无。      用以优化png/jpg图像或PIL图像的门路。  --encoding=ENCODING      默认值:无。      用户创立的自定义CLIP编码。如果应用,则替换应用的任何文本或图像。  --create_story=CREATE_STORY      默认值:False。      如果启用此性能,则能够应用比77个字符更长的文本,用于创立图片故事。  --story_start_words=STORY_START_WORDS      默认值:5。      仅在create_story为True时应用。  --story_words_per_epoch=STORY_WORDS_PER_EPOCH      默认值:5。      仅在create_story为True时应用。  --story_separator:      默认值:无      仅在create_story为True时应用。定义一个相似.的分隔符。  --lower_bound_cutout=LOWER_BOUND_CUTOUT      默认值:0.1      每批SIREN图像的随机切口的大小的采样上限。应小于0.8。  --upper_bound_cutout=UPPER_BOUND_CUTOUT      默认值:1.0      每批SIREN图像的随机切口的大小的采样下限。应该放弃在1.0。  --saturate_bound=SATURATE_BOUND      默认值:False      如果为True,则在训练期间将LOWER_BOUND_CUTOUT线性减少至0.75。  --learning_rate=LEARNING_RATE      默认值:1e-05      神经网络的学习率。  --num_layers=NUM_LAYERS      默认值:16      Siren神经网络的暗藏层数量。  --batch_size=BATCH_SIZE      默认值:4      计算损失之前传递到Siren图像的数量。减小此值可能会升高内存和准确性。  --gradient_accumulate_every=GRADIENT_ACCUMULATE_EVERY      默认值:4      计算出n个样本的加权损耗。减少此值有助于以较小的批次大小进步准确性。  --epochs=EPOCHS      默认值:20      要运行的次数。  --iterations=迭代      默认值:1050      在给定期间内计算和反向流传损耗的次数。  --save_every=SAVE_EVERY      默认值:100      生成图像的每一次迭代是这个数的倍数。  --image_width = IMAGE_WIDTH      默认值:512      所需的图像分辨率。  --deeper=DEEPER      默认值:False      应用具备32个暗藏层的Siren神经网络。  --overwrite=OVERWRITE      默认值:False      是否笼罩现有的同名生成图像。  --save_progress=SAVE_PROGRESS      默认值:False      是否保留在Siren训练之前生成的图像。  --seed=SEED      类型:可选      默认值:无      要应用的种子用于确定性的运行。  --open_folder=OPEN_FOLDER      默认值:True      是否关上生成的图像的文件夹。  --save_date_time=SAVE_DATE_TIME      默认值:False      保留文件具备工夫戳。例如`%y%m%d-%H%M%S-my_phrase_here`  --start_image_path= TART_IMAGE_PATH      默认值:无      首先在原始图像上训练生,而后再转向文本输出  --start_image_train_iters=START_IMAGE_TRAIN_ITERS      默认值:50      在初始图像上进行初始训练的次数  --theta_initial=THETA_INITIAL      默认值:30.0      形容色调空间频率的参数。仅实用于网络的第一层。  --theta_hidden = THETA_INITIAL      默认值:30.0      形容色调空间频率的参数。仅实用于网络的暗藏层。  --save_gif = SAVE_GIF      默认值:False      是否保留生成过程的GIF动画。仅在save_progress设置为True时无效。  

更多

  • 基于一张图片进行训练合成
$ imagine 'a clear night sky filled with stars' --start_image_path ./cloudy-night-sky.jpg  

原始图片:

合成图片:

  • 应用Python进行调用
from deep_daze import Imagine    imagine = Imagine(      text = 'cosmic love and attention',      num_layers = 24,  )  imagine()  
  • 每迭代四次就保留,以该格局保留图片:insert\_text\_here.00001.png,insert\_text\_here.00002.png,...
imagine = Imagine(      text=text,      save_every=4,      save_progress=True  )  
  • 创立带有工夫戳和序列号的文件
imagine = Imagine(      text=text,      save_every=4,      save_progress=True,      save_date_time=True,  )  
开源前哨 日常分享热门、乏味和实用的开源我的项目。参加保护 10万+ Star 的开源技术资源库,包含:Python、Java、C/C++、Go、JS、CSS、Node.js、PHP、.NET 等。