关于人工智能:太强了这个AI项目想取代设计师

36次阅读

共计 1488 个字符，预计需要花费 4 分钟才能阅读完成。

明天给大家分享一个乏味的 AI 我的项目 —— dalle-flow。

该我的项目能够依据文本生成图片，GitHub 上曾经开源。

上面演示下我的项目成果，并介绍用到的算法。

以一个简略的例子给大家演示一下。

比方：咱们想为 a teddy bear on a skateboard in Times Square (在时代广场玩滑板的泰迪熊) 这段文本生成一张图片。

将它输出dalle-flow 后，便能够失去上面的图片

是不是很神奇！

上面我用几行 Python 代码教大家应用这个我的项目。

首先，装置 docarray

pip install "docarray[common]>=0.13.5" jina

定义 server_url 变量，寄存 dalle-flow 模型地址

server_url = 'grpc://dalle-flow.jina.ai:51005'

server_url是官网提供的服务，咱们也能够依照文档，将模型部署到本人的服务器（须要有 GPU）。

将文本提交到服务器，取得候选图片。

prompt = 'a teddy bear on a skateboard in Times Square'
from docarray import Document

da = Document(text=prompt).post(server_url, parameters={'num_images': 2}).matches

提交文本后，服务器会调用 DALL·E-Mega 算法生成候选图像，而后调用CLIP-as-service 对候选图像进行排名。

咱们指定 num_images 等于 2，最终会返回 4 张图片，2 张来自 DALLE-mega 模型，2 张来自 GLID3 XL 模型。因为 server_url 服务器在国外，程序运行工夫可能会比拟长，大家运行的时候要多等等。

程序运行完结后，咱们将这 4 张图片展现进去

da.plot_image_sprites(fig_size=(10,10), show_index=True)

咱们能够抉择其中一张，持续提交到服务器上进行diffusion。

每张图左上角都有一个编号，这里我选的是编号为 2 的图片

fav_id = 2
fav = da[fav_id]

diffused = fav.post(f'{server_url}', parameters={'skip_rate': 0.5, 'num_images': 36}, target_executor='diffusion').matches

diffusion其实是将选中的图片，送入 GLID-3 XL 模型，丰盛纹理和背景。

返回后果如下：

咱们能够从当选一张称心的图片作为最终的后果页。

fav = diffused[6]
fav.display()

dalle-flow我的项目应用起来尽管很简略，但波及的 DALL·E 算法却很简单，这里只简略介绍下。

DALL·E的指标是把文本 token 和图像 token 当成一个数据序列，通过 Transformer 进行自回归。

这个过程跟 机器翻译 有些像，机器翻译 是将英文文本翻译成中文文本，而 DALL·E 将英文文本翻译成图片，文本中的 token 是单词，而图像中的 token 则是像素。

对 dalle-flow 我的项目感兴趣的敌人能够本人跑跑下面的代码，本人部署模型试试。

欢送大家的关注，继续分享有意思的 AI 我的项目。

以上就是本次分享的所有内容，如果你感觉文章还不错，欢送关注公众号：Python 编程学习圈，每日干货分享，发送“J”还可支付大量学习材料。或是返回编程学习网，理解更多编程技术常识。

正文完

人工智能

发表至：人工智能

2022-07-07

0

关于人工智能:课程作业经验基于Mindspore实现MTCNN

关于人工智能:迈入-8K-时代AI-驱动超高清-视-界到来

关于人工智能:集简云让你的视频运营工作实现自动化和智能化的解决方案

关于人工智能:40Mn18Cr4无磁环

关于云原生:Databend-Cloud-入选中国信通院云原生产品目录

关于人工智能:太强了这个AI项目想取代设计师

1. 成果演示

2. 算法小常识

Just My Socks（注册教程内含优惠码）

关于人工智能:太强了这个AI项目想取代设计师

1. 成果演示

2. 算法小常识

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）