关于机器学习:使用扩散模型从文本生成图像

1代的DALLE应用VQ-VAE 的改进版，2代的DALLE2 通过应用扩散模型将图片的生成晋升到了一个新的高度，然而因为其计算量很大而且没有开源，咱们普通用户并没有方法应用，然而Stable Diffusion 的呈现改变现状，能够让咱们普通用户也能够间接应用，并且以前绝对于 Disco Diffusion, Stable Diffusion 生成的图片更加实用；绝对于 DALLE 2，Stable Diffusion 须要占用的资源更少，这样咱们也能够在本人的电脑中应用它生成高质量的图片。

在这篇文章中，将展现如何应用抱脸的扩散包通过文本生成图像，还有就一个一个不好的音讯，因为这个模型的呈现google的colab可能又要减少一些限度了。

从 DALLE 到Stable Diffusion

咱们后面的文章也介绍过 OpenAI 的 DALLE-2 模型还有他的开源实现，它能够让咱们从文本中创立高质量的图像。

然而DALLE2是免费的用户只有一些收费的额度，如果收费额度应用结束就须要付费了，所以我决定寻找代替计划，并偶尔发现了 Hugging Face 的一条新闻，他们公布了一个扩散模型的包diffusers ，能够让咱们间接应用。

应用diffusers 从文本生成图像

首先，应用扩散器包从文本生成图像咱们首先要有一个GPU，这里就是用google 的colab，然而可能colab当前会对这样的利用进行限度了，这个咱们在最初加以阐明。

有了gpu上面就是要安装包：

diffusers==0.2.4 — 这是咱们次要的包
transformers — 这个是抱脸的成名的根底包
scipy — 科学计算的
ftfy — 解决一些文本编码问题
ipywidgets>=7,<8 — notebook的一个小组件的根底包
torch —这个就不用说了 colab也曾经装置了
pillow — 解决图片的 colab也带了

所以咱们只有用上面命令装置就能够了：

 !pip install diffusers==0.2.4
 !pip install transformers scipy ftfy
 !pip install "ipywidgets>=7,<8"

咱们装置ipywidgets的目标是在 Google Colab 上启用内部的小部件

 # enabling widgets (to be able to login to hugging face)
 from google.colab import output
 output.enable_custom_widget_manager()

而后须要用token登录Hugging Face

 from huggingface_hub import notebook_login
 notebook_login()

如果执行胜利会呈现一个小部件，在其中输出来自 Hugging Face 的token后会看到如下内容：

 Login successful Your token has been saved to /root/.huggingface/token Authenticated through git-credential store but this isn't the helper defined on your machine. You might have to re-authenticate when pushing to the Hugging Face Hub. Run the following command in your terminal in case you want to set this credential helper as the default  git config --global credential.helper store

这就阐明咱们的环境曾经筹备结束了，上面开始创立咱们的流程：

 import torchfrom diffusers import StableDiffusionPipeline
 
 pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", revision="fp16", torch_dtype=torch.float16, use_auth_token=True)

在这里咱们应用的是 v1-4 模型，而后将其放入GPU中（还有很多其余模型，能够随便应用）

 pipe = pipe.to("cuda")

应用 Pytorch 的 autocast 运行推理

 from torch import autocast
 prompt = "photo of a panda surfing"
 with autocast("cuda"):
   image = pipe(prompt)["sample"][0]
   image.save(f"panda_surfer.png")
 image

后果如下：

后果十分不错。咱们也能够调整一些参数，例如 guide_scale、step和设置随机种子（用于确定性输入），来管制咱们的模型输入，具体的更具体的应用形式请看：

https://huggingface.co/blog/s…

Google Colab 的 GPU 资源可能要撑不住了

最初说下咱们下面提到的问题，Colab 有 Pro 和 Pro Plus 服务，如果你付费，那么取得 GPU 资源更有保障，能够应用更大的显存，占用资源工夫能够更长。拿 Pro 来说，每一个月只须要缴纳10美元，你就能够轻易使，保障随时都有 GPU 能够用。

然而最近，Google 批改了服务条款。即使你每月付费应用 Pro 和 Pro + 服务，却也仍然要受到明确的计算资源限度了

Google Colab 素来就禁止挖矿，这个是咱们早就晓得的，然而Stable Diffusion的呈现，能够让咱们用 Google Colab 的 GPU 资源当成后盾，而后提供自家的人工智能绘图服务，这个就很离谱了。尽管Google Colab 会对长期不操作的我的项目进行主动敞开，所以每次提供的时长不稳固。然而毕竟能够应用脚本主动重启啊。

OPEN AI的报价是大略0.15美元一张图片，而Colab只须要10美元就能够轻易用，利用 Gradio 等凋谢框架提供 Web APP 界面进行服务，那你的老本简直是0. 于是你能够把单次服务价格压到足够低，而后仍然赚钱。所以google只能紧急批改协定，确保没有人能够用这种看似非法的伎俩没完没了「薅羊毛」。

并且有的用户曾经收到了勾销pro服务的邮件，并进行了退款。

咱们先不管好与坏，然而这件事件能够说是人工智能真的抓住了理论痛点，当大家发现人工智能绘图的成果真的能够达到甚至是局部达到咱们冀望的时候，这样的潜在的需要就暴发进去了，因为咱们的发明模型的目标是解决咱们理论问题，而不是去发明了一个人工智障并且还要吹x代替人类。

在这件事上我看到了人工智能利用融入到了咱们的生存。而且理由还非常的正当，Google 找不到禁止应用它的理由，只能转而采纳资源配给制来缓解压力，我感觉这才是人工智能倒退的最终目标。最初还是心愿google能找到一个更好的解决办法，毕竟Colab真的很好用。

https://avoid.overfit.cn/post/63424c507ff04285b4620ec4f7b198c7

关于机器学习:使用扩散模型从文本生成图像

从 DALLE 到Stable Diffusion

应用diffusers 从文本生成图像

Google Colab 的 GPU 资源可能要撑不住了

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:使用扩散模型从文本生成图像

从 DALLE 到Stable Diffusion

应用diffusers 从文本生成图像

Google Colab 的 GPU 资源可能要撑不住了

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复