1. Stable Diffusion采样速度翻倍!仅需10到25步的扩散模型采样算法

自研深度学习编译器技术的 OneFlow 团队更是在不升高采样成果的前提下,胜利将之前的 “一秒出图” 缩短到了 “半秒出图”!在 GPU 上仅仅应用不到 0.5 秒就能够取得一张高清图片!

这基于清华大学朱军传授率领的 TSAIL 团队所提出的DPM-Solver,一种针对于扩散模型非凡设计的高效求解器:该算法无需任何额定训练,同时实用于离散工夫与间断工夫的扩散模型,能够在 20 到 25 步内简直收敛,并且只用 10 到 15 步也能取得十分高质量的采样。在 Stable Diffusion 上,25 步的 DPM-Solver 就能够取得优于 50 步 PNDM 的采样品质,因而采样速度间接翻倍。

链接:
https://mp.weixin.qq.com/s/vr...

2. 比快更快,Stable Diffusion实现一秒出图

起初,AI 作图须要几天,再缩减到几十分钟,再到几分钟,出图工夫在一直减速,问题是,到底快到什么水平,才会在业余的美术从业者甚至一般公众之间遍及开来?

显然,当初还无奈给出具体答案。即便如此,能够确定的是 AI 作图在技术和速度上的冲破,很可能曾经靠近甚至超过阈值,因为这一次,OneFlow 带来了字面意义上 “一秒出图” 的 Stable Diffusion 模型。

链接:https://mp.weixin.qq.com/s/Kq...

3. VLIW的前世今生:为什么DL加速器都青眼于它

当初,很多主攻云端推理和训练市场的产品,在提到基础架构时都会宣传其自定义的矢量运算指令集,大发射位宽,高度的并行执行能力。这些名词背地的底层构造简直都是VLIW。被Intel收买的Habana就慷慨声称采纳自定义的VLIW的指令集。

尽管VLIW构造在之前的几十年只能算是获得了“十分无限的成绩“,但就目前的深度学习处理器架构倒退而言,从新回顾下VLIW的特色以及其胜利和失败的案例依然是很有意义的,兴许这也是AI设计的一种可能方向。

链接:
https://zhuanlan.zhihu.com/p/...

4. 深挖Cerebras:世界上最大AI芯片的架构设计

作为业内备受关注的AI加速器守业公司,成立于2016年的Cerebras心愿通过构建全新AI加速器计划解决AI计算问题,以实现数量级计算性能:首先,须要改良计算外围架构,而不只是一味地晋升每秒浮点运算次数;其次,须要以超过摩尔定律的速度进步芯片集成度;最初,还要简化集群连贯,大幅度晋升集群计算效率。

为了实现上述指标,Cerebras设计了一种新的计算外围架构。它让单台设施运行超大规模模型成为可能,此外,它开发出只需简略数据并行的横向扩大和本地非结构化稠密减速技术,使大模型的利用门槛大幅升高。

链接:
https://mp.weixin.qq.com/s/_J...

5. 对于AI芯片软件栈的六条感悟

链接:
https://zhuanlan.zhihu.com/p/...

6. AI编译关键技术 • 高层循环编译优化 - 不仅仅是分块和合并

如何借助编译优化实践和办法,将计算图形容的深度学习算法部署在具体硬件上并让算法高效运行,是学术界和工业界一个重要的研究课题。更多深度芯片编译技术内容在清华大学出版社新书《多面体编译实践与深度学习实际》中。

链接:
https://mp.weixin.qq.com/s/mB...

7. TVM for DSA的一些总结

目前TVM/MLIR等开源AI编译器生态有肯定起色,于是进入了TVM的坑(端侧对TVM的接受度更高)。对于TVM来说,针对CPU/GPU等通用架构做了很多优化工作。咱们的开发没有走BYOC路线(本身也没有现成编译软件栈,都须要0-1造所有轮子),于是就像CPU/GPU那样走relay->te->tir->(llvm)->dsa的路子,想沿用TVM上各种优良的feature。

链接:
https://zhuanlan.zhihu.com/p/...

8. OneFlow源码解析:Global Tensor

上文中讲到的相似于PyTorch中的一般Tensor,在OneFlow中称为Local Tensor。Local Tensor是单卡视角下的一般Tensor。与之绝对,OneFlow中还有一个独有的概念——Global Tensor。Global Tensor是指被placement和SBP属性所指定的,一个全局视角下的逻辑Tensor。Global Tensor的shape是逻辑形态,其实在数据依据placement和SBP的规定散布在多个rank上。

Global Tensor既能够通过一般的Local Tensor通过tensor.to_global()转换失去,也能够间接用数据或Numpy来结构。

链接:
https://mp.weixin.qq.com/s/bV...

9. 李白:你的模型权重很不错,惋惜被我没收了

依照当初的趋势来说,模型越来越大了,大到一张GPU甚至装不下残缺的模型,必须得上分布式并行技术,然而分布式代码在很多框架下都是高度定制化的,对于老手来说基本读不懂,也不晓得应该怎么应用,导致大家上手十分的艰难,让本人宝贵的发际线显得更加宝贵。

针对大模型上述存在的痛点,导致咱们必须上分布式(数据并行、模型并行、流水并行)能力跑起来一个大模型。那么,LiBai有哪些特点呢?

链接:
https://mp.weixin.qq.com/s/zW...

10. 一个更快的YOLOv5问世,附送全面中文解析教程

作为计算机视觉畛域的基础性技术,指标检测在业界具备广泛应用,而YOLO系列因其综合性能较好,成为广受欢迎的首选框架。

这次,为了让用户深刻理解 OneFlow 训练指标检测模型的可行性以及性能的优越性,咱们将Ultralytics 版YOLOv5通过 import oneflow as torch 的形式迁徙为 OneFlow 后端。

相比PyTorch,目前 YOLOv5 在 OneFlow 上进行小 batch 训练时有 5%-10% 的性能劣势,而训练大 batch 的性能与 PyTorch 持平。

链接:
https://mp.weixin.qq.com/s/im...

11. 对于AI大模型的一点思考和探讨

大家仿佛都沉迷在大模型欣欣向荣、歌舞升平的状态中,大多数工业界的场景中,大模型并不能间接施展价值。在不同的工作里还是要依据理论场景去谈具体的模型和算法,不倡议逢解决方案就提大模型,也不倡议把大模型当成一个次要的技术计划去忽悠不是特地懂这一块技术的人,事实上在学术界的论文中也不会有人说咱们用一个Big Model解决了所有问题。

将来大模型应该能够在2.c所提的方向上继续发力,但必定也会演变进去一系列千奇百怪或优或劣的AI架构,大浪淘沙,去伪存真。

链接:
https://zhuanlan.zhihu.com/p/...

12. 直播预报|LiBai:开源大规模预训练模型库及开发实际

LiBai(李白)模型库一个基于OneFlow的开源大规模模型工具箱,笼罩了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 这些所有支流Transformer库的长处,为用户提供了“开箱即用”的深度学习大模型体验。目前,LiBai已反对BERT、GPT、ViT、Swin-Transformer、T5 等常见大模型,以及MoCoV3、MAE等最新钻研,开箱即用,并且能够很不便地在上游工作上进行微调。

11月24日(本周四)19:00,LiBai外围作者程鹏将首先介绍大规模预训练模型的开发生态,并比拟支流的Transformer模型库,之后重点解说开源大规模预训练模型库LiBai的研发指标、克服的艰难。最初,程鹏也将展现基于LiBai的大模型开发流程。

报名链接:
https://mp.weixin.qq.com/s/Td...

欢送下载体验 OneFlow v0.8.0 最新版本:https://github.com/Oneflow-In...