共计 3268 个字符,预计需要花费 9 分钟才能阅读完成。
1. Stable Diffusion 采样速度翻倍!仅需 10 到 25 步的扩散模型采样算法
自研深度学习编译器技术的 OneFlow 团队更是在不升高采样成果的前提下,胜利将之前的“一秒出图”缩短到了“半秒出图”!在 GPU 上仅仅应用不到 0.5 秒就能够取得一张高清图片!
这基于清华大学朱军传授率领的 TSAIL 团队所提出的 DPM-Solver,一种针对于扩散模型非凡设计的高效求解器:该算法无需任何额定训练,同时实用于离散工夫与间断工夫的扩散模型,能够在 20 到 25 步内简直收敛,并且只用 10 到 15 步也能取得十分高质量的采样。在 Stable Diffusion 上,25 步的 DPM-Solver 就能够取得优于 50 步 PNDM 的采样品质,因而采样速度间接翻倍。
链接:
https://mp.weixin.qq.com/s/vr…
2. 比快更快,Stable Diffusion 实现一秒出图
起初,AI 作图须要几天,再缩减到几十分钟,再到几分钟,出图工夫在一直减速,问题是,到底快到什么水平,才会在业余的美术从业者甚至一般公众之间遍及开来?
显然,当初还无奈给出具体答案。即便如此,能够确定的是 AI 作图在技术和速度上的冲破,很可能曾经靠近甚至超过阈值,因为这一次,OneFlow 带来了字面意义上“一秒出图”的 Stable Diffusion 模型。
链接:https://mp.weixin.qq.com/s/Kq…
3. VLIW 的前世今生:为什么 DL 加速器都青眼于它
当初,很多主攻云端推理和训练市场的产品,在提到基础架构时都会宣传其自定义的矢量运算指令集,大发射位宽,高度的并行执行能力。这些名词背地的底层构造简直都是 VLIW。被 Intel 收买的 Habana 就慷慨声称采纳自定义的 VLIW 的指令集。
尽管 VLIW 构造在之前的几十年只能算是获得了“十分无限的成绩“,但就目前的深度学习处理器架构倒退而言,从新回顾下 VLIW 的特色以及其胜利和失败的案例依然是很有意义的,兴许这也是 AI 设计的一种可能方向。
链接:
https://zhuanlan.zhihu.com/p/…
4. 深挖 Cerebras:世界上最大 AI 芯片的架构设计
作为业内备受关注的 AI 加速器守业公司,成立于 2016 年的 Cerebras 心愿通过构建全新 AI 加速器计划解决 AI 计算问题,以实现数量级计算性能:首先,须要改良计算外围架构,而不只是一味地晋升每秒浮点运算次数;其次,须要以超过摩尔定律的速度进步芯片集成度;最初,还要简化集群连贯,大幅度晋升集群计算效率。
为了实现上述指标,Cerebras 设计了一种新的计算外围架构。它让单台设施运行超大规模模型成为可能,此外,它开发出只需简略数据并行的横向扩大和本地非结构化稠密减速技术,使大模型的利用门槛大幅升高。
链接:
https://mp.weixin.qq.com/s/_J…
5. 对于 AI 芯片软件栈的六条感悟
链接:
https://zhuanlan.zhihu.com/p/…
6. AI 编译关键技术 • 高层循环编译优化 – 不仅仅是分块和合并
如何借助编译优化实践和办法,将计算图形容的深度学习算法部署在具体硬件上并让算法高效运行,是学术界和工业界一个重要的研究课题。更多深度芯片编译技术内容在清华大学出版社新书《多面体编译实践与深度学习实际》中。
链接:
https://mp.weixin.qq.com/s/mB…
7. TVM for DSA 的一些总结
目前 TVM/MLIR 等开源 AI 编译器生态有肯定起色,于是进入了 TVM 的坑(端侧对 TVM 的接受度更高)。对于 TVM 来说,针对 CPU/GPU 等通用架构做了很多优化工作。咱们的开发没有走 BYOC 路线(本身也没有现成编译软件栈,都须要 0 - 1 造所有轮子),于是就像 CPU/GPU 那样走 relay->te->tir->(llvm)->dsa 的路子,想沿用 TVM 上各种优良的 feature。
链接:
https://zhuanlan.zhihu.com/p/…
8. OneFlow 源码解析:Global Tensor
上文中讲到的相似于 PyTorch 中的一般 Tensor,在 OneFlow 中称为 Local Tensor。Local Tensor 是单卡视角下的一般 Tensor。与之绝对,OneFlow 中还有一个独有的概念——Global Tensor。Global Tensor 是指被 placement 和 SBP 属性所指定的,一个全局视角下的逻辑 Tensor。Global Tensor 的 shape 是逻辑形态,其实在数据依据 placement 和 SBP 的规定散布在多个 rank 上。
Global Tensor 既能够通过一般的 Local Tensor 通过 tensor.to_global() 转换失去,也能够间接用数据或 Numpy 来结构。
链接:
https://mp.weixin.qq.com/s/bV…
9. 李白:你的模型权重很不错,惋惜被我没收了
依照当初的趋势来说,模型越来越大了,大到一张 GPU 甚至装不下残缺的模型,必须得上分布式并行技术,然而分布式代码在很多框架下都是高度定制化的,对于老手来说基本读不懂,也不晓得应该怎么应用,导致大家上手十分的艰难,让本人宝贵的发际线显得更加宝贵。
针对大模型上述存在的痛点,导致咱们必须上分布式(数据并行、模型并行、流水并行)能力跑起来一个大模型。那么,LiBai 有哪些特点呢?
链接:
https://mp.weixin.qq.com/s/zW…
10. 一个更快的 YOLOv5 问世,附送全面中文解析教程
作为计算机视觉畛域的基础性技术,指标检测在业界具备广泛应用,而 YOLO 系列因其综合性能较好,成为广受欢迎的首选框架。
这次,为了让用户深刻理解 OneFlow 训练指标检测模型的可行性以及性能的优越性,咱们将 Ultralytics 版 YOLOv5 通过 import oneflow as torch 的形式迁徙为 OneFlow 后端。
相比 PyTorch,目前 YOLOv5 在 OneFlow 上进行小 batch 训练时有 5%-10% 的性能劣势,而训练大 batch 的性能与 PyTorch 持平。
链接:
https://mp.weixin.qq.com/s/im…
11. 对于 AI 大模型的一点思考和探讨
大家仿佛都沉迷在大模型欣欣向荣、歌舞升平的状态中,大多数工业界的场景中,大模型并不能间接施展价值。在不同的工作里还是要依据理论场景去谈具体的模型和算法,不倡议逢解决方案就提大模型,也不倡议把大模型当成一个次要的技术计划去忽悠不是特地懂这一块技术的人,事实上在学术界的论文中也不会有人说咱们用一个 Big Model 解决了所有问题。
将来大模型应该能够在 2.c 所提的方向上继续发力,但必定也会演变进去一系列千奇百怪或优或劣的 AI 架构,大浪淘沙,去伪存真。
链接:
https://zhuanlan.zhihu.com/p/…
12. 直播预报|LiBai:开源大规模预训练模型库及开发实际
LiBai(李白)模型库一个基于 OneFlow 的开源大规模模型工具箱,笼罩了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 这些所有支流 Transformer 库的长处,为用户提供了“开箱即用”的深度学习大模型体验。目前,LiBai 已反对 BERT、GPT、ViT、Swin-Transformer、T5 等常见大模型,以及 MoCoV3、MAE 等最新钻研,开箱即用,并且能够很不便地在上游工作上进行微调。
11 月 24 日(本周四)19:00,LiBai 外围作者程鹏将首先介绍大规模预训练模型的开发生态,并比拟支流的 Transformer 模型库,之后重点解说开源大规模预训练模型库 LiBai 的研发指标、克服的艰难。最初,程鹏也将展现基于 LiBai 的大模型开发流程。
报名链接:
https://mp.weixin.qq.com/s/Td…
欢送下载体验 OneFlow v0.8.0 最新版本:https://github.com/Oneflow-In…