关于程序员:Hinton等谈深度学习十年PyTorch落地Linux基金会的影响机器学习界的GitHub｜AI系统前沿动态

重磅！PyTorch落地Linux基金会
扎克伯格亲自发表，PyTorch基金会已陈腐成立，并纳入Linux基金会旗下，治理委员会成员，包含Meta、AMD、AWS、谷歌云、微软和英伟达。Meta示意，PyTorch胜利背地的驱动力，是开源社区充满活力的持续增长。成立基金会将确保社区成员以通明和公开的形式作出决定。
链接：
mp.weixin.qq.com/s/832JBlOlJ…
www.reddit.com/r/MachineLe…
深度学习十年后撞墙了？Hinton、LeCun、李飞飞不这么认为
年后，现在曾经成为图灵奖得主的 Geoffrey Hinton、Yann LeCun，ImageNet 挑战赛的次要发起人与推动者李飞飞如何对待过来十年的 AI 技术冲破？又对接下来十年的技术倒退有什么判断？近日，海内媒体 VentureBeat 的一篇专访文章，让 AI 社区开始探讨起这些问题。
链接：
mp.weixin.qq.com/s/ijsyATtxD…
TensorFlow 2.10上线：Windows上扩大GPU反对，TF-DF 1.0公布
新版本的亮点包含：Keras 中新的用户敌对个性、Windows 中扩大 GPU 反对等等。此版本还标记着 TensorFlow 决策森林 (TF-DF) 1.0 版本的到来！
链接：
mp.weixin.qq.com/s/UYg3-lTK9…
提速还能不掉点！深度解析MegEngine 4 bits量化开源实现
量化模型被宽泛应用在推理侧，量化也成为了一个重要且十分沉闷的钻研畛域。近期，MegEngine开源了4 bits的量化的相干内容，通过MegEngine 4 bits量化实现的ResNet-50模型在 ImageNet 数据集上的精度体现与 8 bits 量化模型相差无几，并且速度是TensorRT-v7 8 bits ResNet-50模型的推理速度的1.3倍。
链接：
zhuanlan.zhihu.com/p/565121111
视频教程｜OneFlow源码解析（1）：分布式易用性
本视频介绍 OneFlow 如何通过创造的 SBP 及 placment 概念，简化分布式训练流程。从 SBP 的角度，能够更靠近实质地了解数据并行、模型并行策略。
链接：
www.bilibili.com/video/BV1va…
Groq：从头设计一个张量流式处理器架构
不同于传统的CPU和GPU架构，Groq从头设计了一个张量流处理器 (TSP) 架构，以减速人工智能、机器学习和高性能计算中的简单工作负载。这个架构不是开发小型可编程内核并对其进行数百次复制，而是包容一个具备数百个性能单元的单个处理器。
链接：
mp.weixin.qq.com/s/bmhFLsdga…
SIMT、SIMD和DSA（1）
选DSA还是SIMT目前也是AI芯片最重要的架构抉择问题，但选哪个都是一大堆具体概念和设计的汇合。咱们还是须要深刻进去分析两者好到底好在哪里。
链接： zhuanlan.zhihu.com/p/562135333
GPU内存（显存）的了解与根本的应用
GPU显存的组成与CPU的内存架构相似，但为了满足并行化运算GPU的显存做了非凡设计，与之相干的概念很多如host memory、device memory、L1/L2 cache、register、texture、constant、shared memory、global memory等，还会波及一些硬件概念DRAM、On/Off chip memory，还波及到一些操作如pin memory，zero copy等。本文试图帮忙理解这些显存相干的概念，包含一些非凡存储作用是什么，性能如何以及在CUDA中怎么用。
链接：
zhuanlan.zhihu.com/p/462191421
CUDA SGEMM矩阵乘法优化笔记：从入门到cublas
最近开始入门CUDA，初步理解GPU的工作原理后，抉择了单精度矩阵乘法作为练习的kernel，尝试从最简略的SGEMM kernal开始，逐渐优化到cublas的性能程度。
链接：
zhuanlan.zhihu.com/p/518857175
如何利用TVM疾速实现超过Numpy的GEMM
本文次要讲述如何利用TVM实现超过Numpy GEMM，有人在看了《How to optimize GEMM on CPU》当前说TVM还是没有超过Numpy的性能，是不是无奈做到，于是作者写这篇文章来论述咱们如何在这个根底上做到超过。
链接：
zhuanlan.zhihu.com/p/75203171；
tvm.apache.org/docs/how_to…
一个tvm(te)实现的cutlass efficient gemm
这里记录的是从tvm的tensor expression登程，参考cutlass efficient gemm的思路，一步一步优化一下GEMM的一些思考，目标是为了了解cutlass优化gemm的思路。
链接：
zhuanlan.zhihu.com/p/560729749
视频教程｜TVM 学习指南介绍（前端局部）
链接：
mp.weixin.qq.com/s/rB8qYp_5W…
扩散模型爆火，这是首篇综述与Github论文分类汇总
本综述（Diffusion Models: A Comprehensive Survey of Methods and Applications）首次对现有的扩散生成模型（diffusion model）进行了全面的总结剖析，从 diffusion model 算法细化分类、和其余五大生成模型的关联以及在七大畛域中的利用等方面开展，最初提出了 diffusion model 的现有 limitation 和将来的倒退方向。
链接：mp.weixin.qq.com/s/GcL4_zgbW…
Hugging Face：成为机器学习界的“Github”
五年前，AI畛域的出名研究者Andrej Karpathy发文称，传统人工编程属于“软件1.0”，“软件2.0”时代将以神经网络来编程，在这个过渡过程中，将涌现像GitHub这样的重量级平台。AI届网红公司“抱抱脸（Hugging Face）”有志于成为“软件2.0”时代的GitHub。在Hugging Face上，用户能够托管机器学习模型和数据集等，对它们进行共享、合作和评估，最初将它们投入生产利用，这种模式有点像Github上的托管和合作模式。
链接：
mp.weixin.qq.com/s/_2DVu1_zZ…

关于程序员:Hinton等谈深度学习十年PyTorch落地Linux基金会的影响机器学习界的GitHub｜AI系统前沿动态

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于程序员:Hinton等谈深度学习十年PyTorch落地Linux基金会的影响机器学习界的GitHub｜AI系统前沿动态

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复