关于百度:320万开发者在用的飞桨全新发布推理部署导航图打通AI应用最后一公里

在飞桨框架的版本号降级到 2.1 之后，所有都已不一样了。

深度学习框架的行列中，百度飞桨的实力始终让人无奈漠视。因而，飞桨也已吸引了大量使用者，构建了有数工业级利用。

「飞桨平台已吸引了超过 320 万开发者，相比一年前减少近 70%，同时其服务的机构达到了 12 万家。飞桨的发展壮大，见证了 AI 工业大生产的热火朝天。」百度首席技术官、深度学习技术及利用国家工程实验室主任王海峰博士，在昨天的 Wave Summit 深度学习开发者峰会上向咱们展现了一连串数字。

5 月 20 日下午，Wave Summit 2021 在北京正式举办。在流动中，百度公布了飞桨九大最新公布和全平台降级，这些新技术和工具来自百度源于产业实际的技术、与开发者共生的开源生态，它们正推动着产业智能化减速到来。

王海峰在 Wave Summit2021 上做收场致辞。

飞桨带来的九大新公布其中蕴含 6 项技术产品，以及 3 个生态成绩和打算。除了为飞桨退出一系列新性能之外，百度还展现了本人在 AI 畛域的最新研究成果。

这其中包含：

飞桨开源框架 2.1 版
云原生机器学习外围 PaddleFlow
全新推理部署导航图
全新大规模图检索引擎
开源文心 ERNIE 四大预训练模型
硬件生态大范畴笼罩
飞桨「大航海」打算
……
作为「人工智能时代的操作系统」，飞桨连贯了智能芯片的算力与大量根底利用，让最先进 AI 算法的大规模利用成为可能。

飞桨框架 2.1：开发体验太妙了

借助飞桨，数百万开发者已不再须要从头开始编写 AI 算法的代码，即可高效进行技术创新并利用于业务。机器学习门槛的大幅升高，放慢了人工智能利用的多样化和规模化。在这背地，百度的 AI 技术经验了长时间的倒退。

百度早在 2013 年就成立了深度学习研究院，2016 年 8 月，它率先开源了深度学习框架 PaddlePaddle（飞桨），打造了中国首个自主研发、性能齐备、开源凋谢的产业级深度学习平台。随着这一体系的不断改进，飞桨吸引了数百万开发者。

往年 3 月，飞桨迎来了倒退历程中的一个里程碑：2.0 正式版的公布。对于飞桨平台来说，这是一次向智能化「基础设施」进化的全面换代。除了成熟的动态图模式，其在 API 零碎、大规模模型训练、软硬件一体化等方面均有大量变革。

5 月 20 日的 Wave Summit 上，飞桨开源框架正式降级到 2.1 版本。百度深度学习技术平台部高级总监马艳军带来了对于飞桨开源的最新进展和公布。

飞桨技术升级

飞桨新版本首先晋升的是训练速度。飞桨开源框架 V2.1 着重优化了主动混合精度训练，最大化地应用 FP16 计算，缩小与 FP32 的转换开销，并应用了多种策略主动保障模型失常收敛。此外，飞桨开源框架 V2.1 还优化了大量 FP16 算子的性能，在多个畛域的支流模型上都有显著的性能晋升。

以 ResNet50 和 BERT 为例，启动主动混合精度性能后，模型的训练速度能够晋升 3 倍，与同类零碎相比处于领先水平（超过了 PyTorch 和 TensorFlow）。

其次，飞桨框架 2.1 版本的动态图性能进一步加强，新增了 inplace 操作性能，实现了主动显存复用，可将显存占用升高 17.7%。此外还优化了 Python/C++ 交互的开销，晋升即时执行效率，使得训练速度晋升 11%。

在飞桨框架 2.0 版本正式推出的高层 API，这一次也进行了降级，加强了数据预处理类 API，扩大了基于 GPU 设施的计算能力，此外在全流程训练上减少了混合精度策略反对。2.1 版本还新增了模型共享机制，高层 API 能够间接调用飞桨官网算法库中的经典的、复用性高的模型。

同时，飞桨开源框架 V2.1 对自定义算子性能的易用性进行了大量优化，升高开发者自定义算子（op）的学习与开发成本。当初的算子封装更加简洁，暗藏了不必要的框架底层概念，同时彻底买通了训练和推理。通过封装 Python 端扩大 API，实现了一键实现自定义算子编译、装置与接口主动生成，无效升高了开发者编写和应用自定义算子的老本，让开发者更加专一于算子计算的实质。

「在新版本中，就能够像调用飞桨 API 一样调用本人写的自定义算子了。」马艳军说道。

模型部署，全面加强

在大会中，百度还分享了飞桨推理部署工具链的最新降级。至今，模型部署仍是 AI 产业实际中的难题，推理部署工具链条是否通顺，肯定水平上决定了 AI 利用最初一公里路走得好不好。

飞桨模型压缩工具 PaddleSlim 有两项重要降级。首先是优化了剪枝压缩技术，新增了非结构化稠密工具。晚期剪枝应用结构化稠密的形式，剪枝时以某个构造为单元，这样尽管能够间接减小 Tensor 的尺寸和计算量，但一些有价值的网络结构会被「误伤」。而非结构化稠密则是以每一个数值为单元进行剪枝，更加准确、灵便，通用性、易用性也都十分好。

此外，PaddleSlim 率先反对了 OFA（Once For All）压缩模式，联合多种压缩策略的劣势来保障压缩后模型的精度；接口简洁对用户代码低侵入，让用户无需批改现有的模型训练代码。这种办法的可移植性较好，训练一个超网络就能够失去多个适配不同部署环境的子模型，只需对模型微调即可。

借助 OFA 策略，BERT 模型体积减小了 26%，CPU、GPU 实现显著减速。综合应用 PaddleSlim 的压缩策略，CycleGAN 体积减小 97%，CPU、GPU 均有大幅减速。

飞桨的轻量化推理引擎 Paddle Lite 也进行了全面降级。近日，百度公布了面向挪动开发者的开箱即用工具集 LiteKit，针对挪动端开发的特点对 Paddle Lite 进行了封装，显著升高了端侧 AI 开发者的开发成本。此外，Paddle Lite 在 ARM CPU 和 OpenCL 的推理性能也进一步晋升，尤其在广泛应用的 INT8 性能持续保持当先。硬件反对方面，Paddle Lite 与包含瑞芯微、Intel FPGA 开发套件在内的硬件的进一步交融适配，满足了更多利用场景的须要。

针对服务化部署的理论需要，Paddle Serving 新增了全异步设计的 Pipeline 模式，以更好反对事实业务中模型组合应用的问题。多模型利用设计简单，为了升高开发和保护难度，同时保障服务的可用性，人们通常会采纳串行或简略的并行形式，但这种状况下吞吐量仅能达到个别可用状态，且 GPU 利用率广泛偏低。Paddle Serving 的降级很好地解决了这个问题。

右图是在 PaddleOCR 上的测试数据。能够看到，随着用户拜访数量的减少，非 Pipeline 模式无论是吞吐量或 GPU 利用率都很快达到了瓶颈，而 Pipeline 模式仍然稳步晋升，可无效反对企业的大规模部署需要。

飞桨前端推理引擎 Paddle.js 也取得了进一步加强。降级后的 Paddle.js 放弃高兼容性，残缺反对了飞桨框架 2.0 及之后版本的模型格局，新增了对多种 Backend 和支流图像宰割及分类模型的反对，在高兼容性的同时同时也兼顾了高性能。新增的 WebGL Pack 性能则能够实现数据四通道排布并行计算，缩小资源占用。

另外，Paddle.JS 还推出了前端模型加密解决方案，在模型文件离线加密、拜访受控、运行推理受控三个重要环节增强保障，无效进步业务的安全性。

飞桨推理部署工具链上的技术升级实现之后，为了让开发者可能疾速将想法投入实际，理解「哪条路走得通，哪条路还未走通」，百度将本身 AI 技术实际的教训做成了一张推理部署导航图供人参考：

据介绍，这其中曾经涵盖了 300 多条通过充沛验证的部署通路，将来还会减少更多路径。

云原生机器学习外围 PaddleFlow

除了性能加强和改良，百度本次还发表机器学习外围 PaddleFlow 凋谢邀测。PaddleFlow 是首个为专为 AI 平台开发者提供的云原生机器学习外围零碎，人们能够基于它开发出更多细分场景和深度定制的 AI 平台。

依据百度 AI 产品研发部总监忻舟介绍，PaddleFlow 具备三层构造，为开发者提供了资源调度、作业执行与服务部署等 AI 开发平台外围能力，以及敌对的开发接口。

在资源调度层，PaddleFlow 带有 AI 平台运行所需的存储，及计算资源的对立接入 / 调度。反对高性能的 AI 异构计算资源管理，并提供灵便丰盛的资源调度策略，包含拓扑感知、超发抢占、GPU 虚拟化等。它反对常见的各种存储系统的对立对接，还提供了高性能存储中间件来减速 AI 计算时数据拜访的效率。

在作业执行和服务部署层，提供了 AI 平台外围要害能力，从作业调度、工作流调度，到模型的治理以及预测服务的治理，并反对包含飞桨在内的深度学习框架以及算法库，以及常见的 Spark、MPI 等计算类型。

在用户接入层，PaddleFlow 提供易被集成的 REST API、命令行客户端等多种形式，还提供了多租户和根本的认证受权机制，另外对平台管理员反对简略的治理操作，包含工作查看、资源管控等。

百度示意，这一工具性能优异，反对数万算力卡调度、数千并发作业数的大规模并行训练的能力。同时，PaddleFlow 也十分轻量和易于利用，能够实现一键部署装置。针对市场上大多数理论利用条件是单机的状况，PaddleFlow 还对单机部署做了大量优化。

在 AI 畛域最热方向，提出更强技术

飞桨框架 2.1 版中还有几个值得关注的重要新技术。

万亿规模图检索引擎

图神经网络是最近 AI 畛域的热门方向，随着大规模图学习在常识图谱和搜寻举荐畛域的广泛应用，大规模图模型训练更加受到重视。飞桨提供了从分布式数据处理、图检索、前向反向图模型计算、多 server 参数更新的全流程通用分布式能力，造成了大规模图模型训练架构。

对于图检索环节，5 月 20 日，百度正式公布了大规模图检索引擎，将图的邻接表通过双层哈希切分形式寄存到不同 graphserver 上，worker 端申请 graphserver 通过图检索引擎取得子图进行训练。通过 Intel CPU 环境上实测，该引擎不仅反对万亿边图模型训练，也可能很好地反对线性扩大。

据介绍，这项技术已在网易云音乐的主播举荐场景上进行了利用：大规模图检索引擎和飞桨分布式训练技术，胜利撑持了语音主播业务的十亿级边的图模型训练。通过常识迁徙，当初举荐零碎能够无效解决冷启动问题，进步举荐场景中的无效播放率。

文心 ERNIE 开源四大预训练模型

百度也在一直推动着 NLP 模型技术钻研层面的翻新。这一次，文心 ERNIE 语义了解开发套件全新开源公布了 4 大预训练模型：别离是多粒度语言常识加强模型 ERNIE-Gram、超长文本了解模型 ERNIE-Doc、交融场景图常识的跨模态了解模型 ERNIE-ViL 和语言与视觉一体的模型 ERNIE-UNIMO。

常识与深度学习相结合实现的语义了解，不仅仅能了解语言，还能够了解图像，实现对立的跨模态语义了解。

其中，ERNIE-Gram 提出了显式的 n-gram 掩码语言模型，通过引入多粒度语言常识加强预训练模型成果，在 5 项典型中文文本工作效果显著超过业界开源的预训练模型。

ERNIE-Doc 针对篇章长文本建模不充沛问题，提出回顾式建模技术和加强记忆模型机制，在 13 项长文本了解工作上获得了当先成果。

ERNIE-ViL 针对跨模态了解难题，基于常识加强思维，实现了交融场景常识的跨模态预训练，在 5 项跨模态了解工作上获得成果当先。

ERNIE-UNIMO 进一步加强不同模态间的常识交融，通过跨模态比照学习，同时晋升跨模态语义了解与生成、文本了解与生成的成果，在 13 项跨模态和文本工作上实现了测试问题的当先。

打造最强 AI 算力

弱小的 AI 平台不仅须要软件和算法，也须要 AI 芯片的算力，百度飞桨正在与各家芯片厂商进行适配，同时也在钻研下一代计算机架构。

硬件生态成绩：飞桨硬件生态路线图

去年，百度在 Wave Summit 峰会上正式公布了飞桨硬件生态搭档圈，现在已有超过 20 家芯片、服务器、ISV 领导厂商相继退出，已适配的芯片或 IP 达到了 31 款，全面地笼罩了国内外出名硬件厂商。

螺旋桨和量桨的降级

在 2020 年 12 月的 Wave Summit + 峰会上，百度正式公布了生物计算平台「PaddleHelix 螺旋桨」。飞桨也开启了与生物计算的「跨界」之旅。

目前，螺旋桨 PaddleHelix 曾经降级到了 1.0 正式版本，新增了化合物预训练模型 ChemRL。而且 ChemRL 模型曾经利用到了 ADMET、虚构筛选等上游工作：往年 3 月，在国内权威的图神经网络基准 OGB 的 HIV 和 PCBA 两个药物相干的数据集上，ChemRL 取得双冠军。百度也正式开源了 PaddleHelix（https://github.com/PaddlePaddle/PaddleHelix），供更多开发者摸索应用。

经验了一年的倒退，在 2020 年 5 月公布的国内首个量子机器学习开发工具「量桨」取得了又一次降级。量桨与飞桨框架 2.0 及其之后的版本同步更新，整体运行速度失去了大幅晋升，在外围利用场景均匀晋升达到 21.9%，最高晋升达到 40.5%。

其整体性能也失去了进一步增强，适配了近期量子设施，新增量子核办法等特征提取形式。对于难度很大的纠缠提纯工作，量桨新增了最优化量子纠缠解决框架，给出了目前业界最优且可施行的提纯计划。

EasyDL 和 BML 双平台：全面降级

面对各个行业面临的泛滥场景需要，飞桨企业版采纳 AI 开发双平台的模式——EasyDL 零门槛 AI 开发平台和 BML 全功能 AI 开发平台，让不够精通人工智能算法的企业开发者可能像应用家电一样简略的用起 AI，更多的专一于业务场景和翻新。另一方面，AI 技术专家也能够更高效地开发出全新技术，并疾速进行部署。

EasyDL 在数据处理、训练与评估、模型部署及性能优化方面做了 200 多项自动化机制，并基于近期开发者需要的剖析，对场景适配优化和模型评估与诊断做了重点优化。EasyDL 的主旨成为一个提供自动化建模的平台，通过对各个外围环节的技术创新，实现端到端全流程的自动化，让开发者在极简的用户体验下取得高精度的模型成果。

绝对 EasyDL 的零门槛自动化机制，BML 则提供了更多开发模式，让开发者针对不同的场景灵便把握更多环节。比方 Notebook 建模、可视化拖拽建模、预置模型开发和 Pipeline 建模等。

「咱们将飞桨中优良的开发套件，例如 ERNIE、PaddleOCR，以及机器学习的算法以及 AutoDl、VisualDL 等工具组件，联合产业最佳实际，优选出 67 套模型和网络的组合，预置在咱们的平台外面，减速开发，大概能够节俭 80% 的开发工夫。」忻舟说道。

此外，来自成都国铁等企业的嘉宾也现场分享了基于飞桨实现的产业利用实际。

在交通运输畛域，成都国铁已构建起能够全方位、多维度、高频次实现对高速铁路供电设施施行数字化检测 / 监测的自动化零碎。它能够对动车、高铁实现实时的经营查看，又被迁徙至深圳地铁的局部线路。利用嵌入式设施的轻量级算力，初步解决过的数据通过 4G/5G 网络传输到服务器端进行二次检测。边云一体的解决方案，使得地铁车辆能够在失常运行的工夫进行检测，缩小了地铁检修人员熬夜巡检的次数。

15 个亿，10 万家企业，超百万人才

在去年的 WAVE SUMMIT+2020 深度学习开发者峰会上，百度公布了飞桨「大航海」启航打算，围绕高校人才培养，将来三年，投入总价值 5 亿元的资金与资源，反对全国 500 所高校，重点培训 5000 位高校 AI 师资，联结造就 50 万学子。

这一路线，要贯彻到底。在昨天的流动中，百度发表投入更多资金——「大航海」护航打算，以及「大航海」领航打算正式启动。

「大航海」护航打算指的是百度将在将来三年投入 10 亿元资金，从技术赋能、人才赋能、生态赋能全方位反对 10 万家企业智能化降级，与产业界一起造就百万 AI 人才。

「大航海」领航打算面向外围开发者，百度将与社区开发者一起共建开源生态，携手摸索 AI 前沿技术畛域。据理解，目前已认证 120 位 PPDE（飞桨开发者技术专家），飞桨城市 / 高校领航团达到 150 个。

去年启动的「大航海」启航打算，现在在阶段性成绩之上带来了新公布：《AI 人才产教交融造就计划》，致力于构建全面实用的高校 AI 人才培养计划，包含 AI Studio 教学平台、收费算力、产业级案例和数据集、专项单干等。

此外，百度还在流动中举办了「百度奖学金」的颁奖，飞桨和清华大学、吉林大学、郑州大学三大高校翻新守业实验室现场签约，发表在课程共建、赛事单干、人才、产学联合等方面开展单干，独特推动产学研用一体化倒退。

现在，咱们正处于以人工智能为外围驱动力量的第四次工业革命浪潮之中，如何推动人工智能进入工业大生产阶段，成为多方思考的要害命题。如何把 AI 技术的价值带入到企业的生产流动当中，是否存在一条能够参考、能够实际的门路？

百度团体副总裁、深度学习技术及利用国家工程实验室副主任吴甜认为，这条路能够分为三个阶段，第一阶段是企业中有多数后行人员尝试引入 AI，称之为 AI 先行者探路阶段；当进行了验证后，会从集体实际转变成建设团队来学习和利用 AI，称之为 AI 工作坊利用阶段；当企业逐步进行大量的 AI 利用，几百、几千人一起工作，多人多工作协同生产，就进入了 AI 工业大生产阶段，更长期看，还会实现社会化协同生产。

现在人工智能技术在各行业一直浸透，面对不同的利用场景，开发者们提出了更多简单的需要，继续升高门槛是 AI 工具重要的倒退方向。

在解决如何让 AI 变得更简略这个问题上，飞桨从未进行进化：从外围框架、模型库，再到开发套件和工具组件、AI 开发平台，飞桨在技术上一直冲破，在性能上继续丰盛，在服务上更加欠缺，撑持起了越来越多翻新和产业智能化的倒退。

百度飞桨将在 AI 的工业大生产过程中成为至关重要的一环。