简介:深度学习已在面向自然语言解决等畛域的理论业务场景中宽泛落地,对它的推理性能优化成为了部署环节中重要的一环。推理性能的晋升:一方面,能够充分发挥部署硬件的能力,升高用户响应工夫,同时节省成本;另一方面,能够在放弃响应工夫不变的前提下,应用构造更为简单的深度学习模型,进而晋升业务精度指标。导读深度学习已在面向自然语言解决等畛域的理论业务场景中宽泛落地,对它的推理性能优化成为了部署环节中重要的一环。推理性能的晋升:一方面,能够充分发挥部署硬件的能力,升高用户响应工夫,同时节省成本;另一方面,能够在放弃响应工夫不变的前提下,应用构造更为简单的深度学习模型,进而晋升业务精度指标。本文针对地址标准化服务中的深度学习模型发展了推理性能优化工作。通过高性能算子、量化、编译优化等优化伎俩,在精度指标不升高的前提下,AI 模型的模型端到端推理速度最高可取得了 4.11 倍的晋升。1. 模型推理性能优化方法论模型推理性能优化是 AI 服务部署时的重要环节之一。一方面,它能够晋升模型推理的效率,充沛开释硬件的性能。另一方面,它能够在放弃推理提早不变的前提下,使得业务采纳复杂度更高的模型,进而晋升精度指标。然而,在理论场景中推理性能优化会遇到一些艰难。1.1 自然语言解决场景优化难点典型的自然语言解决(Natural Language Processing,NLP)工作中,循环神经网络(Recurrent Neural Network, RNN)以及 BERT[7](Bidirectional Encoder Representations from Transformers.)是两类使用率较高的模型构造。为了便于实现弹性扩缩容机制和在线服务部署的高性价比,自然语言解决工作通常部署于例如 Intel® Xeon®处理器这样的 x86 CPU 平台。然而,随着业务场景的复杂化,服务的推理计算性能要求越来越高。以上述 RNN 和 BERT 模型为例,其在 CPU 平台上部署的性能挑战如下:RNN 循环神经网络是一类以序列(sequence)数据为输出,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。理论应用中常见的 RNN 有 LSTM,GRU 以及衍生的一些变种。在计算过程中,如下图所示,RNN 构造中每一次的后级输入都依赖于相应的输出和前级输入。因而,RNN 能够实现序列类型的工作,近些年在 NLP 甚至是计算机视觉畛域被宽泛应用。RNN 相较于与 BERT 而言,计算量更少,模型参数共享,但其计算时序依赖性会导致无奈对序列进行并行计算。
RNN 构造示意图 BERTBERT[7]证实了可能以较深的网络结构在大型数据集上实现无监督预训练(Unsupervised Pre-training),进而供应特定工作进行微调(finetune)的模型。它不仅晋升了这些特定工作的精度性能,还简化了训练的流程。BERT 的模型构造简略又易于扩大,通过简略地加深、加宽网络,即可取得相较于 RNN 构造更好的精度。而另一方面,精度晋升是以更大的计算开销为代价的,BERT 模型中存在着大量的矩阵乘操作,这对于 CPU 而言是一种微小的挑战。
BERT 模型构造示意图 1.2 模型推理优化策略基于上述推理性能挑战的剖析,咱们认为从软件栈层面进行模型推理优化,次要有如下策略:模型压缩:包含量化、稠密、剪枝等特定场景的高性能算子 AI 编译器优化量化模型量化是指将浮点激活值或权重(通常以 32 比特浮点数示意)近似为低比特的整数(16 比特或 8 比特),进而在低比特的示意下实现计算的过程。通常而言,模型量化能够压缩模型参数,进而升高模型存储开销;并且通过升高访存和无效利用低比特计算指令(如 Intel® Deep Learning Boost Vector Neural Network Instructions,VNNI),获得推理速度的晋升。给定浮点值,咱们能够通过如下公式将其映射为低比特值:其中和是通过量化算法所得。基于此,以 Gemm 操作为例,假如存在浮点计算流程:咱们能够在低比特域实现相应的计算流程:高性能算子在深度学习框架中,为了放弃通用性,同时兼顾各种流程(如训练),算子的推理开销存在着冗余。而当模型构造确定时,算子的推理流程仅是原始全量流程个一个子集。因而,当模型构造确定的前提下,咱们能够实现高性能推理算子,对原始模型中的通用算子进行替换,进而达到晋升推理速度的目标。在 CPU 上实现高性能算子的关键在于缩小内存拜访和应用更高效的指令集。在原始算子的计算流程中,一方面存在着大量的两头变量,而这些变量会对内存进行大量的读写操作,进而拖慢推理的速度。针对这种状况,咱们能够批改其计算逻辑,以升高两头变量的开销;另一方面,算子外部的一些计算步骤咱们能够间接调用向量化指令集,对其进行减速,如 Intel® Xeon®处理器上的高效的 AVX512 指令集。AI 编译器优化随着深度学习畛域的倒退,模型的构造、部署的硬件呈现出多样化演进的趋势。将模型部署至各硬件平台时,咱们通常会调用各硬件厂商推出的 runtime。而在理论业务场景中,这可能会遇到一些挑战,如:模型构造、算子类型的迭代的速度会高于厂家的 runtime,使得一些模型无奈疾速基于厂商的 runtime 实现部署。此时须要依赖于厂商进行更新,或者利用 plugin 等机制实现缺失的算子。业务可能蕴含多个模型,这些模型可能由多个深度学习框架训得,此外模型可能须要部署至多个硬件平台。此时须要将这些格局不同的模型转化至各个硬件平台所需的格局,同时要思考各推理框架实现的不同导致的模型精度性能变动等问题,尤其是像量化这类对于数值差别敏感度较高的办法。AI 编译器就是为了解决上述问题而提出的,它形象出了多个档次来解决上述的一些问题。首先,它承受各个前端框架的模型计算图作为输出,并通过各类 Converter 转化生成对立的两头示意。随后,诸如算子交融、循环展开等图优化 pass 会作用至两头示意,以晋升推理性能。最初,AI 编译器会基于优化后的计算图进行面向特定硬件平台的 codegen,生成可执行的代码,这过程中会引入诸如 stitch、shape constraint 等优化策略。AI 编译器有很好鲁棒性、适应性、易用性,并且可能播种显著优化收益。本文中,阿里云机器学习平台 PAI 团队联结英特尔数据中心软件团队、英特尔人工智能和剖析团队、达摩院 NLP 地址标准化团队,针对地址标准化服务的推理性能挑战,单干实现了高性能的推理优化计划。2. 地址标准化介绍公安政务、电商物流、能源(水电燃)、运营商、新批发、金融、医疗等行业在业务发展的过程中往往波及大量地址数据,而这些数据往往没有造成规范构造标准,存在地址缺失、一地多名等问题。随着数字化的降级,城市地址不规范的问题更加凸显。
地址利用现存问题地址标准化[2](Address Purification)是阿里巴巴达摩院 NLP 团队依靠阿里云海量的地址语料库,以及超强的 NLP 算法实力所积淀出的高性能及高准确率的规范地址算法服务。地址标准化产品从标准地址数据、建设统一标准地址库的角度登程,提供高性能地址算法。
地址标准化劣势该地址算法服务能主动地标准化解决地址数据,可无效地解决一地多名,地址辨认,地址真伪分别等地址数据不标准、人工治理耗时耗力、地址库反复建设问题,为企业,政府机关以及开发者提供地址数据荡涤,地址标准化能力,使地址数据更好的为业务提供反对。地址标准化产品具备如下的几个特点:准确率高:领有海量地址语料库以及超强的 NLP 算法技术,并继续优化迭代,地址算法准确率高超强性能:积攒了丰盛的我的项目建设教训,可能稳固承载海量数据服务全面:提供 20 多种地址服务,满足不同业务场景需要部署灵便:反对公共云、混合云、私有化部署。本次优化的模块属于地址标准化中的搜寻模块。地址搜寻是指用户输出地址文本相干信息,基于地址库和搜索引擎,对用户输出的地址文本进行搜寻和联想,并返回相干趣味点(Point of Interest,POI)信息。地址搜寻性能不仅可能晋升用户数据处理体验,同时也是多个地址上游服务的根底,如经纬度查问、门址标准化、地址归一等,因而在整套地址服务体系中起到了关键作用。
地址服务搜寻体系示意图具体而言,本次优化的模型是基于多任务天文预训练语言模型底座产出的多任务向量召回模型和精排模型。多任务天文预训练语言模型底座在掩码语言模型 (Masked Language Model, MLM) 工作的根底上联合了相干趣味点分类与地址元素辨认(省、市、区、POI 等),并通过元学习(Meta Learning)的形式,自适应地调整多个工作的采样概率,在语言模型中融入通用的地址常识。
多任务地址预训练模型底座示意图多任务向量召回模型基于上述底座训练所得,蕴含双塔类似度、Geohash (地址编码) 预测、分词和 Term Weighting (词权重) 四个工作。
多任务向量召回模型示意图作为计算地址类似度匹配的外围模块,精排模型则是在上述底座的根底上,引入了海量点击数据和标注数据训练训练所得 [3],并通过模型蒸馏技术,晋升了模型的效率[4]。最终用利用于召回模型召回的地址库文档从新排序。基于上述流程训练失去的 4 层单模型可能在 CCKS2021 中文 NLP 地址相关性工作[5] 上取得较 12 层基线模型更好的成果(详见性能展现局部)。
精排模型示意图 3. 模型推理优化解决方案阿里云机器学习平台 PAI 团队推出的 Blade 产品反对以上提及的所有优化计划,提供了对立的用户接口,并领有多个软件后端,如高性能算子、Intel Custom Backend、BladeDISC 等等。
Blade 模型推理优化架构图 3.1 BladeBlade 是阿里云机器学习 PAI 团队(Platform of Artificial Intelligence)推出的通用推理优化工具,能够通过模型零碎联结优化,使模型达到最优推理性能。它有机交融了计算图优化、Intel® oneDNN 等 vendor 优化库、BladeDISC 编译优化、Blade 高性能算子库、Costom Backend、Blade 混合精度等多种优化伎俩。同时,简洁的应用形式升高了模型优化门槛、晋升了用户体验和生产效率。PAI-Blade 反对多种输出格局,包含 Tensorflow pb、PyTorch torchscript 等。对于待优化的模型,PAI-Blade 会对其进行剖析,再利用多种可能的优化伎俩,并从各种优化后果当选取出减速成果最显著的为最终的优化后果。
Blade 优化示意图为了在保障部署成功率的前提下取得最大的优化成果,PAI-Blade 采取了“圈图”的形式进行优化,即:将待优化子计算图中,可能被推理后端 / 高性能算子反对的局部转化至相应的优化子图;无奈被优化的子图回退(fallback)至相应的原生框架(TF/Torch)执行。
Blade 圈图示意图 Blade Compression 是 Blade 推出的面向模型压缩的工具包,旨在帮助开发人员进行高效的模型压缩优化工作。它蕴含了多种模型压缩性能,包含量化、剪枝、稠密化等。压缩后的模型能够便捷地通过 Blade 实现进一步优化,以取得模型零碎联结的极致优化。量化方面,Blade Compression:提供了简洁的应用接口,通过调用几个简略 api,即可实现量化改图、校准(calibration)、量化训练(Quantization-aware Training,QAT)、导出量化模型等步骤。提供了多种后端的反对,通过 config 文件的配置,即可实现面向不同设施、不同后端的量化过程。集成了 PAI-Blade 团队在理论生产业务中自研的各种算法,以取得更高的量化精度。同时,咱们提供了丰盛的原子能力 api,便于对特定状况进行定制化开发。
Blade Compression 示意图 BladeDISC 是阿里云机器学习平台 PAI 团队推出的面向机器学习场景的动静 shape 深度学习编译器,是 Blade 的后端之一。它反对支流的前端框架(TensorFlow、PyTorch)与后端硬件(CPU、GPU),同时也反对推理以及训练的优化。
BladeDISC 架构图 3.2 基于 Intel® Xeon®的高性能算子神经网络模型中的子网络通常具备长期的通用性和普遍性,如 PyTorch 中的 Linear Layer 和 Recurrent Layers 等,是模型建构的根底模块,负责着特定的性能,通过这些模块的不同组合失去不拘一格的模型,并且这些模块也是 AI 编译器重点优化的指标。据此,为了失去最佳性能的根底模块,从而实现性能最佳的模型,Intel 针对 X86 架构对这些根底模块进行了多层次优化,包含使能高效的 AVX512 指令、算子外部计算调度、算子交融、缓存优化,并行优化等等。在地址标准化服务中,常常会呈现 Recurrent Neural Network (RNN) 模型,并且 RNN 模型中最影响性能的模块是 LSTM 或 GRU 等模块,本章节以 LSTM 为例,出现在不定长且多 batch 的输出时,如何实现对 LSTM 的极致性能优化。通常,为了满足不同用户的需要和申请,谋求高性能和低成本的云上服务会将不同的用户申请进行 Batch,以实现计算资源的最大化利用。如下图所示,总共有 3 条曾经被 embedding 的句子,并且内容和输出的长度是不雷同的。
原始输出数据为了使得 LSTM 计算的更高效,须要对 Batched input 采纳 PyTorch 的 pack_padded_sequence()函数进行 padding 和 sort,失去下图所示,一个 paddding 的数据 tensor,一个形容数据 tensor 的 batch size 的 tensor,一个形容数据 tensor 的原始序号 tensor。
LSTM 输出数据到目前为止,曾经筹备好了 LSTM 的输出,对于 LSTM 的计算过程如下图所示,对输出的 tensor 进行分段批量计算,及跳过零值计算。
LSTM 针对输出的计算步骤更深刻的 LSTM 的计算优化如下图 17 所示,公式中的矩阵乘局部进行了公式间计算交融,如下图所示,原先 4 次矩阵乘转换成 1 次矩阵乘,并且采纳 AVX512 指令进行数值计算,以及多线程并行优化,从而实现高效的 LSTM 算子。其中,数值计算指的是矩阵乘和后序的 elementwise 的元素操作,针对矩阵乘局部,本计划采纳的是 oneDNN 库进行计算,库中具备高效的 AVX512 GEMM 实现,针对 elementwise 的元素操作,本计划对其采纳 AVX512 指令集进行算子交融,晋升了数据在缓存中的命中率。
LSTM 计算交融 [8]3.3 推理后端 Custom BackendIntel custom backend[9] 作为 Blade 的软件后端,强有力地减速着模型量化和稠密的推理性能,次要蕴含三个层面的优化。首先,采纳 Primitive Cache 的策略对内存进行优化,其次,进行图交融优化,最初,在算子层级,实现了蕴含稠密与量化算子在内的高效算子库。
Intel Custom Backend 架构图低精度量化稠密与量化等高速算子, 得益于 Intel® DL Boost 减速指令集,如 VNNI 指令集。
VNNI 指令介绍上图为 VNNI 指令, 8bits 能够应用 AVX512 BW 三个指令来减速, VPMADDUBSW 先对 2 对由 8bits 组成的数组做乘法与加法, 失去 16bits 数据, VPMADDWD 将相邻数据加总起来, 失去 32bits 数据, 最初 VPADDD 加上一个常数, 此三函数可组成一个 AVX512_VNNI,此指令可用来减速推理中的矩阵相乘。图交融除此之外,Custom Backend 中也提供了图交融,例如矩阵相乘后不输入两头态长期 Tensor,而是间接运行前面指令,行将后项的 post op 与前级算子进行交融,如此缩小数据搬运以缩小运行工夫,下图为一个范例,红框内的算子交融后可打消额定的数据搬移,成为一个新的算子。
图交融内存优化内存调配与开释会与操作系统进行通信,从而导致运行时的延时减少,为了缩小这部分的开销,Custom Backend 中减少了 Primitive Cache 的设计,Primitive Cache 用于缓存曾经被创立的 Primitive,使得 Primitive 不能被零碎回收,缩小了下一次调用时的创立开销。同时为耗时较大的算子建设了快取机制,以减速算子运行,如下图所示:
Primitive Cache 量化性能如之前所说,模型大小减小后,计算与存取的开销大幅缩小,从而性能失去微小的晋升。4. 整体性能展现咱们选取了地址搜寻服务中典型的两个模型构造来验证上述优化计划的成果。测试环境如下所示:服务器型号:阿里云 ecs.g7.large,2 vCPU 测试 CPU 型号:Intel® Xeon® Platinum 8369B CPU @ 2.70GHz 测试 CPU 核数:1 vCPUPyTorch 版本:1.9.0+cpuonnx 版本:1.11.0onnxruntime 版本:1.11.14.1 ESIMESIM[6]是一种专为自然语言推断而生的加强版 LSTM,它的推理开销次要来自于模型中的 LSTM 构造。Blade 利用 Intel 数据中心软件团队开发的高性能通用 LSTM 算子对其进行减速,替换 PyTorch module 中的默认 LSTM (Baseline)。本次测试的 ESIM 中蕴含两种 LSTM 构造,单算子优化前后的性能如表所示:LSTM 构造输出 shape 优化前 RT 优化后 RT 减速比 LSTM – A7x2000.199ms0.066ms+3.02x 202×2000.914ms0.307ms+2.98xLSTM – B70x500.266ms0.098ms+2.71x 202×500.804ms0.209ms+3.85xLSTM 单算子优化前后推理性能优化前后,ESIM 端到端推理速度如表 所示,同时优化前后模型的精度放弃不变。模型构造 ESIM[6]ESIM[6]+Blade 算子优化减速比 RT6.3ms3.4ms+1.85xESIM 模型优化前后推理性能 4.2 BERTBERT[7]近年来在自然语言解决 (NLP)、计算机视觉(CV)等畛域被宽泛驳回。Blade 对该种构造有编译优化(FP32)、量化(INT8)等多种手段。速度测试中,测试数据的 shape 固定为 10×53,各种后端及各种优化伎俩的速度性能如下表所示。能够看到,blade 编译优化后或 INT8 量化后的模型推理速度均优于 libtorch 与 onnxruntime,其中推理的后端是 Intel Custom Backend & BladeDisc。值得注意的是,通过量化减速后的 4 层 BERT 的速度是 2 层 BERT 的 1.5 倍,意味着能够在提速的同时,让业务用上更大的模型,取得更好的业务精度。模型构造 RT 减速比(相较 FP32 libtorch)libtorchonnxruntimeBlade 地址 - 2 层 BERT FP3217.9ms17.5ms14.0ms(编译优化)1.28x 地址 - 4 层 BERT FP3237.0ms34.5ms28.0ms(编译优化)1.32x 地址 - 4 层 BERT INT821.9ms26.6ms9.0ms(量化)4.11x 地址 BERT 推理性能展现精度方面,咱们基于 CCKS2021 中文 NLP 地址相关性工作 [5] 展现相干模型性能,如下表所示。达摩院地址团队自研的 4 层 BERT 的 macro F1 精度要高于规范的 12 层 BERT-base。Blade 编译优化能够做到精度无损,而通过 Blade Compression 量化训练后的实在量化模型精度要略高于原始浮点模型。模型构造 macro F1(越高越好)12 层 BERT-base77.24 地址 - 4 层 BERT78.72(+1.48)地址 - 4 层 BERT + Blade 编译优化 78.72(+1.48)地址 - 4 层 BERT + Blade 量化 78.85(+1.61)地址 BERT 相干精度后果参考文献[1] https://help.aliyun.com/docum…[2] https://www.aliyun.com/produc…[3] Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks (Thakur et al., NAACL 2021)[4] Rethink Training of BERT Rerankers in Multi-stage Retrieval Pipeline (Gao et al., ECIR 2021)[5] https://tianchi.aliyun.com/co…[6] Enhanced LSTM for natural language inference[J] (Chen Q, Zhu X, Ling Z, et al., ACL 2017)[7] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin J, Chang M W, Lee K, et al., ACL 2019)[8] https://pytorch.org/docs/stab…[9] https://github.com/intel/neur… 统稿作者:陈博华本文由阿里云机器学习平台 PAI 团队联结英特尔数据中心软件团队、英特尔人工智能和剖析团队、达摩院 NLP 地址标准化团队相干我的项目组成员独特参加编写。原文链接:https://click.aliyun.com/m/10… 本文为阿里云原创内容,未经容许不得转载。