作者：张伟辰(璟铭)

随着手机性能的一直晋升，在手机端进行简单的AI计算曾经成为各大厂商的外围倒退方向，在此之上产生了大量的端智能利用。这种端侧AI计算的模式，使得大量关涉时效性、老本和隐衷思考的场景实现变成了可能。在这里，咱们以宽泛应用的文字辨认技术（OCR）为例，介绍一下蚂蚁自研挪动端OCR技术（xNN-OCR）。

背景介绍

文字辨认技术是计算机视觉畛域中历史悠久、利用宽泛的一个钻研方向，特地是随着深度学习技术的倒退，其能力空间不断扩大。相比云端计算形式，挪动端OCR算法可在离线状况下实现图片中文字提取，对于实时性、隐衷爱护和老本要求高的场景，有着很大的利用价值。另一方面，基于深度学习的OCR模型越来越简单，通常具备几十M的参数量以及几百GFlops的计算量，如何在手机无限的计算资源下，实现OCR模型运行是一个极具挑战的工作。在支付宝中，咱们联合自研的端侧推理引擎xNN和利用算法的深度优化，研发了又小、又快、又准的xNN-OCR技术产品，从2018年上线到银行卡号辨认场景开始，陆续撑持了数十个外围业务的技术升级。本文咱们将给大家残缺的开展xNN-OCR的技术演进和能力凋谢状况。

xNN-OCR技术演进

一个端侧模型研发须要经验上面的几个流程：训练数据获取和标注、网络结构设计、训练调参、端侧移植和端侧部署，各个环节互相关联也相互影响。在根底算法方面，xNN-OCR经验了小字库、大字库到基于异构计算的三个模型研发阶段。咱们将从外围的数据、网络设计和模型压缩层面别离介绍最新成绩。

数据生成

数据像弹药一样，很大水平决定了模型的成果，特地是文字辨认场景。中文的组合变幻无穷，很多场景很难获取到足够的理论数据。针对这个问题，咱们摸索了基于GAN技术的文字生成技术。在网络设计上，背景提取、文本提取和字体提取的三个编码器别离提取出对应的特色信息，通过字体迁徙和背景交融，实现从源文本内容到指标字体与背景的交融。在训练过程中，除了惯例的生成和反抗损失外，还退出了辨认损失函数监督合成的内容是否正确。同时，咱们为了将已有的实在数据应用起来，在训练链路退出Cycle-Path，晋升整体数据生成成果。采纳这种形式合成的卡证数据，只采纳本来10%的数据量，就能够达到采纳100%实在数据的辨认精度。

xNN-OCR网络架构

有了数据之后，下一步就是模型设计，这里次要介绍xNN-OCR算法中次要的文字行检测、文字行辨认和结构化三个局部。

文本检测算法

相比于通用物体检测工作，文本检测工作具备大宽高比和歪斜框的特点。针对这两个问题，传统的Anchor-based的检测计划须要配置十分大量的Anchor，带来计算量的回升。因而咱们设计了一个轻量级的检测网络，其中骨干网络基于ShuffleNet的设计思维，采纳多层Shuffle构造，网络头部采纳Pixel-based的密集预测形式，每个输入图的像素点都会输入类别和框地位回归，通过交融后处理之后失去最终检测后果。为了适应端侧计算环境，通常图输出的分辨率不会过大，带来小指标易失落和长指标边界不准的问题。咱们在训练时采纳Instance-balancing + OHEM的形式解决小指标失落问题，在预测时采纳加权交融NMS的形式解决边框预测不准的问题，获得了性能和精度的大幅度晋升。

文本辨认算法

文字行检测后，对于内容的辨认通常采纳CRNN的构造，在之前工作的根底上，咱们针对骨干网络和网络head设计做了进一步的降级。为了失去一个高性能轻量骨干网络，咱们通过NAS面向文本辨认场景设计了相应的搜寻策略，搜寻出指标数据集上性价比最高的网络结构参数。对于CRNN的构造，咱们发现模型head局部计算量十分大，占到整体计算量50%以上，这次要是因为Softmax分类的One-hot的稠密编码方式导致。咱们通过将浓密的Hamming编码方式与CRNN模型联合，Head局部耗时相比本来的Softmax分类计划降落约70%。

文字结构化

文字结构化指的是输入文字对应的构造信息，例如卡证场景中将OCR算法后果整顿为Key-Value的输入格局。传统的结构化办法通常是基于文本地位和辨认后果设计规定，调试较为简单，并且工程上须要针对不同卡证别离开发解决逻辑，部署和保护老本高。咱们从文本行检测动手，提出Instance检测算法进行卡证结构化。简略来讲，就是在检测网络头部减少文本框的类别信息进行学习，在结构化时间接将文本框的辨认内容与类别对应起来。这种办法能够节俭辨认运算耗时，简化上线调试部署流程，同时因为模型学习了字段间的隐含关系，晋升了整体的辨认精度。

模型压缩

为了晋升端侧模型研发性能和成果，xNN在之前基于已有构造进行轻量化的根底上，自研了xNAS算法工具，提供模型构造搜寻能力。在支流NAS搜寻框架根底上，xNAS扩大了端侧模型关怀的计算量和硬件耗时等因素，联合超参搜寻(HPO)、Multi-Trial NAS、One-Shot NAS等算法，搜寻最优的挪动端模型构造。在OCR的场景，咱们重点针对辨认网络应用了NAS的计划，通过对每个Channel和卷积层数进行搜寻，使模型升高了70%的计算量并有2%的精度晋升。

在模型压缩方面，剪枝、浮点量化、定点化性能对于推理性能晋升至关重要，特地是定点化能力，可无效升高模型尺寸和运行耗时。为解决在OCR场景中定点参数难确定导致的精度问题，xNN联合NAS思维提出qNAS算法，无效晋升了定点化精度。咱们对文本检测和辨认模型进行了qNAS量化训练，在精度降落不到1%的状况下，模型包大小降落至本来1/4左右，端侧CPU上运算时耗降落约50%。

xNN-OCR 性能精度

在根底模型研发的根底上，咱们将能力逐渐的笼罩到了大多数OCR利用场景，包含通用OCR辨认以及各种卡证类辨认，在保障较高精度的同时，能够在挪动端计算平台上达到近似实时运算的性能，具体指标如下(耗时为高通855上CPU单线程运算耗时)：

能力凋谢

xNN-OCR作为蚂蚁自研的挪动端OCR技术，实现了OCR辨认像扫码一样顺畅。目前在支付宝端内，曾经宽泛应用在平安风控、证件上传和数字金融等外围利用场景。为了让更多用户和内部业务可能应用到xNN-OCR，咱们在支付宝端内通过小程序插件的形式提供给内部开发者应用。支付宝外的用户能够用过蚂蚁mPaaS产品和阿里云视觉开放平台以离线SDK模式接入。

支付宝小程序接入可参考：https://forum.alipay.com/mini-app/post/29301014
支付宝外应用可通过钉钉群（23124039）征询mPaaS产品或者拜访阿里云视觉开放平台接入离线SDK。

为了不便宽广开发者体验，咱们将已有的插件聚合在了“小程序体验核心“，可通过支付宝扫描上面的二维码进行体验。

关注【阿里巴巴挪动技术】，每周 3 篇挪动技术实际&干货给你思考！

关于ocr:蚂蚁自研移动端-xNNOCR-技术演进与能力开放

背景介绍

xNN-OCR技术演进

数据生成

xNN-OCR网络架构

文本检测算法

文本辨认算法

文字结构化

模型压缩

xNN-OCR 性能精度

能力凋谢

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于ocr:蚂蚁自研移动端-xNNOCR-技术演进与能力开放

背景介绍

xNN-OCR技术演进

数据生成

xNN-OCR网络架构

文本检测算法

文本辨认算法

文字结构化

模型压缩

xNN-OCR 性能精度

能力凋谢

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复