关于深度学习:EasyCV开源｜开箱即用的视觉自监督Transformer算法库

一导读

近年来，自监督学习和Transformer在视觉畛域大放异彩。图像自监督预训练极大升高了图像工作沉重的标注工作，节俭大量人力老本，而transormer技术在NLP畛域的巨大成功也为CV模型成果进一步晋升提供了十分大的设想空间。为推动自监督学习和视觉Transformer在阿里团体、阿里云上的落地，阿里云机器学习平台PAI 打造了 EasyCV all-in-one视觉建模工具，搭建了丰盛欠缺的自监督算法体系，提供了成果SOTA的视觉Transformer预训练模型，modelzoo笼罩图像自监督训练、图像分类、度量学习、物体检测、关键点检测等畛域，并且面向开发者提供开箱即用的训练、推理能力，同时在训练/推理效率上也做了深度优化。此外，EasyCV对阿里灵杰零碎做了全面兼容，用户能够十分不便的在阿里云环境下应用EasyCV的全副性能。

在通过阿里外部业务充沛打磨当前，咱们心愿把EasyCV框架推向社区，进一步服务宽广的CV算法开发者以及爱好者们，使其可能十分疾速不便的体验最新的图像自监督以及transformer技术，并落地到本人的业务生产当中。

EasyCV背地的算法框架如何设计？开发者能够怎么应用？将来有哪些布局？明天一起来深刻理解。

二什么是EasyCV

EasyCV是阿里巴巴开源的基于Pytorch，以自监督学习和Transformer技术为外围的 all-in-one 视觉算法建模工具。EasyCV在阿里巴巴团体内撑持了搜寻、淘系、优酷、飞猪等多个BU业务，同时也在阿里云上服务了若干企业客户，通过平台化组件的模式，满足客户自定定制化模型、解决业务问题的需要。

我的项目开源地址：https://github.com/alibaba/Ea…

1 我的项目背景

近两年，基于无标注训练数据的图像自监督预训练技术倒退迅猛，在各个视觉工作的成果上曾经媲美甚至超过需大量标注的有监督训练的成果；另一方面，在NLP畛域大获胜利的Transformer技术在各个图像工作上进一步刷新SOTA成果，其利用呈现出井喷式的暴发。作为二者的联合，自监督视觉Transformer的预训练也应运而生。

业界自监督学习和视觉Transformer算法技术更新迭代十分快，同时也给CV算法开发者带来了诸多困扰，比方相干开源代码零散，实现形式和格调参差不齐导致学习和复现老本过高，训练、推理性能低下等等。阿里云PAI团队通过搭建灵便易用的算法框架EasyCV，体系化地积淀SOTA的自监督算法和Transformer预训练模型，封装对立、简洁易用的接口，针对自监督大数据训练方面进行性能优化，不便用户尝试最新的自监督预训练技术和Transformer模型，推动在业务上的利用和落地。

此外，基于PAI团队多年积攒的深度学习训练、推理减速技术，在EasyCV中也集成了IO优化，模型训练减速、量化裁剪等性能，在性能上具备本人的劣势。基于阿里云的PAI产品生态，用户能够不便地进行模型治理、在线服务部署、大规模离线推理工作。

2 次要个性

丰盛欠缺的自监督算法体系：囊括业界有代表性的图像自监督算法SimCLR, MoCO, Swav, Moby, DINO等，以及基于mask图像预训练方法MAE，同时提供了具体的benchmark工具及复现后果。
丰盛的预训练模型库：提供丰盛的预训练模型，在以transformer模型为主的根底上，也蕴含了支流的CNN 模型, 反对ImageNet预训练和自监督预训练。兼容PytorchImageModels反对更为丰盛的视觉Transformer backbone。
易用性和可扩展性：反对配置形式、API调用形式进行训练、评估、模型导出；框架采纳支流的模块化设计，灵便可扩大。
高性能：反对多机多卡训练和评估，fp16训练减速。针对自监督场景数据量大的特点，利用DALI和TFRecord文件进行IO方面的减速。对接阿里云机器学习PAI平台训练减速、模型推理优化。

三次要技术特点

1 技术架构

EasyCV 底层引擎基于Pytorch，接入Pytorch训练加速器进行训练减速。算法框架局部次要分为如下几层：

框架层：框架层复用目前开源畛域应用较为宽泛的openmmlab/mmcv 接口，通过Trainer管制训练的次要流程，自定义Hooks进行学习率控制、日志打印、梯度更新、模型保留、评估等操作，反对分布式训练、评估。Evaluators模块提供了不同工作的评估指标，反对多数据集评估，最优ckpt保留，同时反对用户自定义评估指标。可视化反对预测后果可视化、输出图像可视化。
数据层：提供了不同数据源(data_source)的形象，反对多种开源数据集例如Cifar、ImageNet、CoCo等，反对raw图片文件格式和TFrecord格局，TFrecord格局数据反对应用DALI进行数据处理减速，raw格局图片反对通过缓存机制减速数据读取。数据预处理(数据加强)过程形象成若干个独立的pipeline，反对配置文件形式灵便配置不同的预处理流程。
模型层：模型层分为模块和算法，模块提供根底的backbone，罕用的loss，neck和各种上游工作的head，模型ModelZoo涵盖了自监督学习算法、图像分类、度量学习、指标检测和关键点检测算法，后续会持续裁减反对更多的high-level算法。
推理：EasyCV提供了端到端的推理API接口，反对PAI-Blade进行推理优化，并在云上产品反对离在线推理。
API层：提供了对立的训练、评估、模型导出、预测的API。

EasyCV反对在本地环境不便的运行和调试，同时，如果用户想跑大规模生产工作，咱们也反对在aliyun PAI产品中不便的进行部署。

2 欠缺的自监督算法体系

自监督学习无需数据标注，比照学习的引入使其成果逐渐迫近监督学习，成为近年来学术界和工业界关注的重点之一。EasyCV囊括了支流的基于比照学习的自监督算法，包含SimCLR、MoCo v1/v2、Swav, Moby, DINO。也复现了基于mask image modeling的MAE算法。此外，咱们提供了欠缺的benchmark工具，进行自监督预训练模型在ImageNet上成果的评估。

基于体系化的自监督算法和benchmark工具，用户能够不便的进行模型改良，成果比照，进行模型翻新。同时也能够基于本人的大量无标注的数据，训练适宜本人业务畛域的更好的预训练模型。

下表展现了已有自监督算法基于ImageNet数据预训练的速度和在ImageNet验证集上linear eval/finetune的成果。

模型	DALITFRecord(samples/s)	JPG(samples/s)	性能晋升	备注
dino_deit_small_p16	492.3	204.8	140%	fp16 batch_size=32×8
moby_deit_small_p16	1312.8	1089.3	20.5%	fp16 batch_size=128×8
mocov2_resnet50	2164.9	1365.3	58.56%	fp16 batch_size=128×8
swav_resnet50	1024.0	853.3	20%	fp16 batch_size=128×8

3 丰盛的预训练模型库

CNN作为骨干网络，配合各种上游工作的head，是CV模型罕用的构造。EasyCV提供了多种传统的CNN网络结构，包含resnet、resnext、hrNet、darknet、inception、mobilenet、genet、mnasnet等。随着视觉Transformer的倒退，Transformer在越来越多的畛域代替CNN，成为表达能力更强的骨干网络。框架实现了罕用的ViT、SwinTransformer等，同时引入了PytorchImageModel(Timm) 用于反对更为全面的Transformer构造。

联合自监督算法，所有的模型反对自监督预训练和ImageNet数据监督训练，为用户提供了丰盛的预训练backbone，用户能够在框架预置的上游工作中简略配置进行应用，同时也能够接入自定义的上游工作中。

4 易用性

框架提供参数化形式和python api接口启动训练、评估、模型导出，并且提供了齐备的预测接口反对端到端推理。

1.# 配置文件形式  
2.python tools/train.py  configs/classification/cifar10/r50.py --work_dir work_dirs/classification/cifar10/r50  --fp16  
3.  
4.  
5.# 繁难传参形式  
6.python tools/train.py --model_type Classification --model.num_classes 10 --data.data_source.type ClsSourceImageList --data.data_source.list data/train.txt

API形式

1.import easycv.tools  
2.config_path = 'configs/classification/cifar10/r50.py'  
3.easycv.tools.train(config_path, gpus=8, fp16=False, master_port=29527)

推理示例

1.import cv2  
2.from easycv.predictors.classifier import TorchClassifier  
3.  
4.output_ckpt = 'work_dirs/classification/cifar10/r50/epoch_350_export.pth'  
5.tcls = TorchClassifier(output_ckpt)  
6.  
7.img = cv2.imread('aeroplane_s_000004.png')  
8.# input image should be RGB order  
9.img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  
10.output = tcls.predict([img])  
11.print(output)

框架目前focus在high-level视觉工作，针对分类检测宰割三大工作，基于内容风控、智能批发、智能监控、同图匹配、商品类目预测、商品检测、商品属性辨认、工业质检等利用场景，基于阿里巴巴外部的业务实际和服务阿里云内部客户的教训，筛选复现成果SOTA算法，提供预训练模型，买通训练、推理以及端侧部署流程，不便用户进行各个场景利用的定制化开发。例如在检测畛域，咱们复现了YOLOX算法，集成了PAI-Blade的剪枝、量化等模型压缩性能，并能导出MNN模型进行端侧部署，具体能够参考模型压缩量化tutorial。

5 可扩展性

1、如技术架构图右侧所示，所有的模块都反对注册、通过配置文件配置应用Builder主动创立，这就使得各个模块能够通过配置进行灵便的组合、替换。上面以model和evaluator配置为例，用户能够简略的通过配置文件批改切换不同的backbone，不同的分类head进行模型结构调整。在评估方面反对用户指定多个数据集，应用不同evaluator进行多指标评估。

1.model = dict(  
2.    type='Classification',  
3.    pretrained=None,  
4.    backbone=dict(  
5.        type='ResNet',  
6.        depth=50,  
7.        out_indices=[4],  # 0: conv-1, x: stage-x  
8.        norm_cfg=dict(type='SyncBN')),  
9.    head=dict(  
10.        type='ClsHead', with_avg_pool=True, in_channels=2048,  
11.        num_classes=1000))  
12.  
13.eval_config = dict(initial=True, interval=1, gpu_collect=True)  
14.eval_pipelines = [  
15.    dict(  
16.        mode='test',  
17.        data=data['val1'],  
18.        dist_eval=True,  
19.        evaluators=[dict(type='ClsEvaluator', topk=(1, 5))],  
20.    ),  
21.    dict(  
22.        mode='test',  
23.        data=data['val2'],  
24.        dist_eval=True,  
25.        evaluators=[dict(type='RetrivalEvaluator', topk=(1, 5))],  
26.    )  
27.]

2、基于注册机制，用户能够自行编写定制化的neck、head、data pipeline, evaluator等模块，疾速注册到框架内，通过配置文件指定type字段进行创立和调用。

1.@NECKS.register_module()  
2.class Projection(nn.Module):  
3.    """Customized neck."""  
4.    def __init__(self, input_size, output_size):  
5.        self.proj = nn.Linear(input_size, output_size)  
6.      
7.    def forward(self, input):  
8.        return self.proj(input)

配置文件如下

1.model = dict(  
2.    type='Classification',  
3.    backbone=dict(...),  
4.    neck=dict(  
5.        type='Projection',  
6.        input_size=2048,  
7.        output_size=512  
8.    ),  
9.    head=dict(  
10.         type='ClsHead',  
11.         embedding_size=512,  
12.         num_classes=1000)

6 高性能
训练方面，反对多机多卡、fp16减速训练、评估。

此外，针对特定工作，框架会做针对性优化，例如自监督训练须要应用大量小图片进行预训练，EasyCV应用tfrecord格局数据对小文件进行封装，应用DALI对预处理进行GPU减速，晋升训练优化性能。下图是应用DALI+TFrecord格局进行训练，和原始图片训练的性能比照。

模型	DALITFRecord(samples/s)	JPG(samples/s)	性能晋升	备注
dino_deit_small_p16	492.3	204.8	140%	fp16 batch_size=32×8
moby_deit_small_p16	1312.8	1089.3	20.5%	fp16 batch_size=128×8
mocov2_resnet50	2164.9	1365.3	58.56%	fp16 batch_size=128×8
swav_resnet50	1024.0	853.3	20%	fp16 batch_size=128×8

测试机型：V100 16GB*8

四利用场景

如开篇所述，EasyCV撑持了阿里巴巴团体内10+BU20+业务，同时通过平台化组件的形式满足了云上客户定制化模型、解决业务问题的需要。

例如某BU应用业务图库100w图片进行自监督预训练，在预训练模型根底上进行上游工作finetune，达到最佳成果，比baseline模型成果晋升1%。多位BU的同学应用自监督预训练模型进行特色抽取，利用比照学习的个性，应用图像特色进行同图匹配的工作，与此同时，咱们在私有云上也推出了类似图匹配的解决方案。

针对私有云用户，对于入门级用户，买通数据标注、模型训练、服务部署链路，打造顺滑的开箱即用的用户体验，涵盖图像分类、物体检测、实例宰割、语义宰割、关键点检测等畛域的算法，用户只须要指定数据，简略调参即可实现模型训练，通过一键部署即可实现在线服务拉起。针对高级开发者，提供了notebook开发环境，云原生集群训练调度的反对，反对用户应用框架进行定制化算法开发，应用预置的预训练模型进行finetune。

私有云某客户利用物体检测组件定制化模型训练，实现其业务场景工人装置是否合格的智能审核。
某举荐用户应用自监督训练组件，应用其大量的无标注广告图片，训练图像表征模型，进而把图像特色接入举荐模型，联合举荐模型优化，ctr晋升10+%。
某面板研发厂商基于EasyCV定制化瑕疵检测模型，实现云端训练、端侧部署推理。

五 Roadmap

后续咱们打算每个月公布Release版本。近期的Roadmap如下：

Transformer 分类工作训练性能优化 & benchmark
自监督学习减少检测&宰割benchmark
开发更多基于Transformer的上游工作，检测 & 宰割
罕用图像工作数据集下载、训练拜访接口反对
模型推理优化性能接入
更多畛域模型的端侧部署反对

此外，在中长期，咱们在上面几个探索性的方向上会继续投入精力，也欢送各种维度的反馈和改良倡议以及技术探讨，同时咱们非常欢送和期待对开源社区建设感兴趣的同行一起参加共建。

自监督技术和Transformer联合，摸索更高效的预训练模型
轻量化Transformer，基于训练推理的联结优化，推动Transformer在理论业务场景落地
基于多模态预训练，摸索对立的transformer在视觉high-level 多任务上的利用
参考链接：

1、模型压缩量化tutorial ：https://github.com/alibaba/Ea…

2、PAI-Blade:

https://www.aliyun.com/activi…

3、类似图匹配解决方案：

https://help.aliyun.com/docum…

4、PAI产品页面：

https://www.aliyun.com/produc…

关于深度学习:EasyCV开源｜开箱即用的视觉自监督Transformer算法库

一导读

二什么是EasyCV

1 我的项目背景

2 次要个性

三次要技术特点

1 技术架构

2 欠缺的自监督算法体系

3 丰盛的预训练模型库

4 易用性

API形式

推理示例

5 可扩展性

四利用场景

五 Roadmap

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于深度学习:EasyCV开源｜开箱即用的视觉自监督Transformer算法库

一 导读

二 什么是EasyCV

1 我的项目背景

2 次要个性

三 次要技术特点

1 技术架构

2 欠缺的自监督算法体系

3 丰盛的预训练模型库

4 易用性

API形式

推理示例

5 可扩展性

四 利用场景

五 Roadmap

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

一导读

二什么是EasyCV

三次要技术特点

四利用场景

发表回复取消回复