关于人工智能:4项探索4项实践带你了解华为云视觉预训练研发技术

摘要：本文次要讲述云原生时代华为云在 AI 根底钻研、视觉预训练模型研发和行业实际，以及 AI 开发平台 ModelArts 的最新进展。

近日，在 Qcon 寰球软件开发大会（深圳站）上，华为云人工智能畛域首席科学家、IEEE FELLOW 田奇博士，发表了“云原生时代，视觉预训练大模型摸索与实际”的主题演讲，介绍了云原生时代华为云在 AI 根底钻研、视觉预训练模型研发和行业实际，以及 AI 开发平台 ModelArts 的最新进展。

以下是田奇博士演讲要点：

随着企业数字化的转型，传统企业已基本上将业务从线下搬到了云上。其中，第一个阶段是将企业的业务简略地部署到云上，咱们能够称之为 ON CLOUD，在这种状态下，通过资源池化，解决了 IDC 时代运维、部署、扩容的难题。然而，传统办法的过于厚重、烟囱式的架构，导致云对业务的价值还仅仅停留在资源供应阶段，未充分发挥出云计算的后劲。随着企业的数字化建设逐渐迈入智能化阶段，企业须要充分利用云计算带来的红利，就须要让其业务能力内生于云，由当初的 ON CLOUD 进阶到 IN CLOUD 阶段，即基于云的技术架构来构建企业业务，通过构建多云、多核心的分布式架构以及麻利、智能的企业数字化业务，将企业的数字化建设带入智能化新阶段。此时，云对业务的价值不再是简略的资源供应，还可能以利用为核心，为业务赋能。

华为云提供了一站式的 AI 开发平台，减速行业 AI 落地，践行普惠 AI。华为云对 AI 平台打造了四层体系，第一层是智能体；第二层是常识计算解决方案；第三层是 ModelArts Pro，针对业余利用开发套件；第四层是 ModelArts Fundamental。对于一站式的 AI 开发平台，次要聚焦在模型高效、数据高效以及常识高效。这些弱小的 AI 服务，底层都是基于云原生容器的 Volcano 高效能调度引擎，而 Volcano 调度引擎将训练任务的效率晋升了 50%。

华为云长期扎根 AI 技术根底钻研，在计算机视觉、语音语义、决策优化三个方向做了深刻摸索与钻研。为此，咱们针对数据、模型和常识提出了六个子打算。其中，针对模型蕴含两个打算，一个是针对大模型的模型摸高打算，提供极致的性能；第二是针对小模型的模型瘦身打算。针对数据提出了两个打算，一个是解决多模态的数据魔方打算；另一个是针对小样本学习的数据冰山打算。最初针对常识的高效提取，咱们提出了两个打算：建造通用 AI 零碎的万物预视打算以及学习一种新范式的虚实合一打算。在这些打算中，咱们始终聚焦在模型高效、数据高效、常识高效等重点方向上。对于自主研发的一些新技术，比方主动学习、常识蒸馏、预训练模型等等，都会以即插即用的形式部署到华为云线上，助力 AI 行业落地。

在泛滥 AI 畛域中，计算机视觉具备宽泛的落地场景，在智能汽车、智能手机、无人机、智能眼镜等利用都有计算机视觉算法的身影。这些年随着计算能力和 5G 通信技术的极大进步，以计算机视觉为代表的少量 AI 技术，已逾越了晚期仅在钻研畛域获得停顿的阶段，过渡到了与社会环境协同倒退、独特促成的阶段。将来视觉 AI 技术会在千行百业进行落地，比方政府、医疗、工业、能源、交通、物流、金融等等。然而，技术落地也面临着微小的挑战，因为 AI 利用的碎片化、定制化等因素，极大地限度了 AI 在实在环境下的落地部署。为了解决应答 AI 碎片化等问题，咱们提出了预训练大模型的解决方案，心愿能用大量无标注的数据和更大的模型来实现更通用的 AI 零碎。

在自然语言解决畛域，这两年大规模预训练模型获得了突破性停顿，然而预训练模型对算力有极大的需要，而且咱们预计更大规模、更大参数的模型还会持续呈现。因而，受到自然语言解决中预训练模型的启发，在计算机视觉中咱们也心愿构建通用的 AI 零碎，为上游各种视觉工作提供一个高效的初始化模型。

当初支流的学习形式有两种，一种是监督学习，一种是强化学习。监督学习须要海量标注样本，泛化能力绝对比拟弱，另一种是强化学习，强化学习须要海量的试错，同样不足通用零碎所须要的可适用性、可重复性以及鲁棒性。咱们认为，自监督学习是迈向常识学习的关键步骤，然而目前自监督学习在视觉工作中的利用还不够成熟。过来，在数据标注、模型训练和输入阶段，别离要做大量的反复工作。将来，咱们心愿能够对计算机视觉或者自然语言解决工作构建一个通用预训练模型，仅通过上游大量的标注样本进行微调就能够高效实现工作，从而大量节约开发成本。

接下来的报告，我会介绍一下咱们在预训练模型方面的工作，次要是在自监督学习过程中预训练模型的一些停顿。

自监督学习因为不须要任何人工标注便可能学习图像的外在表征，近年来受到了业界的极大关注。在没有人工标注的情景下，自监督学习须要事后设定一些预训练任务辅助模型学习。2016 年以前，一些预训练任务推动该畛域呈现了一些大的停顿。自监督学习次要分为两种，一种是生成式，一种是比照式，近几年最新的一些工作大多是基于实例辨别的比照学习。

基于实例辨别的比照自监督学习在最近几年获得了极大的停顿，在一些工作上刷新了现有自监督预训练任务的 SOTA 后果。最近咱们在比照自监督学习方面有两项优化工作，首次实现了在 ImageNet 线性分类工作中达到全监督基线性能，并且在小样本分类上大大超越了之前的办法。然而，现有的自监督预训练模型依然处于摸索阶段，存在大量的问题未可能解决：现有的自监督预训练算法迭代迟缓，很难复制到大模型以及超大规模数据集；另外，相较于全监督学习，其特色表白在大多数上游工作上仅仅能取得与之相比较的后果，其进一步的性能劣势还有待开掘。因而，如何利用自监督学习在超大数据汇合，超大模型上获取更强的泛化性能将会是将来的倒退方向。

在这里，介绍一下咱们最新的几个工作，在比照自监督学习框架下，咱们提出了基于邻域放弃的混合图像增强，在业界首次提出了利用不同图像数据加强策略晋升其泛化性能。过来，比照学习通常利用同一样本的不同数据加强生成正样本汇合，并且把其余样本均视为负样本的策略，将样本特色的间隔拉近或者拉远作比照学习工作，而咱们首次提出了选取不同正样本的办法。同时，提出了基于部分畛域混合加强的技术，把多个类似样本的特色拉近，不同样本的间隔拉远。咱们的办法在 ImageNet 线性分类评估上，TOP- 1 的精度达到了 75.5% 准确率，离监督学习基线 76.5% 仅仅差了 1 个百分点。通过对预训练模型在小样本标注数据上进行微调（1% 和 10% 标注的数据），咱们的精度达到了最好的后果。

接下来介绍一个咱们往年刚刚实现的工作，基于等级化语义汇集的比照自监督学习框架。在上述工作的根底上，咱们进一步发现即便显示地拉近语义相似性样本，特色表白的可拆散个性并没有达到咱们的预期指标，这限度了其泛化表征能力。自监督学习依然存在优化艰难，收敛速度慢等问题，为此，咱们做了两点改良，第一，咱们拓展了自监督学习算法中正样本数目，使得正样本汇合可能更加高效的被汇集，同时防止受大量负样本优化的影响。第二，咱们在浅层特色上引入比照自监督学习，通过精心设计的浅层优化指标减速训练过程，在浅层特色上实现了更好的可分离性，咱们发现这些劣势对小样本学习有极大的晋升。从后果来看，咱们在线性分类工作中达到了 76.4% 的精度，首次达到了和全监督基线相比较的性能，而且通过将预训练模型在小样本标注数据上进行微调，在之前的后果上又得达到了新的 SOTA，特地地，仅仅应用 10% 标注，咱们在 ImageNet 分类上达到了 75.1% 的 TOP- 1 精度。

上述两项工作都是在没有任何标签设置下实现的，更进一步，咱们摸索了如何把比照学习和数据标签高效地联合起来，通过引入图像实在标签来辅助比照学习，咱们认为应该将自监督学习失去的表观特色和监督学习的语义特色相结合，它的实质是把表观类似和语义类似的样本间隔拉近，将不类似样本的间隔推远。从后果上看，这个工作在各个上游工作中（比方检测、语义宰割、实例宰割）的体现全面超过了以往的自监督和全监督的泛化能力。

华为云的第二个外围钻研方向是如何设计高效的视觉辨认模型，即模型高效。在这个方向次要聚焦两个方面，第一是如何设计神经网络模型，第二是在神经网络架构搜寻中，如何在原子算子层面上进行搜寻。对于神经网络模型设计，最后的形式都是手工设计的，这种形式通过高速倒退后，也进入了一个瓶颈，因而从 2017 年开始，主动的神经网络架构搜寻经验了一个迅猛发展的过程，也获得了一些可喜的问题。然而搜寻出的网络也面临几个问题，第一个问题，搜寻空间依然是手工定义的；第二个，搜寻的卷积算子是人工定义的，而且相比于手工设计的网络，搜寻的网络可迁移性也是比拟差的。

咱们在网络架构搜寻上第一个工作是 P -DARTS，提出渐进的可微分网络架构搜索算法。之前的网络架构搜寻面临着搜寻网络和测试网络深度不一样的问题，在较浅的搜寻网络中搜寻进去的架构并不适宜较深的测试网络。晚期的办法间接加深搜寻的深度，然而会造成显存爆炸的问题，并且导致搜寻不稳固。为了解决这个问题，咱们提出了两个思维，一个是搜寻空间近似，第二个是搜寻正则化。搜寻空间近似，是指采纳渐进搜寻策略，逐步加深搜寻的深度；同时进行链接权重的学习，把权重比拟小的链接运算都扔掉，这样缩小了搜寻空间。搜寻正则化次要是对搜寻失去的一些 skip connect 的数量上的限度。从后果上看，咱们把 P -DARTS 搜寻的网络迁徙到 ImageNet 上，在 ImageNet 分类工作上与基线办法相比进步了两个百分点。P-DARTS 网络搜索算法是在 P100 上实现的，大略须要 0.3 个 GPU-days。与去年同期的 DARTS 工作进行大抵的比拟，它的搜寻工夫是 4 个 GPU-days，而在性能和速度都有超过的状况下，咱们的办法只须要 0.3 个 GPU-days。咱们在架构搜寻上的第二个工作是 PC-DARTS，这是业界搜寻速度最快的网络架构办法之一，其次要思维有两个，一个是采纳部分连贯的思维来解决网络冗余的问题，第二个是采纳边正则化的思维来解决网络搜寻稳定性的问题。并且，这个工作首次在大规模图像数据集 ImageNet 上进行了神经网络架构搜寻。

咱们最新的一个相干工作是 GOLD-NAS，渐进剪枝的单阶段可微分搜索算法。这个算法次要的一个奉献是它突破了传统可微分搜寻空间的诸多限度，因而大大增加了搜寻空间的容量，并提出了单阶段优化策略和渐进剪枝的优化策略。从后果上看，在扩充的搜寻空间中，算法不仅可能找到相对性能更强的网络，也能找到具备更高性价比的网络。

咱们第四个工作是卷积搜寻，提出对卷积操作进行搜寻，以后的模型搜寻都是采纳一些固定的卷积操作，比方 1×1、3×3 的卷积，这种形式限度了模型的性能。因而，为了将卷积的设计也纳入搜寻的范畴，这个工作提出了针对点云工作的基于数据驱动的模型搜寻，同时对卷积的构造也进行了搜寻，未来将进一步扩大到传统的图像畛域。

咱们最近两年在计算机视觉三大顶会 CVPR、ICCV、ECCV 大略发表了近百篇文章，根本进入视觉钻研畛域第一梯队，极大地提高了华为在计算机视觉畛域的国内竞争力，同时有一些工作也取得了最佳论文和最佳论文提名。而且最新的算法曾经逐步部署到华为的一站式 AI 开发平台，在一些行业失去了宽泛的利用，上面再介绍一下视觉工作的停顿和在行业的实际。

第一个停顿是图像分类技术，在 ImageNet 上，往年咱们的分类准确率达到了 85.8%，而之前谷歌最好的精度是 85.5%。从往年 3 月份以来，咱们在这方面始终放弃着领先水平。

第二个停顿是弱标注场景下的图像分类技术。在 WebVision 大规模弱标注的网络图像分类较量中，大概有 5000 个类别的 1600 万张图像，有 90 多支参赛队伍竞争，华为云在分类准确率上获得了业界第一的程度。咱们把图像分类技术利用到了一些传统行业，比方米旗蛋糕店。后果上看，咱们的技术让商品整盘识别率达到了 99% 以上的精度。另外，咱们的模型训练工夫小于一天，因而每天都能够进行模型更新，商品的辨认工夫也小于 1 秒。

第三个停顿是图像检测、宰割技术，在业界权威的指标检测数据集 MS-COCO 数据集上，不论是单模型还是多模型，咱们都获得了往年业界第一的问题。咱们将检测、宰割技术用到了医疗智能体，在往年新冠肺炎 AI-CT 辅助筛查中实现了主动智能检测，而且曾经在各大医院胜利部署。

咱们第四个停顿是多模态数据处理技术，绝对于单模态，多模态具备人造的互补劣势，比方在无人驾驶中除了图像的输出，还有激光雷达信号、GPS、图像宰割的数据。在最权威的三维指标检测 NuScenes 数据上，咱们提出的技术也获得了十分好的问题，咱们的后果比第二名当先了 3.1%。同时咱们将多模态解决技术用在了深圳交通智能体上，实现对红绿灯管制的智能化，在交通总量雷同的状况下将均匀通行车速进步了 15%，将均匀等待时间、延误工夫降落了 17.7%。

最初介绍一下华为云一站式 AI 开发治理平台 ModelArts。ModelArts 有两个不同档次的版本，一个是 ModelArts Fundamental，一个是 ModelArts Pro。依据华为云在十多个行业长年的技术积攒，ModelArts Pro 开发平台次要提供五大类的业余利用开发套件，包含文字辨认套件、视觉套件、常识图谱套件、多模态开发套件、自然语言解决套件，还提供了四十多个行业级的高精度预置的算法，蕴含数据筹备、数据处理、模型设计、模型治理及部署等等。

以上是华为云在视觉预训练模型上的一些根底钻研最新进展和行业实际的案例，以及在华为云 AI 开放平台积淀的一些工作。谢谢！

点击关注，第一工夫理解华为云陈腐技术~

关于人工智能:4项探索4项实践带你了解华为云视觉预训练研发技术

一站式 AI 开发平台，减速行业 AI 落地，践行普惠 AI

华为云 AI 根底研究进展

视觉预训练大模型钻研和实际

Just My Socks（注册教程内含优惠码）

关于人工智能:4项探索4项实践带你了解华为云视觉预训练研发技术

一站式 AI 开发平台，减速行业 AI 落地，践行普惠 AI

华为云 AI 根底研究进展

视觉预训练大模型钻研和实际

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）