关于人工智能:知识AI融合创新探索华为云论文被AI顶级学术期刊IEEE-TPAMI接受

摘要：通过利用物体类别之间存在的层级关系束缚，主动学习从数据中抽取辨认不同类别的规定，一方面对模型的预测过程进行解释，另一方面也提供了一条引入人工先验常识的可行路径。

前言

受害于深度学习技术的冲破，图像分类、物体检测等传统计算机视觉工作的精度也失去了大幅度的晋升。然而因为深度学习模型的复杂性，目前对于深度学习的实践并不欠缺，这就导致了两大问题：第一，模型的工作机制对使用者来说并不通明，人们无法解释模型辨认正确或谬误的起因，因而也就无奈从实践上证实模型在理论利用中是否可能达到好的成果，从而在肯定水平上妨碍了模型在一些性命攸关的畛域中利用（如医疗影像剖析、主动驾驶等）；第二，简直齐全基于数据驱动的形式学习模型参数，难以将人们长期以来总结造成的教训和常识融入模型，从而难以对模型学习过程施加无效的束缚，使模型在小训练样本、零训练样本等实在条件下的精度远低于人类。

人工智能畛域顶级学术期刊IEEE Transactions on Pattern Analysis and Machine Intelligence（即IEEE TPAMI，影响因子17.861）最近接管的论文“What is a Tabby? Interpretable Model Decisions by Learning Attribute-based Classification Criteria“中，华为云联结中科院计算所，针对上述两个问题提出了一种探索性的解决方案，通过利用物体类别之间存在的层级关系束缚，主动学习从数据中抽取辨认不同类别的规定，一方面对模型的预测过程进行解释，另一方面也提供了一条引入人工先验常识的可行路径。

首先，咱们通过一组简略的例子来看一下分类学家是如何对动物进行分类的（来自维基百科）：

（1）“虎斑猫”是一种体表有条纹、斑点、线条、螺旋图案的“家猫”。

（2）“家猫”是一种小型的、通常体表有皮毛的、肉食性的、被驯化的“猫科动物”；

（3）“猫科动物”是一种具备伸缩自如的爪子、苗条但肌肉健壮的躯体、灵便的前肢的“食肉动物”。

图1. 类别层级构造示意

从上边的例子能够看进去，分类学家在对动物进行分类的时候，采纳了一种层级化的形式，在层级中，每个类别都被示意成“父类 + 一些特定属性”的模式，比方有条纹、有斑点、有线条、有螺旋，就是“虎斑猫”相比它的父类“家猫”多进去的属性。

实际上，如果对层级做一些压缩操作，每个类别都能够齐全用一组特定属性来示意。以“虎斑猫”这个类别为例，通过一级压缩：“虎斑猫”是一种小型的、肉食性的、被驯化的、体表有带条纹、斑点、线条、螺旋图案皮毛的“猫科动物”。能够看到，通过一级压缩后，“虎斑猫”就能够通过“父类的父类 + 更多的属性”来示意了。更进一步，如果通过两级压缩：“虎斑猫”是一种小型的、肉食性的、被驯化的、具备伸缩自如的爪子、苗条但肌肉健壮的躯体、灵便的前肢的、体表有带条纹、斑点、线条、螺旋图案皮毛的“食肉动物”。能够看到，通过两级压缩后，“虎斑猫”就能够通过“父类的父类的父类 + 更多的属性”来示意了。

以此类推，如果始终将这个压缩的过程进行上来，“虎斑猫”就能够通过“动物 + 虎斑猫具备的全副属性” 这种形式来示意了。对于其余动物来说，也是相似的，每种动物都能够示意为“动物 + 这种动物具备的全副属性”。因为每种动物的示意中都含有“动物”这个公共的组成部分，能够将每种动物的示意模式都简化为“这种动物具备的全副属性”。相似的，对于“动物”、“人造物”等等所有物体，都能够齐全用一组属性来示意。因而，只有属性定义足够好，齐全通过属性就能够精确地区分进去所有可能见到的类别，并且这种分类形式的可解释性十分好，也能够轻松地将新的人工先验常识引入进来。

然而理论中，因为类别数量微小、海量属性难以定义，不可能通过人工的形式对每个类别的属性进行定义。那么有什么办法能够在不对数据进行额定标注的状况下实现相似的分类形式呢？

办法介绍

事实上，下面的推理过程给咱们提供了两点重要的洞察：第一，当属性足够多、足够好的时候，属性能够用来精确地区分不同的类别；第二，每个类别具备的属性数量肯定比它的父类多。针对第一点洞察中对于属性数量和品质的要求，近期的钻研[1, 2, 3]表明，以图像分类工作训练的深度学习模型能够自发地学习到一些具备语义的属性，因而通过这种形式，能够不再须要人工定义属性，仅通过算法主动学习的形式来失去足够多、足够好的属性；针对第二点洞察中对于类别间的束缚关系的要求，能够将这样的类别间关系进行形式化，领导算法学习属性的过程，使学习到的属性满足约束条件。这样一来，就既解决了属性难定义、难标注的问题，又保留了基于属性进行分类的计划在高可解释性和便于引入人工先验常识方面的劣势。

图2. 办法框架示意图

具体来说，作者在提出的办法中设计了一个蕴含两条分支的模型，如图2所示。上边的分支以图像作为输出，次要作用是学习属性；下边的分支以层级构造作为输出，次要作用是对学习属性的过程施加束缚：

其中上边的分支应用常见的卷积神经网络backbone，上边分支的输入是一个1×D维的“属性向量”，向量中的每一维示意一个属性，每一维的值则示意图像样本是否具备这个属性（0示意样本不具备这个属性，大于0的值示意样本具备这个属性），同时当激活值大于0时，激活值的大小示意图像样本在这个属性上的强度；

训练时，损失函数的指标是要求两个分支的输入都可能正确的预测D维特色对应的最细粒度类别和对应的粗粒度类别。通过这种形式，上边的分支就能够学习到D个对于分类工作来说有用的属性，而下边的分支则能够保障这D个属性满足类别间属性数量关系的束缚，从而能够对模型分类原理给出人类能够了解的解释。

获得的成果

论文中，作者在CIFAR-100和ILSVRC两个大规模的层级数据库上进行了试验，通过大量的试验验证了计划的有效性：

1.分类精度

从试验后果来看，只管论文提出的办法针对进步模型的可解释性和进步引入人工先验常识的便捷水平做了大量的设计，然而在分类精度上依然达到了SOTA的程度，表明该计划在理论业务中具备实用价值。

2.属性学习效果

定性展现后果方面，作者通过可视化的形式展现了模型学习到的属性，试验后果中针对每个属性，通过展现每个属性在数据集上响应值最大的9个图像块来示意属性，如图3所示。从图中看，模型学习到了大量不反复的、有意义的属性，并且既有比较简单的纹理、形态（dotted、round等）属性，也有语义性更强的车轮、山等属性。

图3. 算法学习到的属性展现。（a）CIFAR-100数据库上学习到的属性；（b）ILSVRC数据库上学习到的属性

从定量评测的后果来看，在蕴含1000个类别的ILSVRC数据上，模型学习到了2600多个属性，远超基线模型（规范ResNet-50分类模型）的2000个属性；在去除反复属性（可能蕴含了同种属性的不同状况）后，论文办法学到的属性数量靠近140个，多于基线模型的120余个不反复的属性。

图4. 模型学习到的属性数量的定量评估后果

针对属性响应区域的可视化后果（图5）也显示，模型学到的属性基本上是牢靠的。图中响应最强的区域（红色局部）也正是和属性对应的区域。

图5. 属性响应区域可视化

规则学习后果和人工先验引入

试验中，作者展现了模型下边的分支学习到的分类规定，将每个类别示意成“父类 + 特定属性组合”的模式，如图6所示。模型学习到的后果中包含：

（1）“钟表”是一种圆形的、放射状的“家用电子设备”；

（2）“猎豹”是一种有条纹、斑点的“猫科动物”；

（3）“足球”是一种在红色背景上有彩色斑点的“球”。

模型给出的解释规定根本合乎人的认知，表明模型能够学到相似于分类学家定义的“父类 + 特定属性组合”模式的分类规定，能够对模型的分类原理给出人类可了解的解释。

（a）

（b）

图6. 模型学习到的解释规定展现。（a）CIFAR-100数据库上学习到的解释规定；（b）ILSVRC数据库上学习到的解释规定

相比之下，现有办法[4]如果想要给出同样模式的解释后果，须要人工标注每个类别的属性示意，而这在大规模场景下显然是不事实的，作者在试验中也展现了相应的比照后果（表1），从比照后果来看，论文中提出办法的适用范围显然更宽泛。

表1. 与现有办法[4]比照

有了上边这种人类能够了解的解释规定，就能够对模型进行定制化的调优，去除模型不应该利用的规定，补充模型没有学习到的规定：

在ILSVRC数据的“救护车”和“猎豹”两个类别上尝试了去除模型学到的谬误规定的计划，该计划在根本不影响其余类别辨认成果的前提下，能够晋升模型在“救护车”和“猎豹”两个类别上的辨认精度；

在同一个数据库的全副类别上，作者尝试了补充额定属性的计划，并失去了约2个百分点精度晋升。

上边两个试验表明，作者提出的办法尽管只是在深度模型引入人工先验方面做了一些初步的摸索，然而曾经验证了深度模型和人工先验常识联合的有效性，并且给出了一条根本可行的技术路线。

论断

可解释的深度学习模型，以及深度学习模型与人工先验的联合是以后学术界重点钻研的前沿方向，对于晋升深度学习模型的可靠性和泛化能力具备重要的意义。这次介绍的论文同时在这两个方向上迈出了松软的一步：在可解释深度学习模型方面，相比于现有办法，不仅可能给出图像中的要害区域，还能给出规则化的解释，对使用者更敌对，更合乎人对于解释后果的冀望；在引入人工先验常识方面，走通了一条根本可行的技术路线，心愿可能对将来的研究者有所启发。上华为云AI Gallery，开发者能够理解更多华为云算法能力，用华为云ModelArts平台进行训练和推理。

参考文献

[1] C. Huang, C. C. Loy, and X. Tang, “Unsupervised learning of discriminative attributes and visual representations,” in Computer Vision and Pattern Recognition (CVPR), 2016, pp. 5175–5184.

[2] V. Escorcia, J. C. Niebles, and B. Ghanem, “On the relationship between visual attributes and convolutional networks,” in Computer Vision and Pattern Recognition (CVPR), 2015, pp. 1256–1264.

[3] S. Vittayakorn, T. Umeda, K. Murasaki, K. Sudo, T. Okatani, and K. Yamaguchi, “Automatic attribute discovery with neural activations,” in European Conference on Computer Vision (ECCV), 2016, pp. 252–268.

[4] S. J. Hwang and L. Sigal, “A unified semantic embedding: Relating taxonomies and attributes,” in Advances in Neural Information Processing Systems (NIPS), 2014, pp. 271–279.

点击理解更多

本文分享自华为云社区《华为云IEEE TPAMI论文解读：规则化可解释模型助力常识+AI交融》，原文作者：HWCloudAI 。

点击关注，第一工夫理解华为云陈腐技术~

关于人工智能:知识AI融合创新探索华为云论文被AI顶级学术期刊IEEE-TPAMI接受

前言

办法介绍

获得的成果

论断

参考文献

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:知识AI融合创新探索华为云论文被AI顶级学术期刊IEEE-TPAMI接受

前言

办法介绍

获得的成果

论断

参考文献

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复