关于深度学习:SIMILAR现实场景中基于子模块信息度量的主动学习

36次阅读

共计 1990 个字符，预计需要花费 5 分钟才能阅读完成。

在过来几年中，被动学习 (AL) 策略已被证实可用于升高标签老本。然而当波及事实世界的数据集时，以后的办法成果并不现实，事实世界的些数据集存在缺点和许多特色，使得从中学习具备更大挑战性：

真实世界的数据集场景：(a) 罕见类：数字 5 和 8 很少见；(b) 冗余：数字 0 和 1 是冗余的；© 散布外 (OOD)：数字分类中的字母 A、R、B、F。

首先，事实世界的数据集是不均衡的有些类别十分常见。这种不均衡的一些例子来自医学成像畛域；例如，在癌症成像数据集中，癌细胞的图像通常比它们的良性对应物更常见。另一个例子是在主动驾驶汽车畛域，咱们心愿精确地检测所有物体。然而因为某些状况下的某些对象是常见的，像下图中光明中的行人，个别模型常常无奈检测和分类罕见类别。

左：Realistic 数据集中的罕见类右：Uber 主动驾驶汽车在亚利桑那州坦佩市产生车祸

其次，事实世界的数据有很多冗余。这种冗余在通过从视频中采样帧创立的数据集中更为突出（高速公路上行驶的汽车的镜头或监控摄像头的镜头）。

事实中冗余的数据——来自主动驾驶汽车（KITTI 数据集）的镜头的帧样本

第三，有散布外 (OOD) 数据是很常见的，其中一些未标记的数据与手头的工作无关。例如，在医学成像畛域，数据集中的一些 x 射线图像并不是失常获取失去的数据，从而导致散布不平均。

该论文的工作是解决以下问题：

是否能够有实用于宽泛事实场景的繁多并且对立的被动学习框架来训练机器学习模型？

论文提出了 SIMILAR（一个对立的被动学习框架），并且说能够作为后面探讨的许多事实场景的一站式解决方案。该框架的次要思维是通过适当抉择一个查问集 Q 和一个公有集 p，利用子模块信息测量度 (SIM：submodular information measures) 之间的关系，论文中说其统一性来自于子模块条件互信息 (SCMI：submodular conditional mutual informatio) 丰盛的建模能力。咱们从 SCMI 中失去了子模块互信息 (SMI：submodular mutual informatio) 和子模块条件增益 (SCG：submodular conditional gain) 公式，并将它们利用于不同的事实场景中。

上图为通过 Q 和 P 抉择 SIM 及其在事实场景中的利用关系

论文中的模型最初应用线性层取得标签来示意每个数据点，将每个数据点的假如标签值示意分类的最大概率。为了实例化基于 SIM 的函数，应用从被动学习以后轮次取得模型的梯度来计算一个类似度核。最初利用贪婪策略对子模块函数进行优化，取得须要（可用于）标记的未标记数据的子集。一旦这些子集标记实现，咱们将其增加到标记的训练数据集中，并持续进行下一次迭代。

在下面的数字分类的实在数据集场景示例中，咱们能够利用如下的 SIMILAR 框架。

适当抉择查问集和条件集:

a) 通过优化 SMI 函数，以 R 蕴含 5,8 作为查问，找到常见数字 5,8∈U;

b) 通过优化 f(A|L)，从 U 中选取不同的样本，这些样本在以后标记集 L 中也不同(这里咱们要防止数字 0,1∈U，因为它们都存在于 L 中);

c) 通过优化 I_f(A;I|O)在 U 中抉择数字(散布内的)，防止字母(散布外的)，其中 I 是到目前为止在被动学习中抉择的散布内标记点，O 是散布外点。

依据测试，在 CIFAR-10、MNIST 和 ImageNet 等几种图像分类工作中，SIMILAR 算法的性能显著优于现有的被动学习算法，在罕见类状况下的性能达到≈5% – 18%，在散布外数据状况下的性能达到≈5% – 10%。

CIFAR-10 罕见类上，SMI 函数 (特地是 LOGDETMI, FLQMI) 的体现比其余基线高出 10% 以上。

OOD 数据的未标记集。i) SCMI 函数始终优于基线 5% – 10%，ii) SCMI 还优于相应的 SMI

CIFAR-10 在 10 倍冗余条件下。CG 函数 LOGDETCG, FLCG)抉择了更多独特的点，并优于现有的算法，包含 BADGE。

SIMILAR 是向被动学习事实场景方向迈出的有心愿的一步。

论文：https://proceedings.neurips.c…

代码：https://github.com/decile-tea…

如果你想测试一下成果，论文的作者还提供了下面这些案例的源代码：

Rare Classes Tutorial on CIFAR-10 https://github.com/decile-tea…
Rare Classes Tutorial on Medical Data https://github.com/decile-tea…
Redundancy Tutorial https://github.com/decile-tea…
Out-of-distribution data Tutorial https://github.com/decile-tea…

本文作者：Suraj Kothawade

正文完

深度学习

发表至：深度学习

2021-12-10

0

关于深度学习:MegEngine-Windows-Python-wheel-包减肥之路

关于深度学习:Mamba详细介绍和RNNTransformer的架构可视化对比

关于深度学习:OneFlow源码解析Eager模式下的设备管理与并发执行

关于深度学习:常用的表格检测识别方法表格内容识别方法

关于数据库:数据库事务的三个元问题

关于深度学习:SIMILAR现实场景中基于子模块信息度量的主动学习

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）