关于深度学习:恒源云长尾分布的多标签文本分类平衡方法论文学习笔记

28次阅读

共计 1803 个字符,预计需要花费 5 分钟才能阅读完成。

文章起源 | 恒源云社区(专一人工智能 / 深度学习云 GPU 服务器训练平台,官网体验网址:https://gpushare.com/center/)

原文地址 | https://bbs.gpushare.com/topi…

原文作者 | Mathor


长尾散布各位必定并不生疏,指的是少数几个类别却有大量样本,而大部分类别都只有大量样本的状况,如下图所示

通常咱们探讨长尾散布或者是文本分类的时候只思考单标签,即一个样本只对应一个标签,但实际上多标签在理论利用中也十分常见,例如个人爱好的汇合一共有 6 个元素:静止、游览、读书、工作、睡觉、美食,个别状况下,一个人的喜好有这其中的一个或多个,这就是典型的多标签分类工作

EMNLP2021 上有一篇名为 Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution 的论文具体探讨了各种均衡损失函数对于多标签分类问题的成果,从最后的 BCE Loss 到 Focal Loss 等,感觉这篇文章更像是均衡损失函数的综述。源码在 Roche/BalancedLossNLP

LOSS FUNCTIONS

在 NLP 畛域,二值化穿插熵损失(Binary Cross Entropy Loss)常被用来解决多标签文本分类问题,给定一个含有 N 个样本的训练集 ,其中C 是类别数量,假如模型对于某个样本的输入为 ,则 BCE 损失的定义如下:

其中,,对于多标签分类问题来说咱们须要将模型的输入值压缩到 [0,1] 之间,所以须要用到 sigmoid 函数

本来单标签问题,实在值 相当于一个 onehot 向量,而对于多标签来说,实在值 相当于一个 onehot 向量中多了一些 1,例如[0,1,0,1],示意该样本同时是第 1 类和第 3 类

这种奢侈的 BCE 非常容易收到标签不均衡的影响,因为头部样本比拟多,可能所有头部样本的损失总和为 100,尾部所有样本的损失加起来都不超过 10。上面,咱们介绍三种代替办法解决多标签文本分类中长尾数据的类别不平衡问题。这些均衡办法次要思维是从新加权 BCE,使常见的样本 - 标签对失去正当的 ” 关注 ”

Focal Loss (FL)

通过在 BCE 上乘一个可调整的聚焦参数 ,Focal Loss 将更高的损失权重放在 ” 难分类 ” 的样本上,这些样本对其实在值的预测概率很低。对于多标签分类工作,Focal Loss 定义如下:

实际上论文对于 Focal Loss 的介绍只有这么多,如果想理解 Focal Loss 更具体的参数介绍,能够看我的这篇文章 Focal Loss 详解

Class-balanced focal loss (CB)

通过预计无效样本数,CB Loss 进一步从新加权 Focal Loss 以捕获数据的边际递加效应,缩小了头部样本的冗余信息。对于多标签工作,咱们首先计算出每品种别的频率 ,那么对于每个类别来说,都有其均衡项

其中,管制着无效样本数量的增长速度,损失函数变为

Distribution-balanced loss (DB)

通过整合再均衡权重以及头部样本容忍正则化(negative tolerant regularization, NTR),Distribution-balanced Loss 首先缩小了标签共现的冗余信息(这在多标签分类的状况下是很要害的),而后对 ” 容易分类的 ” 样本(头部样本)调配较低的权重

首先,为了从新均衡权重,在单标签的状况下,一个样本能够通过采样概率 来加权,然而在多标签的状况下,如果采纳同样的策略,一个具备多标签的样本会被适度采样,概率是 。因而,咱们须要联合两者从新均衡权重

咱们能够将上述权重变得更润滑一些(有界)

此时,的值域为 。rebalanced-FL (R-FL) 损失函数为

而后,NTR 对同一标签头部和尾部样本进行不同的解决,引入一个比例因子和一个外在的特定类别偏差 以升高尾部类别的阈值,防止适度克制

对于尾部样本来说,;对于头部样本来说,能够在训练开始时最小化损失函数来预计,其比例系数为 κ\kappaκ,类别先验信息 ,则

最终,通过整合再均衡权重以及 NTR,Distribution-balanced Loss 为

RESULT

作者试验的两个数据集如下

应用的模型为 SVM,比照不同损失函数的成果

集体总结

这篇论文,翻新了但又没翻新,所有的损失函数都是他人提出来的,本人的工作只是在多标签数据集上跑了一遍做了个比照。最初,纯爱兵士示意很淦

正文完
 0