共计 1349 个字符,预计需要花费 4 分钟才能阅读完成。
如果代码品质是辨别软件系统好坏的规范,那么数据品质便是辨别 AI 零碎智能化的规范。
对模型来说,应用正确的数据不可或缺。而理论训练中,常呈现场景数据分布不平衡的景象,长尾数据就是其中一个特例。
长尾数据是指数据集中某些类别数量较少,而其余类别样本数较多的不均衡“长尾”状态。例如在自然语言解决中,一些少见的词汇呈现频率很低,而常见的词汇呈现频率很高;在图像识别中,一些常见的物体呈现的频率很低,而常见的物体呈现频率很高。
这种状态下,模型会更偏差于头部数据,对于尾部数据则体现成果不佳,最终影响模型的训练能力与泛化能力。
「训练能力」:相较其余类别,长尾数据中的多数类别样本数量较少,对模型的奉献较小。当集中训练的数据呈长尾散布时,模型偏向于对高频率呈现的类别进行优化,而对多数类别进行较弱的学习。这会导致模型无奈习得无效的分类边界,升高模型的分类性能。
「泛化能力」:因为长尾数据中多数类别的样本数量较少,模型难以充沛学习该类特色,导致模型在未见过的数据中体现不佳,最初便会训练出无价值模型。在理论利用中,长尾数据中的多数类别通常更为要害,例如在医疗畛域中,对于一些常见病例的诊断,模型的体现尤为重要。因而,泛化能力的降落会重大影响人工智能的行业利用。
而究其基本,数据品质是影响模型状态的决定因素。一方面,数据采集时可能呈现偏差,导致某些类别的数据量较少;另一方面,某些类别数据可能因获取难度大,导致其数据量较少。
因而,需采纳一些针对性的办法来缓解此类问题。例如,能够应用类别加权损失函数、数据重采样、进步数据处理能力等办法,来均衡不同类别的数据,进步模型的性能。
「数据收集」:长尾数据是因为某些类别的数据量过少而导致。因而,应扩充数据收集数量,尤其是那些数量较少的类别,帮忙数据集更加均衡,缓解长尾问题。
「数据重采样」:重采样能够通过扭转数据集的样本分布来均衡不同类别的数据。欠采样是指从大多数类别中抉择一些数据点,使得数据集中不同类别的数据点数量绝对平衡。过采样则是向小类别中增加更多的数据,从而使不同类别的数据点数量绝对平衡。
「标注解决」:简直所有数据集都存在谬误标注景象,其中多以边缘数据为主,因为与只看过一次的图像相比,看过 1,000 次的图像更容易正确标记。边缘数据的错误处理对模型的破坏性很大,这些类别的样本数量本就无限,如果标注谬误,模型性能将永远不会进步,相同,它更有可能倒退。因而,进步标注准确性,是解决长尾问题的重要措施。
「迁徙学习」:将一个预训练的模型调整为新的分类工作,而后在新的数据集上进行微调。这种办法可能会帮忙加重长尾散布的问题,因为预训练的模型在解决各种数据集方面都具备肯定的泛化能力。
「扭转损失函数」:在长尾数据分布的状况下,传统的损失函数可能偏差于优化大多数类别的预测性能,从而疏忽了多数类别的预测性能。为了均衡不同类别的数据,能够应用类别加权损失函数来均衡数据集不同类别的权重,进步多数类别的预测性能。
曼孚科技
曼孚科技是一家 AI 数据服务解决方案提供商,专一为人工智能赛道客户提供定制化数据标注服务。公司领有在图像识别,视频辨认,语音辨认,语义了解等畛域的业余数据服务,通过聚焦全栈式数字化智能平台的研发, 买通感知与认知智能的边界, 推动人工智能在更多垂直场景实现落地利用。