关于自动驾驶:如何在机器学习中处理长尾数据分布丨曼孚科技

如果代码品质是辨别软件系统好坏的规范，那么数据品质便是辨别AI零碎智能化的规范。

对模型来说，应用正确的数据不可或缺。而理论训练中，常呈现场景数据分布不平衡的景象，长尾数据就是其中一个特例。

长尾数据是指数据集中某些类别数量较少，而其余类别样本数较多的不均衡“长尾”状态。例如在自然语言解决中，一些少见的词汇呈现频率很低，而常见的词汇呈现频率很高；在图像识别中，一些常见的物体呈现的频率很低，而常见的物体呈现频率很高。

这种状态下，模型会更偏差于头部数据，对于尾部数据则体现成果不佳，最终影响模型的训练能力与泛化能力。

「训练能力」：相较其余类别，长尾数据中的多数类别样本数量较少，对模型的奉献较小。当集中训练的数据呈长尾散布时，模型偏向于对高频率呈现的类别进行优化，而对多数类别进行较弱的学习。这会导致模型无奈习得无效的分类边界，升高模型的分类性能。

「泛化能力」：因为长尾数据中多数类别的样本数量较少，模型难以充沛学习该类特色，导致模型在未见过的数据中体现不佳，最初便会训练出无价值模型。在理论利用中，长尾数据中的多数类别通常更为要害，例如在医疗畛域中，对于一些常见病例的诊断，模型的体现尤为重要。因而，泛化能力的降落会重大影响人工智能的行业利用。

而究其基本，数据品质是影响模型状态的决定因素。一方面，数据采集时可能呈现偏差，导致某些类别的数据量较少；另一方面，某些类别数据可能因获取难度大，导致其数据量较少。

因而，需采纳一些针对性的办法来缓解此类问题。例如，能够应用类别加权损失函数、数据重采样、进步数据处理能力等办法，来均衡不同类别的数据，进步模型的性能。

「数据收集」：长尾数据是因为某些类别的数据量过少而导致。因而，应扩充数据收集数量，尤其是那些数量较少的类别，帮忙数据集更加均衡，缓解长尾问题。

「数据重采样」：重采样能够通过扭转数据集的样本分布来均衡不同类别的数据。欠采样是指从大多数类别中抉择一些数据点，使得数据集中不同类别的数据点数量绝对平衡。过采样则是向小类别中增加更多的数据，从而使不同类别的数据点数量绝对平衡。

「标注解决」：简直所有数据集都存在谬误标注景象，其中多以边缘数据为主，因为与只看过一次的图像相比，看过1,000次的图像更容易正确标记。边缘数据的错误处理对模型的破坏性很大，这些类别的样本数量本就无限，如果标注谬误，模型性能将永远不会进步，相同，它更有可能倒退。因而，进步标注准确性，是解决长尾问题的重要措施。

「迁徙学习」：将一个预训练的模型调整为新的分类工作，而后在新的数据集上进行微调。这种办法可能会帮忙加重长尾散布的问题，因为预训练的模型在解决各种数据集方面都具备肯定的泛化能力。

「扭转损失函数」：在长尾数据分布的状况下，传统的损失函数可能偏差于优化大多数类别的预测性能，从而疏忽了多数类别的预测性能。为了均衡不同类别的数据，能够应用类别加权损失函数来均衡数据集不同类别的权重，进步多数类别的预测性能。

曼孚科技

曼孚科技是一家AI数据服务解决方案提供商，专一为人工智能赛道客户提供定制化数据标注服务。公司领有在图像识别，视频辨认，语音辨认，语义了解等畛域的业余数据服务，通过聚焦全栈式数字化智能平台的研发,买通感知与认知智能的边界,推动人工智能在更多垂直场景实现落地利用。

关于自动驾驶:如何在机器学习中处理长尾数据分布丨曼孚科技

曼孚科技

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于自动驾驶:如何在机器学习中处理长尾数据分布丨曼孚科技

曼孚科技

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复