关于机器学习:5-个章节25-条规范全方位-Get-数据集选择与创建的百科全书

42次阅读

共计 2808 个字符,预计需要花费 8 分钟才能阅读完成。

By 超神经

内容一览:如果你正在学习如何创立或抉择一个适合的数据集,那么这篇文章会给你一些实用的倡议,帮忙你在抉择和创立数据集时做出理智的决策。

关键词:机器学习 数据集

本文首发自 HyperAI 超神经微信公众平台 \~

作者 | xixi

审校 | 三羊

一个高质量的数据集不仅能够进步模型的准确率和运行效率,还能够节俭训练工夫和算力资源。

本篇文章中,咱们 参考 Jan Marcel Kezmann 的文章「The Dos and Don’ts of Dataset Selection for Machine Learning You Have to Be Aware of」,对创立和抉择数据集的形式办法进行了具体阐明,心愿帮忙各位数据迷信工程师防止陷阱、践行模型训练的最佳实际,一起来看看都有哪些 Tips 吧

浏览英文原文:
https://medium.com/mlearning-ai/the-dos-and-donts-of-dataset-…

目录

  1. 抉择数据集的最佳实际
  2. 留神躲避的陷阱
  3. 5 个 Tips
  4. 创立数据集的最佳实际
  5. 数据集评估

适用人群:

初学者,数据科学家,机器学习相干从业者

1. 抉择数据集的最佳实际

这部分将深入探讨抉择公开数据集的最佳实际,须要牢记以下 6 个关键步骤:

1.1 了解问题

了解要解决的问题十分重要,包含确定输出和输入变量、问题类型(分类、回归、聚类等)以及性能指标。

1.2 定义问题

通过指定行业或畛域、须要的数据类型(文本、图像、音频等)以及数据集相干的限度条件,从而放大数据集的范畴。

1.3 关注品质

寻找牢靠、精确且与问题相干的数据集。查看缺失数据、异样值和不一致性,因为这些问题可能会对模型的性能产生负面影响。

1.4 思考数据集大小

数据集的大小会影响模型的准确性和泛化能力。较大的数据集尽管有助于进步模型的准确性和稳健性,但也意味着更多的计算资源和更长的训练工夫。

1.5 查看 Bias

数据集中的 Bias 可能会导致不偏心或不精确的预测。要留神与数据收集过程相干的 bias,例如抽样偏差,以及与社会问题相干的偏差,例如性别、种族或社会经济位置。

1.6 寻求多样性

抉择不同起源、人群或地点多样化的数据集,有助于帮忙模型从各种不同的例子中学习,防止过拟合。

2. 留神躲避的陷阱

本局部实用于预定义数据集及自行创立的数据集。

2.1 数据有余

数据有余会导致模型无奈捕获数据中的潜在模式,从而使得性能不佳。如果没有足够的数据,能够思考借助数据加强或迁徙学习等技术,来加强数据集或模型能力。如果标签统一,能够将多个数据汇合并成一个。

2.2 不均衡的类别

类别不均衡是指一个类 (class) 的样本数显著多于另一个类,这会导致预测偏差或其余模型谬误。为了解决这个问题,倡议应用过采样、欠采样或类别加权等技术。加强代表性有余的类也能够缩小这个问题。

舒适提醒:
不同的机器学习工作,类不均衡问题对模型的影响也不一样,例如在异样检测工作中,类重大不均衡是失常景象;而在规范图像分类问题中,这种状况比拟少见。

2.3 异样值 (Outlier)

异样值是与其余数据样本显著不同的数据点,可能会对模型性能产生负面影响。如果数据集中蕴含太多的异样值,机器学习或深度学习模型通常会难以学习所需的散布。

能够思考应用诸如 winsorization 之类的技术删除或校对异样值,或者应用均值 / 中位数插补办法,将样本中呈现的所有缺失值替换为均值或中位数。

2.4 数据窥探和透露

数据窥探 (data snooping) 会导致过拟合和性能升高,为了防止这种状况,应该将数据集分为训练集、验证集和测试集,并只应用训练集来训练模型。

另一方面,用测试集的数据训练模型会引发数据透露,从而导致过于乐观的性能预计。为了防止数据透露,应该始终保持验证和测试集的隔离,并只应用它们来评估最终模型。

3. 5 个 Tips

  • 借助迁徙学习,用预训练模型解决相干问题,对于特定问题,能够应用较小的数据集进行微调。
  • 合并多个数据集以减少数据集的大小和多样性,从而失去更精确和更持重的模型。须要留神数据兼容性和品质问题。
  • 用众包形式以较低成本疾速收集大量标记数据。须要留神品质管制和偏差问题。
  • 注意各种公司和组织的数据 API,以便以代码形式拜访其数据。
  • 查看提供标准化数据集及评估指标的可用 benchmark,便于比拟针对同一问题不同模型的性能区别。

4. 创立数据集的最佳实际

4.1 定义问题和指标

在收集任何数据之前,明确想要预测的指标变量、想要解决的问题范畴以及数据集的预期用处。

明确问题和指标有助于专一收集相干数据,防止在无关或嘈杂的数据上浪费时间和资源,同时有助于了解数据集的假如和局限性。

4.2 收集多样化和具备代表性的数据集

从不同的起源和畛域收集数据,能够确保数据集可能代表事实世界的问题。这包含从不同的地点、人口统计学和时间段收集数据,保证数据集不偏差于特定的群体或畛域。

此外,要确保数据不含任何混同变量 (confounding variable),影响假设起因和假设后果的第 3 个未测量变量,会对后果产生影响。

4.3 认真标注数据

应用明确并且能清晰反映 ground truth 的标签标注数据,通过多位标注人员 (annotator) 或众包形式,缩小集体偏见对数据的影响,进步标签的品质和可靠性。倡议对数据进行版本控制,以更轻松地跟踪、共享和重现训练和评估过程。

舒适提醒:
如果数据集只蕴含 80% 的正确标签,那么即便是最好的模型,在大多数状况下其准确率也不会超过 80%。

4.4 确保数据的品质和完整性

数据品质是指数据的准确性 (accuracy)、完整性 (completeness) 和一致性 (consistency)。借助数据荡涤、异样值检测和缺失值插补等技术,有助于进步数据集品质。此外,还须要确保数据格式易于机器学习算法的了解和解决。

4.5 确保数据隐衷和平安

为了爱护隐衷,须要确保数据的收集和存储都是平安的,任何敏感信息都已被匿名化或加密解决。此外,还能够思考应用加密技术来爱护数据在传输和动态存储时的平安。

舒适提醒:
留神验证数据的应用标准,确保其合乎法律法规。

5. 数据集评估

检查数据集是否曾经充沛满足以下 5 个规范:

  • 数据规模:通常来说,数据越多越好。
  • 数据分布:确保数据集是均衡和有代表性的。
  • 数据品质:洁净、统一和无误的数据至关重要
  • 数据复杂度:确保数据不过于简单。
  • 数据相关性:数据应与问题相干。

以上就是数据集抉择与创立指南的残缺内容,抉择一个适合的数据集是机器学习的要害,心愿这份指南能够帮忙各位抉择或创立优质数据集,训练出精确、持重的模型!

海量公开数据集在线下载

截至目前,HyperAI 超神经官网已上线 1200+ 优质公开数据集,实现近 50 万次下载,奉献 2000+TB 流量,极大升高了海内外优质公开数据集的拜访门槛。

拜访以下链接,即刻搜寻下载你须要的数据集,开启模型训练之旅!

拜访官网:https://hyper.ai/datasets

本文首发自 HyperAI 超神经微信公众平台~

—— 完 ——

正文完
 0