数据集在计算机科学和数据迷信中施展着至关重要的作用。它们用于训练和评估机器学习模型,钻研和开发新算法,改良数据品质,解决理论问题,推动科学研究,反对数据可视化,以及决策制定。数据集提供了丰盛的信息,用于了解和利用数据,从而反对各种应用领域,包含医疗、金融、交通、社交媒体等。正确抉择和解决数据集是确保数据驱动利用胜利的关键因素,对于翻新和解决简单问题至关重要。因而,数据集不仅是技术倒退的根底,也是推动迷信提高和社会决策制定的弱小工具。
无论是图像识别,自然语言解决,医疗保健还是任何其余人工智能畛域感兴趣,这些数据集都是十分重要的,所以本文将整顿罕用且无效的 20 个数据集。
MNIST: 这是用于图像识别工作的经典数据集,蕴含从 0 到 9 的手写数字图像,能够说它是图像识别的 Hello World
CIFAR-10: 另一个风行的图像识别数据集 CIFAR-10 蕴含 10 种不同类别的对象,如飞机、汽车和动物。
ImageNet: 最大的图像识别数据集之一,ImageNet 蕴含超过 22,000 个类别的数百万标记图像。
COCO: 这个数据集通常用于对象检测工作,蕴含超过 30 万张图像和超过 200 万个对象实例,标记在 80 个类别中。
cityscape: 用于主动驾驶工作的数据集,cityscape 蕴含来自各个城市的街道场景,并对汽车、行人和建筑物等对象进行了像素级正文。
Pascal VOC: 另一个风行的对象检测数据集 Pascal VOC 蕴含来自事实世界场景的图像,这些图像带有对象边界框和对象类标签。
WikiText: 一个大规模的语言建模数据集,蕴含来自维基百科文章的超过 1 亿个令牌。如果将 Penn Treebank 与 WikiText- 2 进行比拟,后者的规模和数量简直是前者的两倍。相比之下,WikiText -103 比其余版本大 110 倍。
Penn Treebank: 一个宽泛用于自然语言解决工作的数据集,Penn Treebank 蕴含来自华尔街日报的解析文本。
以下是这两个数据集的比拟:
SNLI: 斯坦福自然语言推理数据集蕴含 570,000 个标记为蕴涵,矛盾或中立的句子对。它反对自然语言推理零碎,也能够称为 RTE(辨认文本蕴涵)。
SQuAD: 斯坦福问答数据集蕴含维基百科文章中提出的问题,以及相应的答案文本跨度。
MIMIC-III: MIMIC-III 是一个大型电子衰弱记录数据集,蕴含来自 40,000 多名患者的各种临床记录和诊断数据。
Fashion-MNIST: MNIST 数据集的一个变体,Fashion-MNIST 蕴含服装我的项目的图像,而不是手写数字。Fashion-MNIST 数据集蕴含 Zalando 的服装图像,其中包含 60,000 个训练样本和 10,000 个测试样本。
CelebA: 蕴含年龄、性别和面部表情等属性的名人面部数据集。该数据集帮忙各种利用程序验证面部辨认作为其平安零碎。本数据集的原始数据由香港的 MMLAB 公布。
Kinetics: 一个人类动作辨认的数据集,Kinetics 蕴含超过 50,000 个视频剪辑,其中包含人们进行各种动作,如漫步,跑步和跳舞。每个视频剪辑的持续时间为 10 秒,突出显示了 600 组人类动作。
Open Images: 一个用于对象检测工作的大规模数据集,Open Images 蕴含数百万张带有 600 多个对象类别正文的图像。
LJSpeech: 一个用于文本到语音合成的数据集,LJSpeech 蕴含 131000 个单个谈话者朗诵报纸上句子的短音频记录。演讲者从 7 本非虚构的书中摘录了局部内容。
librispeech : 一个用于语音辨认工作的数据集,librispeech 蕴含了超过 1000 小时的录音,是 LibriVox 有声读物的一部分,带有相应的转录本。
AudioSet: 一个音频事件辨认的数据集,AudioSet 蕴含了超过 527 类声音的录音。这些声音片段的持续时间为 10 秒。它是通过应用 youtube 元数据和基于钻研的内容来组织的。
NSynth: 一个用于乐器合成的数据集,NSynth 蕴含各种乐器的录音,具备相应的音高和音色信息。它是由 1006 种乐器组合而成的一组曲子,共产生 305979 首柔美的曲子。
Chess: 用于国际象棋较量预测的数据集,蕴含来自数千场较量的数据,其中蕴含玩家评级和棋子挪动序列等信息。
数据集在数据迷信和人工智能畛域中是不可或缺的工具,它们为模型的训练和评估、问题的解决以及科学研究提供了根底数据。抉择适当的数据集并进行无效的数据处理和剖析是确保数据驱动应用程序胜利的重要一步。
https://avoid.overfit.cn/post/8e58a98d26f04a00811257aebdd3e931