关于人工智能:20用于深度学习训练和研究的数据集

数据集在计算机科学和数据迷信中施展着至关重要的作用。它们用于训练和评估机器学习模型，钻研和开发新算法，改良数据品质，解决理论问题，推动科学研究，反对数据可视化，以及决策制定。数据集提供了丰盛的信息，用于了解和利用数据，从而反对各种应用领域，包含医疗、金融、交通、社交媒体等。正确抉择和解决数据集是确保数据驱动利用胜利的关键因素，对于翻新和解决简单问题至关重要。因而，数据集不仅是技术倒退的根底，也是推动迷信提高和社会决策制定的弱小工具。

无论是图像识别，自然语言解决，医疗保健还是任何其余人工智能畛域感兴趣，这些数据集都是十分重要的，所以本文将整顿罕用且无效的20个数据集。

MNIST:这是用于图像识别工作的经典数据集，蕴含从0到9的手写数字图像，能够说它是图像识别的Hello World

CIFAR-10:另一个风行的图像识别数据集CIFAR-10蕴含10种不同类别的对象，如飞机、汽车和动物。

ImageNet:最大的图像识别数据集之一，ImageNet蕴含超过22,000个类别的数百万标记图像。

COCO:这个数据集通常用于对象检测工作，蕴含超过30万张图像和超过200万个对象实例，标记在80个类别中。

cityscape:用于主动驾驶工作的数据集，cityscape蕴含来自各个城市的街道场景，并对汽车、行人和建筑物等对象进行了像素级正文。

Pascal VOC:另一个风行的对象检测数据集Pascal VOC蕴含来自事实世界场景的图像，这些图像带有对象边界框和对象类标签。

WikiText:一个大规模的语言建模数据集，蕴含来自维基百科文章的超过1亿个令牌。如果将Penn Treebank与WikiText-2进行比拟，后者的规模和数量简直是前者的两倍。相比之下，WikiText -103比其余版本大110倍。

Penn Treebank:一个宽泛用于自然语言解决工作的数据集，Penn Treebank蕴含来自华尔街日报的解析文本。

以下是这两个数据集的比拟：

SNLI:斯坦福自然语言推理数据集蕴含570,000个标记为蕴涵，矛盾或中立的句子对。它反对自然语言推理零碎，也能够称为RTE(辨认文本蕴涵)。

SQuAD:斯坦福问答数据集蕴含维基百科文章中提出的问题，以及相应的答案文本跨度。

MIMIC-III: MIMIC-III是一个大型电子衰弱记录数据集，蕴含来自40,000多名患者的各种临床记录和诊断数据。

Fashion-MNIST: MNIST数据集的一个变体，Fashion-MNIST蕴含服装我的项目的图像，而不是手写数字。Fashion-MNIST数据集蕴含Zalando的服装图像，其中包含60,000个训练样本和10,000个测试样本。

CelebA:蕴含年龄、性别和面部表情等属性的名人面部数据集。该数据集帮忙各种利用程序验证面部辨认作为其平安零碎。本数据集的原始数据由香港的MMLAB公布。

Kinetics:一个人类动作辨认的数据集，Kinetics蕴含超过50,000个视频剪辑，其中包含人们进行各种动作，如漫步，跑步和跳舞。每个视频剪辑的持续时间为10秒，突出显示了600组人类动作。

Open Images:一个用于对象检测工作的大规模数据集，Open Images蕴含数百万张带有600多个对象类别正文的图像。

LJSpeech:一个用于文本到语音合成的数据集，LJSpeech蕴含131000个单个谈话者朗诵报纸上句子的短音频记录。演讲者从7本非虚构的书中摘录了局部内容。

librispeech :一个用于语音辨认工作的数据集，librispeech 蕴含了超过1000小时的录音，是LibriVox有声读物的一部分，带有相应的转录本。

AudioSet:一个音频事件辨认的数据集，AudioSet蕴含了超过527类声音的录音。这些声音片段的持续时间为10秒。它是通过应用youtube元数据和基于钻研的内容来组织的。

NSynth:一个用于乐器合成的数据集，NSynth蕴含各种乐器的录音，具备相应的音高和音色信息。它是由1006种乐器组合而成的一组曲子，共产生305979首柔美的曲子。

Chess:用于国际象棋较量预测的数据集，蕴含来自数千场较量的数据，其中蕴含玩家评级和棋子挪动序列等信息。

数据集在数据迷信和人工智能畛域中是不可或缺的工具，它们为模型的训练和评估、问题的解决以及科学研究提供了根底数据。抉择适当的数据集并进行无效的数据处理和剖析是确保数据驱动应用程序胜利的重要一步。

https://avoid.overfit.cn/post/8e58a98d26f04a00811257aebdd3e931

关于人工智能:20用于深度学习训练和研究的数据集

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:20用于深度学习训练和研究的数据集

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复