关于人工智能:常用的20个计算机视觉开源数据集总结

41次阅读

共计 2665 个字符,预计需要花费 7 分钟才能阅读完成。

计算机视觉是人工智能的一个畛域,它训练计算机解释和了解视觉世界。利用来自相机和视频的字图像以及深度学习模型,机器能够精确地辨认和分类物体,而后对它们“看到的”做出反馈。

本文总结了罕用的开源计算机视觉数据集,数据集很多如果放网址会被认定广告,所以请自行通过名字搜寻,数据集依照字母程序排序。

1、COVID-19 X-Ray Dataset (V7)

这是 COVID-19 的 V7 版本的数据集,蕴含 6500 张 AP/PA 胸部 x 光片图像,像素级的多边形肺宰割。其中有 517 例 COVID-19 病例。

每个图像都蕴含:

两个“肺”宰割掩码

类型标签(病毒性、细菌性、真菌性、衰弱 / 无)

如果患者患有 COVID-19,则会附加标签阐明年龄、性别、体温、地位、插管状态、ICU 住院状况和患者预后。

肺部正文是遵循像素级边界的多边形。能够将它们导出为 COCO、VOC 或 Darwin JSON 格局。每个正文文件都蕴含到原始全分辨率图像和放大大小的缩略图。

2、CIFAR-10 & CIFAR-100

CIFAR-10 和 CIFAR-100 是 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 收集的 8000 万张小图像数据集的标记子集。

CIFAR-10 蕴含 60000 张 32×32 彩色图像,蕴含 10 个类(动物和实在物体)。每个类有 6000 张图片。这个数据集有 50000 张训练图片和 10000 张测试图片。

CIFAR-100 蕴含 100 个类,每个类蕴含 600 个图像。每个类有 500 张训练图片和 100 张测试图片。

3、ImageNet

ImageNet 是最受欢迎的图像数据集之一,领有超过 1400 万张手工正文的图像。这个数据集就不必多介绍了

4、Kinetics-700

这是是一个大型视频数据集,蕴含 650,000 个剪辑,涵盖 700 个人类动作类。

这些视频包含演奏乐器等人与物之间的互动,以及拥抱等人与人之间的互动。每个动作类至多有 700 个视频剪辑,每个剪辑都标注了一个继续约 10 秒的动作类。

5、MNIST

这是一个手写数据的数据集,蕴含 6 万张训练图片和 1 万张测试图片。它公布于 1999 年,能够说时 CV 中的 Hello World。

6、LSUN

LSUN(大尺度场景了解)蕴含近 100 万的标记图像,别离对应 10 个场景类别和 20 个对象类别。

对于训练数据,每一类蕴含 12 万到 3 亿张图像。验证数据包含 300 张图片,测试数据每类有 1000 张图片。

7、IMDB-Wiki

它是蕴含性别、年龄和姓名的最大的公开人脸数据集之一。总共蕴含 523,051 张图片,其中 460,723 张人脸图片来自 IMDb 的 20,284 位名人,62,328 张来自维基百科。

8、MS COCO

MS COCO (Microsoft Common Objects in Context)数据集由 328K 张图像组成。它蕴含了指标检测、关键点检测、全景宰割、素材图像宰割、字幕和密集人体姿势预计的正文。

9、Labeled Faces in the Wild

它是一个领有 13000 张人脸照片的大型数据集,专门用于人脸识别工作。每张脸都标上了这个人的名字。

10、Cityscapes

Cityscapes 蕴含 50 个不同城市街道场景中录制的各种平面视频的序列。这些图像是在不同的光线条件和天气条件下拍摄的。

Cityscapes 包含语义的,实例的像素正文,蕴含了 8 个类别的 30 分类。提供了 5000 帧的像素级正文和 20,000 帧的粗略正文。

11、LabelMe-12–50k

该数据集蕴含 50,000 张 JPEG 图像(40,000 张用于训练,10,000 张用于测试),蕴含 12 个类。这些图像是从 LabelMe 中提取的。

分类包含诸如汽车、人、树或键盘等对象。训练和测试集中 50% 的图像为居中对象,而其余 50% 的图像显示随机抉择的图像的随机抉择区域。该数据集可用于对象辨认。

12、Places

Places 数据集由 250 万张图片 (带有类别标签) 和 205 个场景类别组成。每个类别有超过 5000 张图片。它能够用于场景辨认工作。

13、Places2 (365-Standard)

这里另一个由 MIT 奉献的场景数据集。有 180 万张图片来自 365 个场景类别。该数据集在验证集中每个类别蕴含 50 张图像,在测试集中蕴含 900 张图像。Places2 数据库可用于场景辨认,通用的深场景特色可用于视觉辨认。

14、VisualGenome

它是一个宏大的数据集和知识库,它蕴含 108,077 张带有正文的对象、属性及其关系的图像。

15、Stanford Dogs

这个数据集应用 ImageNet 中的图像和正文 (类标签、边界框) 构建的。蕴含来自世界各地的 120 种狗的图像。共有 20.580 张图片,120 个类别。

16、Stanford Cars

这个数据集蕴含 16,185 张图片和 196 类的汽车。数据被分成 8144 张训练图像和 8041 张测试图像,其中每个类别大抵按 50-50 的比例划分。数据集还蕴含了分类标签和边界框。

17、Cat Dataset

CAT 数据集包含 9000 多张带有正文的猫的头像图。每张猫的头像上都有 9 个点: 两个点代表眼睛,一个点代表嘴巴,还有 6 个点代表耳朵。

18、CelebFaces

名人人脸数据集 (CelebA) 是一个大型的人脸属性数据集,领有超过 200.000 张名人图片,每张图片有 40 个属性正文。每张图片的正文包含 10177 个独特的身份和 5 个地标地位。

该数据集可用于人脸检测、人脸属性辨认、定位和地标 (或面部局部) 定位的训练和测试集。

19、Face Mask Detection

此数据集蕴含 853 个属于 PASCAL VOC 格局的 3 个类及其边界框的图像。泪飙包含“戴口罩”、“不戴口罩”和“戴口罩不正确”。

20、Fire and Smoke Dataset

这是一个领有 7000 多张高清图像的数据集。它由在事实场景中应用手机捕捉到的晚期火灾和烟雾图像组成。这些照片在各种各样的光照条件和天气下拍摄。该数据集可用于火灾和烟雾辨认、检测,以及异样检测。

它还蕴含了各种家庭场景,包含垃圾和田间作物焚烧,以及家庭烹饪等。

21、FloodNet Dataset

该数据集由高分辨率的无人机图像组成,带有对于飓风造成的毁坏的具体语义正文。数据是在飓风哈维之后用小型无人机平台 DJI Mavic Pro 四轴飞行器收集的。整个数据集有 2343 张图像,分为训练集 (~60%)、验证集(~20%) 和测试集(~20%)。

https://avoid.overfit.cn/post/33f42dacef5b4ba49537a91c45cf216a

正文完
 0