关于人工智能:常用的20个计算机视觉开源数据集总结

计算机视觉是人工智能的一个畛域，它训练计算机解释和了解视觉世界。利用来自相机和视频的字图像以及深度学习模型，机器能够精确地辨认和分类物体，而后对它们“看到的”做出反馈。

本文总结了罕用的开源计算机视觉数据集，数据集很多如果放网址会被认定广告，所以请自行通过名字搜寻，数据集依照字母程序排序。

1、COVID-19 X-Ray Dataset (V7)

这是COVID-19的V7版本的数据集，蕴含6500张AP/PA胸部x光片图像，像素级的多边形肺宰割。其中有517例COVID-19病例。

每个图像都蕴含:

两个“肺”宰割掩码

类型标签(病毒性、细菌性、真菌性、衰弱/无)

如果患者患有COVID-19，则会附加标签阐明年龄、性别、体温、地位、插管状态、ICU住院状况和患者预后。

肺部正文是遵循像素级边界的多边形。能够将它们导出为COCO、VOC或Darwin JSON格局。每个正文文件都蕴含到原始全分辨率图像和放大大小的缩略图。

2、CIFAR-10 & CIFAR-100

CIFAR-10和CIFAR-100是Alex Krizhevsky、Vinod Nair和Geoffrey Hinton收集的8000万张小图像数据集的标记子集。

CIFAR-10蕴含60000张32x32彩色图像，蕴含10个类(动物和实在物体)。每个类有6000张图片。这个数据集有50000张训练图片和10000张测试图片。

CIFAR-100蕴含100个类，每个类蕴含600个图像。每个类有500张训练图片和100张测试图片。

3、ImageNet

ImageNet是最受欢迎的图像数据集之一，领有超过1400万张手工正文的图像。这个数据集就不必多介绍了

4、Kinetics-700

这是是一个大型视频数据集，蕴含650,000个剪辑，涵盖700个人类动作类。

这些视频包含演奏乐器等人与物之间的互动，以及拥抱等人与人之间的互动。每个动作类至多有700个视频剪辑，每个剪辑都标注了一个继续约10秒的动作类。

5、MNIST

这是一个手写数据的数据集，蕴含6万张训练图片和1万张测试图片。它公布于1999年，能够说时CV中的Hello World。

6、LSUN

LSUN(大尺度场景了解)蕴含近100万的标记图像，别离对应10个场景类别和20个对象类别。

对于训练数据，每一类蕴含12万到3亿张图像。验证数据包含300张图片，测试数据每类有1000张图片。

7、IMDB-Wiki

它是蕴含性别、年龄和姓名的最大的公开人脸数据集之一。总共蕴含523,051张图片，其中460,723张人脸图片来自IMDb的20,284位名人，62,328张来自维基百科。

8、MS COCO

MS COCO (Microsoft Common Objects in Context)数据集由328K张图像组成。它蕴含了指标检测、关键点检测、全景宰割、素材图像宰割、字幕和密集人体姿势预计的正文。

9、Labeled Faces in the Wild

它是一个领有13000张人脸照片的大型数据集，专门用于人脸识别工作。每张脸都标上了这个人的名字。

10、Cityscapes

Cityscapes蕴含50个不同城市街道场景中录制的各种平面视频的序列。这些图像是在不同的光线条件和天气条件下拍摄的。

Cityscapes包含语义的，实例的像素正文，蕴含了8个类别的30分类。提供了5000帧的像素级正文和20,000帧的粗略正文。

11、LabelMe-12–50k

该数据集蕴含50,000张JPEG图像(40,000张用于训练，10,000张用于测试)，蕴含12个类。这些图像是从LabelMe中提取的。

分类包含诸如汽车、人、树或键盘等对象。训练和测试集中50%的图像为居中对象，而其余50%的图像显示随机抉择的图像的随机抉择区域。该数据集可用于对象辨认。

12、Places

Places数据集由250万张图片(带有类别标签)和205个场景类别组成。每个类别有超过5000张图片。它能够用于场景辨认工作。

13、Places2 (365-Standard)

这里另一个由MIT奉献的场景数据集。有180万张图片来自365个场景类别。该数据集在验证集中每个类别蕴含50张图像，在测试集中蕴含900张图像。Places2数据库可用于场景辨认，通用的深场景特色可用于视觉辨认。

14、VisualGenome

它是一个宏大的数据集和知识库，它蕴含108,077张带有正文的对象、属性及其关系的图像。

15、Stanford Dogs

这个数据集应用ImageNet中的图像和正文(类标签、边界框)构建的。蕴含来自世界各地的120种狗的图像。共有20.580张图片，120个类别。

16、Stanford Cars

这个数据集蕴含16,185张图片和196类的汽车。数据被分成8144张训练图像和8041张测试图像，其中每个类别大抵按50-50的比例划分。数据集还蕴含了分类标签和边界框。

17、Cat Dataset

CAT数据集包含9000多张带有正文的猫的头像图。每张猫的头像上都有9个点:两个点代表眼睛，一个点代表嘴巴，还有6个点代表耳朵。

18、CelebFaces

名人人脸数据集(CelebA)是一个大型的人脸属性数据集，领有超过200.000张名人图片，每张图片有40个属性正文。每张图片的正文包含10177个独特的身份和5个地标地位。

该数据集可用于人脸检测、人脸属性辨认、定位和地标(或面部局部)定位的训练和测试集。

19、Face Mask Detection

此数据集蕴含853个属于PASCAL VOC格局的3个类及其边界框的图像。泪飙包含“戴口罩”、“不戴口罩”和“戴口罩不正确”。

20、Fire and Smoke Dataset

这是一个领有7000多张高清图像的数据集。它由在事实场景中应用手机捕捉到的晚期火灾和烟雾图像组成。这些照片在各种各样的光照条件和天气下拍摄。该数据集可用于火灾和烟雾辨认、检测，以及异样检测。

它还蕴含了各种家庭场景，包含垃圾和田间作物焚烧，以及家庭烹饪等。

21、FloodNet Dataset

该数据集由高分辨率的无人机图像组成，带有对于飓风造成的毁坏的具体语义正文。数据是在飓风哈维之后用小型无人机平台DJI Mavic Pro四轴飞行器收集的。整个数据集有2343张图像，分为训练集(~60%)、验证集(~20%)和测试集(~20%)。

https://avoid.overfit.cn/post/33f42dacef5b4ba49537a91c45cf216a