关于人工智能:资源盘点丨9个经典视觉语言多模态预训练数据集

在 ChatGPT 引爆社会与学术界的热点后，“大模型”与“多模态”也成为了搜寻量攀升的热门词汇。这些体现了公众对人工智能的宽泛关注。

事实上，人工智能的提高离不开深度学习办法在各个具体任务上的停顿。其中，尤其是预训练任务的办法，对人工智能的提高有着重要推动作用。而在各类预训练任务中，模型性能受预训练数据集品质的影响显著。

其中，为了获取通用的多模态常识，视觉-语言预训练任务次要应用带有弱标签的视觉-语言对进行模型训练。图像-文本工作次要为图像及题目、内容形容和人物的动作形容等。

本文依据《视觉语言多模态预训练综述》[1]一文，提供了一系列罕用预训练数据集及其在OpenDataLab上的下载链接。

SBU数据集

SBU(Ordonez等,2011)数据集:
SBU是较为晚期的大规模图像形容数据集。收集数据时,先应用对象、属性、动作、物品和场景查问词对图片分享网站Flickr进行查问,失去大量携带相干文本的照片,而后依据形容相关性和视觉描述性进行过滤,并保留蕴含至多两个拟定术语作为形容。

下载地址：
https://opendatalab.org.cn/SBU_Captions_Dataset/download

COCO数据集

COCO(Lin等,2014)数据集:
COCO是一个大型、丰盛的物体检测、宰割和形容数据集。数据集以场景了解为指标,次要从简单的日常场景中截取,图像中的指标通过准确的宰割进行地位标定,含91个常见对象类别,其中82类有超过5000个标签实例,共含32.8万幅图像和250万个标签实例。COCO Captions(Chen等,2015)在COCO图片数据的根底上由人工标注图片形容失去。

下载地址：
https://opendatalab.org.cn/COCO_2014/download

Conceptual Captions数据集

Conceptual Captions为从互联网获取的图文数据集。首先按格局、大小、内容和条件筛选图像和文本，依据文字内容是否较好地匹配图像内容过滤图文对，对文本中应用内部信息源的局部利用谷歌常识图谱进行转换解决，最初进行人工抽样测验和清理，取得最终数据集。Changpinyo等人（2021）基于Conceptual Captions将数据集的规模从330万减少到了1200万，提出了Conceptual12M。

下载地址：
https://opendatalab.org.cn/Conceptual_Captions/download

HowTo100M数据集

HowTo100M的内容为面向简单工作的教学视频，其大多数叙述可能形容所察看到的视觉内容，并且把次要动词限度在与真实世界有互动的视觉工作上。字幕次要由ASR生成，以每一行字幕作为形容，并将其与该行对应的工夫距离中的视频剪辑配对。How To100M比此前的视频预训练数据集大几个数量级，蕴含视频总时长15年，均匀时长6.5min，均匀一段视频产生110对剪辑-题目，其中剪辑均匀时长4s，题目均匀长4个单词。

下载地址：
https://opendatalab.org.cn/HowTo100M/download

YT-Temporal-180M数据集

YT-Temporal-180M笼罩的视频类型丰盛，包含来自HowTo100M（Miech等，2019）的教学视频，来自VLOG（Fouhey等，2018）的日常生活记录短视频，以及Youtube上主动生成的热门话题举荐视频，如“迷信”、“家装”等。对共计2700万候选数据按如下条件删除视频：
1）不含英文ASR文字描述内容；

2）时长超过20min；

3）视觉上内容类别无奈找到依据，如视频游戏评论等；

4）利用图像分类器检测视频缩略图剔除不太可能蕴含指标对象的视频。最初，还会利用序列到序列的模型为ASR生成的文本增加标点符号。

下载地址：
https://opendatalab.com/YT-Temporal-180M

WebVid-2M数据集

因为ASR生成的句子通常不残缺，且没有标点符号，更重要的是不肯定与图像内容齐全对齐，所以Bain等人（2021）针对这一问题对抓取的网络视频进行人工标注，使得形容文本词汇丰盛、格局良好且与视频视觉内容对齐，提出了WebVid-2M（Bain等，2021）数据集。

下载地址：
https://opendatalab.com/WebVid-2M

VQA，VQAv2.0，GQA数据集

一些钻研（Tan和Bansal，2019；Cho等，2021；Zhang等，2021a）从VQA，VQAv2.0，GQA这类问答数据集获取预训练数据。应用时不蕴含测试数据，个别将问题形容与答案句子作为文本输出，与图像形成图文对，从而进行模态间的预训练。

下载地址：

https://opendatalab.com/VQA

https://opendatalab.org.cn/VQA-v2.0/download

https://opendatalab.org.cn/GQA/download

援用

[1] 张浩宇,王天保,李孟择,赵洲,浦世亮,吴飞.视觉语言多模态预训练综述[J].中国图象图形学报,2022,27(09):2652-2682.

-END-
更多数据集，欢送拜访OpenDataLab官网：https://opendatalab.org.cn/

没有想要的数据集，怎么办？

如果在平台没有找到您想要的数据集资源，欢送扫描下方二维码，记录您的需要，咱们会致力为您提供相干反对。