在 ChatGPT 引爆社会与学术界的热点后,“大模型”与“多模态”也成为了搜寻量攀升的热门词汇。这些体现了公众对人工智能的宽泛关注。

事实上,人工智能的提高离不开深度学习办法在各个具体任务上的停顿。其中,尤其是预训练任务的办法,对人工智能的提高有着重要推动作用。而在各类预训练任务中,模型性能受预训练数据集品质的影响显著。

其中,为了获取通用的多模态常识,视觉-语言预训练任务次要应用带有弱标签的视觉-语言对进行模型训练。图像-文本工作次要为图像及题目、内容形容和人物的动作形容等。

本文依据《视觉语言多模态预训练综述》[1]一文,提供了一系列罕用预训练数据集及其在OpenDataLab上的下载链接。

SBU数据集

SBU(Ordonez等,2011)数据集:
SBU是较为晚期的大规模图像形容数据集。收集数据时,先应用对象、属性、动作、物品和场景查问词对图片分享网站Flickr进行查问,失去大量携带相干文本的照片,而后依据形容相关性和视觉描述性进行过滤,并保留蕴含至多两个拟定术语作为形容。

下载地址:
https://opendatalab.org.cn/SBU_Captions_Dataset/download

COCO数据集

COCO(Lin等,2014)数据集:
COCO是一个大型、丰盛的物体检测、宰割和形容数据集。数据集以场景了解为指标,次要从简单的日常场景中截取,图像中的指标通过准确的宰割进行地位标定,含91个常见对象类别,其中82类有超过5000个标签实例,共含32.8万幅图像和250万个标签实例。COCO Captions(Chen等,2015)在COCO图片数据的根底上由人工标注图片形容失去。

下载地址:
https://opendatalab.org.cn/COCO_2014/download

Conceptual Captions数据集

Conceptual Captions为从互联网获取的图文数据集。首先按格局、大小、内容和条件筛选图像和文本,依据文字内容是否较好地匹配图像内容过滤图文对,对文本中应用内部信息源的局部利用谷歌常识图谱进行转换解决,最初进行人工抽样测验和清理,取得最终数据集。Changpinyo等人(2021)基于Conceptual Captions将数据集的规模从330万减少到了1200万,提出了Conceptual12M。

下载地址:
https://opendatalab.org.cn/Conceptual_Captions/download

HowTo100M数据集

HowTo100M的内容为面向简单工作的教学视频,其大多数叙述可能形容所察看到的视觉内容,并且把次要动词限度在与真实世界有互动的视觉工作上。字幕次要由ASR生成,以每一行字幕作为形容,并将其与该行对应的工夫距离中的视频剪辑配对。How To100M比此前的视频预训练数据集大几个数量级,蕴含视频总时长15年,均匀时长6.5min,均匀一段视频产生110对剪辑-题目,其中剪辑均匀时长4s,题目均匀长4个单词。

下载地址:
https://opendatalab.org.cn/HowTo100M/download

YT-Temporal-180M数据集

YT-Temporal-180M笼罩的视频类型丰盛,包含来自HowTo100M(Miech等,2019)的教学视频,来自VLOG(Fouhey等,2018)的日常生活记录短视频,以及Youtube上主动生成的热门话题举荐视频,如“迷信”、“家装”等。对共计2700万候选数据按如下条件删除视频:
1)不含英文ASR文字描述内容;

2)时长超过20min;

3)视觉上内容类别无奈找到依据,如视频游戏评论等;

4)利用图像分类器检测视频缩略图剔除不太可能蕴含指标对象的视频。最初,还会利用序列到序列的模型为ASR生成的文本增加标点符号。

下载地址:
https://opendatalab.com/YT-Temporal-180M

WebVid-2M数据集

因为ASR生成的句子通常不残缺,且没有标点符号,更重要的是不肯定与图像内容齐全对齐,所以Bain等人(2021)针对这一问题对抓取的网络视频进行人工标注,使得形容文本词汇丰盛、格局良好且与视频视觉内容对齐,提出了WebVid-2M(Bain等,2021)数据集。

下载地址:
https://opendatalab.com/WebVid-2M

VQA,VQAv2.0,GQA数据集

一些钻研(Tan和Bansal,2019;Cho等,2021;Zhang等,2021a)从VQA,VQAv2.0,GQA这类问答数据集获取预训练数据。应用时不蕴含测试数据,个别将问题形容与答案句子作为文本输出,与图像形成图文对,从而进行模态间的预训练。

下载地址:

https://opendatalab.com/VQA

https://opendatalab.org.cn/VQA-v2.0/download

https://opendatalab.org.cn/GQA/download

援用

[1] 张浩宇,王天保,李孟择,赵洲,浦世亮,吴飞.视觉语言多模态预训练综述[J].中国图象图形学报,2022,27(09):2652-2682.

-END-
更多数据集,欢送拜访OpenDataLab官网:https://opendatalab.org.cn/

没有想要的数据集,怎么办?

如果在平台没有找到您想要的数据集资源,欢送扫描下方二维码,记录您的需要,咱们会致力为您提供相干反对。