共计 2261 个字符,预计需要花费 6 分钟才能阅读完成。
在 ChatGPT 引爆社会与学术界的热点后,“大模型”与“多模态”也成为了搜寻量攀升的热门词汇。这些体现了公众对人工智能的宽泛关注。
事实上,人工智能的提高离不开深度学习办法在各个具体任务上的停顿。其中,尤其是预训练任务的办法,对人工智能的提高有着重要推动作用。而在各类预训练任务中,模型性能受预训练数据集品质的影响显著。
其中,为了获取通用的多模态常识,视觉 - 语言预训练任务次要应用带有弱标签的视觉 - 语言对进行模型训练。图像 - 文本工作次要为图像及题目、内容形容和人物的动作形容等。
本文依据《视觉语言多模态预训练综述》[1] 一文,提供了一系列罕用预训练数据集及其在 OpenDataLab 上的下载链接。
SBU 数据集
SBU(Ordonez 等,2011) 数据集:
SBU 是较为晚期的大规模图像形容数据集。收集数据时, 先应用对象、属性、动作、物品和场景查问词对图片分享网站 Flickr 进行查问, 失去大量携带相干文本的照片, 而后依据形容相关性和视觉描述性进行过滤, 并保留蕴含至多两个拟定术语作为形容。
下载地址:
https://opendatalab.org.cn/SBU_Captions_Dataset/download
COCO 数据集
COCO(Lin 等,2014) 数据集:
COCO 是一个大型、丰盛的物体检测、宰割和形容数据集。数据集以场景了解为指标, 次要从简单的日常场景中截取, 图像中的指标通过准确的宰割进行地位标定, 含 91 个常见对象类别, 其中 82 类有超过 5000 个标签实例, 共含 32.8 万幅图像和 250 万个标签实例。COCO Captions(Chen 等,2015) 在 COCO 图片数据的根底上由人工标注图片形容失去。
下载地址:
https://opendatalab.org.cn/COCO_2014/download
Conceptual Captions 数据集
Conceptual Captions 为从互联网获取的图文数据集。首先按格局、大小、内容和条件筛选图像和文本,依据文字内容是否较好地匹配图像内容过滤图文对,对文本中应用内部信息源的局部利用谷歌常识图谱进行转换解决,最初进行人工抽样测验和清理,取得最终数据集。Changpinyo 等人(2021)基于 Conceptual Captions 将数据集的规模从 330 万减少到了 1200 万,提出了 Conceptual12M。
下载地址:
https://opendatalab.org.cn/Conceptual_Captions/download
HowTo100M 数据集
HowTo100M 的内容为面向简单工作的教学视频,其大多数叙述可能形容所察看到的视觉内容,并且把次要动词限度在与真实世界有互动的视觉工作上。字幕次要由 ASR 生成,以每一行字幕作为形容,并将其与该行对应的工夫距离中的视频剪辑配对。How To100M 比此前的视频预训练数据集大几个数量级,蕴含视频总时长 15 年,均匀时长 6.5min,均匀一段视频产生 110 对剪辑 - 题目,其中剪辑均匀时长 4s,题目均匀长 4 个单词。
下载地址:
https://opendatalab.org.cn/HowTo100M/download
YT-Temporal-180M 数据集
YT-Temporal-180M 笼罩的视频类型丰盛,包含来自 HowTo100M(Miech 等,2019)的教学视频,来自 VLOG(Fouhey 等,2018)的日常生活记录短视频,以及 Youtube 上主动生成的热门话题举荐视频,如“迷信”、“家装”等。对共计 2700 万候选数据按如下条件删除视频:
1)不含英文 ASR 文字描述内容;
2)时长超过 20min;
3)视觉上内容类别无奈找到依据,如视频游戏评论等;
4)利用图像分类器检测视频缩略图剔除不太可能蕴含指标对象的视频。最初,还会利用序列到序列的模型为 ASR 生成的文本增加标点符号。
下载地址:
https://opendatalab.com/YT-Temporal-180M
WebVid-2M 数据集
因为 ASR 生成的句子通常不残缺,且没有标点符号,更重要的是不肯定与图像内容齐全对齐,所以 Bain 等人(2021)针对这一问题对抓取的网络视频进行人工标注,使得形容文本词汇丰盛、格局良好且与视频视觉内容对齐,提出了 WebVid-2M(Bain 等,2021)数据集。
下载地址:
https://opendatalab.com/WebVid-2M
VQA,VQAv2.0,GQA 数据集
一些钻研(Tan 和 Bansal,2019;Cho 等,2021;Zhang 等,2021a)从 VQA,VQAv2.0,GQA 这类问答数据集获取预训练数据。应用时不蕴含测试数据,个别将问题形容与答案句子作为文本输出,与图像形成图文对,从而进行模态间的预训练。
下载地址:
https://opendatalab.com/VQA
https://opendatalab.org.cn/VQA-v2.0/download
https://opendatalab.org.cn/GQA/download
援用
[1] 张浩宇, 王天保, 李孟择, 赵洲, 浦世亮, 吴飞. 视觉语言多模态预训练综述 [J]. 中国图象图形学报,2022,27(09):2652-2682.
-END-
更多数据集,欢送拜访 OpenDataLab 官网:https://opendatalab.org.cn/
没有想要的数据集,怎么办?
如果在平台没有找到您想要的数据集资源,欢送扫描下方二维码,记录您的需要,咱们会致力为您提供相干反对。