关于机器学习:天池数据集-精品数据集推荐-多模态篇

5次阅读

共计 1982 个字符,预计需要花费 5 分钟才能阅读完成。

多模态机器学习,旨在通过机器学习的办法实现解决和了解多源模态信息的能力。目前比拟热门的钻研方向是图像、视频、音频、语义之间的多模态学习。

近年来,大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言解决等畛域疾速倒退,同时也推动了多模态表征学习的钻研。2020 年谷歌人工智能大神 Jeff Dean 就曾指出,多模态钻研将会是将来钻研一大趋势。本期萌喵将带大家一起看看多模态钻研畛域的数据集,心愿能够助力大家的学习 & 钻研~

Multimodal Retrieval Dataset 淘宝多模态检索数据集

钻研方向:跨模态检索

在传统电商时代,用户搜寻产品时大都是依附关键词去匹配产品,因为产品的关键词个别是由卖家自拟,局部商家为了进步商品曝光量会拟定很多关键词,故用户搜寻时偶然会呈现与搜索词不相干的产品。

应用图像特色对产品汇合进行排名比单靠解决自然语言来得更加高效。候选产品的图片由展现产品特色的卖家提供,与查问最相干的候选产品就会在搜寻后果中排名靠前。

天池平台凋谢了手机淘宝的实在场景多模态数据,数据集由淘宝搜寻查问词和产品图像特色组成,留神数据集并未提供商品题目,开源的目标是促成跨模态检索畛域的技术钻研。

下图为一个示例:用户查问“豹纹女鞋”,左图被视为相干产品,右图则被视为不相干产品。

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/da…

Watch and Buy 淘宝直播商品检索数据集

钻研方向:物体检测、主播用意辨认、多模态检索

直播带货是淘宝连贯商品和消费者的重要形式,通过对直播视频中商品进行实时辨认和举荐,可实现消费者边看边买的生产体验。

为晋升直播中商品匹配辨认的成果,依靠淘宝直播海量数据,咱们推出了业界最大规模的多模态视频商品检索数据集: Watch and Buy,数据集蕴含 70,000 个由直播视频片段和对应解说商品形成的匹配对, 具备规模大、标注全、模态多、性能广的特点。可用于物体检测的算法、商品重辨认算法、主播用意辨认和多模态检索等多种前沿技术的钻研。

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/da…

Product-oriented Video Caption Datasets 面向商品的视频形容生成数据集

钻研方向:视频文本生成,vedio to text generation

观看短视频曾经成为人们的日常,如何针对视频内容来生成蕴含产品特色的文字描述对于商品的推广施展着重要作用。本次咱们凋谢的商品视频形容数据集,由 7w+ 个服饰视频数据组成,具体数据包含视频自身及其关联商品属性。

下图形容了通过视频及商品自身的相干属性,产出视频形容的过程(注:图 (c) 中的‘Poet’为本数据集论文中应用的模型)

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/da…
论文请戳:
https://arxiv.org/abs/2008.06880

Video Titling Dataset 视频题目生成数据集

钻研方向:视频题目生成,vedio to text generation

视频举荐是电商畛域的重要推广形式,诸如“买家秀”这种消费者生成的视频通常会传播不同消费者对某些产品不同方面的集体偏好,数量宏大。为了更无效地向潜在消费者举荐这些视频,多样化和吸引人的视频题目至关重要。

只管买家秀有产品的评论,然而这些评论无奈间接作为题目。本数据集在这样的背景下公开,目标是促成视频形容生成畛域的进一步钻研。本数据集的内容包含:消费者生成的视频、消费者所写的评论语句以及相干产品的属性,冀望通过对买家秀视频、买家秀的评论内容和相干产品的属性,为消费者生成买家秀的视频题目。

下图为本数据集问题定义的流程简图:

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/da…

论文请戳:
https://dl.acm.org/doi/epdf/1…

中文多模态基准评测 MUGE

钻研方向:图片形容生成、图片生成、跨模态检索

最初为大家介绍的是中文多模态基准评测 MUGE,MUGE 全称是 Multimodal Understanding and Generation Evaluation Benchmark,由达摩院联结浙江大学、天池平台独特推出。MUGE 将实现多场景多任务的笼罩,其中包含了解类工作,如跨模态检索、跨模态分类等,以及生成类工作,如图文形容、基于文本的图像生成等,钻研人员可能从理解能力和生成能力两大角度去评估算法模型。MUGE 是业界首个中文畛域的多模态评测基准,旨在帮忙中文多模态钻研人员全方位评估算法模型。

数据集更多详情 / 下载数据集请戳:
https://tianchi.aliyun.com/da…

看完这些数据集,大家是否有播种呢?

正文完
 0