关于机器学习:中文多模态基准评测MUGE介绍

近年来，大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言解决等畛域疾速倒退，同时也推动了多模态表征学习的钻研。2020 年 Jeff Dean 就曾指出，多模态钻研将会是将来钻研一大趋势。在国内，目前阿里巴巴达摩院智能计算实验室也在深度摸索中文多模态预训练及超大规模预训练，近期相继推出了百亿、千亿和万亿参数 M6 模型[1]，实现了以后最大规模的多模态预训练模型，并将其利用到各大上游工作，宽泛落地到搜寻、举荐、服饰设计、智能文案等实在场景中。

然而，目前多模态畛域的评测基准和数据集多以英文为主，如 MSCOCO 的 Image Captioning [2]，VQA 3，textVQA，VCR 等，并且不足一个对立的评测基准让钻研人员能够全面评测本人的模型在不同场景以及不同工作类型的体现。以后中文畛域的多模态公开数据集和榜单更是乏善可陈。思考到中文多模态畛域的蓬勃发展，达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准 MUGE，领有以后最大规模的中文多模态评测数据集，笼罩多种类型的工作，包含图文形容、基于文本的图像生成、跨模态检索等，对模型开展了全方位的评测，帮忙钻研人员对本人的模型失去更好的了解。

MUGE 全称是 Multimodal Understanding and Generation Evaluation Benchmark，首期次要凋谢中文多模态相干上游工作数据集和评测榜单，旨在帮忙中文多模态钻研人员全方位评估算法模型。MUGE 将实现多场景多任务的笼罩，其中包含了解类工作，如跨模态检索、跨模态分类等，以及生成类工作，如图文形容、基于文本的图像生成等，钻研人员可能从理解能力和生成能力两大角度去评估算法模型。首期凋谢了包含了如下 3 个工作：

图像形容生成是一项经典的多模态工作，工作指标是依据一张图像生成相应的文字描述，要求生成的形容须如实反映图中的物体以及要害细节。电商畛域有着泛滥的商品图片，将图像形容技术利用于电商畛域，为每个商品生成一段富含吸引力的形容，对于吸引用户的点击、进步转化率有着重要的意义。

E-Commerce IC 数据集涵盖了服装、食品、化妆品、3C 数码配件等泛滥商品类目，所有数据均来源于实在的淘宝电商场景。其中，商品对应的文字描述由商家依据商品个性来撰写，不同文案间的格调差别很大，这给图像形容的生成带来了很多挑战。ECommerce-IC 共蕴含 5w 条训练数据和 5k 条验证集数据，同时提供 1w 张图片用于在线评测，是目前业界最大的中文电商 Caption 数据集。

上面是两个样例：

例子 1：

输出（商品图片）：

输入（商品文案形容）：应用原始北欧格调，崇尚天然，以木色、彩色、红色作为整体色调，给人舒服平静的感觉，轻松就餐，能力留住好食光，在极简风的北欧餐厅中，纵情享受美食。
例子 2:

输出（商品图片）：

输入（商品文案形容）：西装印花裙的两件套，知性中又有带着优雅洒脱。雅致的印花裙邂逅西服，轻松打造粗劣的职场女神。脱掉外套仍然漂亮优雅，不失为理智的穿搭。V 领的设计更显女性的性感魅力。如行走的时装画册粗劣，有品位更具备风度。

文本到图像生成是一项具备挑战性的工作，要求模型具备在跨模态了解的根底上生成图像的能力。工作指标是依据一段文本形容，生成合乎相应形容的图像，同时要求图像清晰且真切。电商畛域有着泛滥的商品图片，将文本到图像生成技术利用于电商畛域，对于商品上新、设计、散发，缩小商家经营老本，进步用户体验有着重要的意义。

本次公布的 ECommerce-T2I 数据集涵盖了服装、饰品、化妆品内的多个商品类目，所有数据均来源于实在淘宝电商场景。整个数据集由训练集、验证集和测试集组成。其中训练集有 9w 张图片，验证集和测试集各有 5k 张。此外，本数据集内的图片均为白底图，选手无需额定的精力放在背景生成上，次要考查模型对商品文本的了解和生成能力，进步物体的生成品质。

上面是两个样例：

例子 1：

输出（文本）：绵羊毛商务休闲西服套装
输入（生成图像）：

例子 2：

输出（文本）：减震透气跑鞋
输入（生成图像）：

多模态检索评估模型进行图文了解和匹配的能力，是电商场景中满足用户需要、促成点击交易不可短少的一环。在此次工作中，咱们筹备了来自于淘宝电商平台的实在搜寻 query 及商品图，要求模型从给定的商品池中检索出与搜寻 query 相匹配的商品（样例如下图）。为了更好评估模型跨模态了解的成果，咱们此次不公开商品的题目以及其余信息，要求模型仅基于商品图片进行检索召回，具备肯定的挑战性。

此次公开的电商图文检索数据集由训练集、验证集和测试集组成，其中训练集蕴含 25w 搜寻 query- 商品图形成的图文对，涵盖约 12w 商品图片。对于验证集和测试集，咱们各筹备了 5k 搜寻 query 和 3w 候选商品图片。数据集类目涵盖宽泛，波及服装、家居、电子、化妆品等多个畛域，是目前最大的中文全畛域电商图文检索数据集，对模型的泛化能力提出了考验。

上面是两个样例：

例子 1：

输出（Query）：纯棉碎花吊带裙
输入：商品图片

例子 2:

输出（Query）：北欧轻奢边几
输入：商品图片

MUGE 的提出旨在解决以后中文多模态畛域上游工作数据集匮乏的问题，并且为宽广研究者提供平台和评测基准去掂量算法模型的有效性。此外，相较于传统榜单，MUGE 的覆盖面更全，涵盖了解和生成两大类工作，并开创性地将基于文本的图像生成纳入其中。将来，MUGE 也会继续地扩增更多的多模态工作及数据规模，进一步为钻研人员和开发者晋升算法模型成果而提供反对。

MUGE 目前曾经在阿里云天池平台凋谢，感兴趣的研究者们能够拜访如下链接进入 MUGE leaderboard 参加挑战: MUGE(Multimodal Understanding and Generation Evaluation)

Baseline: MUGE-2021 – Overview

达摩院智能计算实验室认知智能组鼎力推动超大规模中文多模态预训练工作钻研，先后公布了百亿、千亿和万亿参数规模的大规模预训练模型 M6，在多项上游工作上获得突出的成果晋升，同时也在大规模预训练根底技术上做了深度的摸索，包含如何训练超大模型和如何设计 MoE 模型架构等。M6 的工作目前已被 KDD 2021 录用。

[1] Lin, J., Men, R., Yang, A., Zhou, C., Ding, M., Zhang, Y., Wang, P., Wang, A., Jiang, L., Jia, X., Zhang, J., Zhang, J., Zou, X., Li, Z., Deng, X., Liu, J., Xue, J., Zhou H., Ma, J., Yu, J., Li, Y., Zhou, J., Tang, J., & Yang, H. (2021). M6: A chinese multimodal pretrainer. ArXiv, abs/2103.00823.

[2] Chen, X., Fang, H., Lin, T., Vedantam, R., Gupta, S., Dollár, P., & Zitnick, C.L. (2015). Microsoft COCO Captions: Data Collection and Evaluation Server. ArXiv, abs/1504.00325.

[3] Agrawal, A., Lu, J., Antol, S., Mitchell, M., Zitnick, C.L., Parikh, D., & Batra, D. (2015). VQA: Visual Question Answering. International Journal of Computer Vision, 123, 4-31.

[4] Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., & Parikh, D. (2017). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6325-6334.

关于机器学习:中文多模态基准评测MUGE介绍

背景

MUGE 介绍

E-Commerce IC（Image Caption）

E-Commerce T2I（Text to Image）:

Multimodal Retrieval Dataset

MUGE 挑战榜

对于 M6

参考资料