关于美团:ACM-MM-ECCV-2022-美团视觉8篇论文揭秘内容领域的智能科技

4次阅读

共计 7083 个字符,预计需要花费 18 分钟才能阅读完成。

人工智能技术正在成为内容畛域的中台力量,其中视觉 AI 曾经渗透到内容生产、内容审核、内容散发、用户互动、商业化变现等各个环节。美团视觉智能部以场景化的内容产品、智能化的内容工具助力产业,在内容的创作、内容散发等环节利用宽泛。
前不久,美团视觉智能部的 8 篇论文被多媒体和计算机视觉畛域顶会 ACM MM 与 ECCV 收录,本文将疾速带你理解这 8 篇论文的研究成果及其可在内容畛域的落地利用。

内容生产

围绕素材解析、创意生成、展现自适应等内容生产链路,须要继续优化智能抠图、智能延拓、图像文案生成等外围功能模块。因而,在驱动视觉语义宰割、跨模态生成等底层技术方向须要继续降级与翻新。

ECCV | Adaptive Spatial-BCE Loss for Weakly Supervised Semantic Segmentation(基于自适应空间二元穿插熵的弱监督语义宰割)

论文作者 :吴桐(北京理工大学 & 美团实习生),高广宇(北京理工大学),黄君实(美团),魏晓明(美团),魏晓林(美团),刘驰(北京理工大学)

论文下载 :PDF

论文简介 :弱监督语义宰割旨在解决全监督语义宰割工作中所需的像素级标签人工成本和工夫开销较大的毛病,通过引入较弱的监督信息来升高相干老本。其中本文所应用的图像级监督老本最低,但其较低的信息量也带来了更大的挑战。以后的通用流程是先通过分类网络生成宰割伪标签,通过后处理细化后再用伪标签训练语义宰割网络。先前办法次要有以下毛病:1)生成的伪标签物体轮廓不清晰;2)前背景的划分阈值须要人工调节,升高了泛用性;3)性能重大依赖后处理,训练复杂度较高。为了缓解这些毛病,咱们提出了一个新的损失函数——空间二元穿插熵损失(Spatial-BCE),通过为前景和背景像素调配不同的优化方向来进步它们之间的特色差异性,进而实现更加清晰的伪标签物体轮廓,如下图 1 所示:

此外,咱们还引入了自适应阈值,通过在训练中让损失函数自行划分前背景像素的比例,并在推理时可同样将划分阈值交由网络生成。最初,咱们还设计了配套的迭代式训练方法,大幅提高了初始伪标签的准确率,即便不应用简单的后处理办法,咱们也能够实现以后的最优性能。大量试验表明,咱们的办法在 PASCAL VOC 2012 和 MS-COCO 2014 数据集上在均可成为 SoTA,如下图 2 所示:

该办法对于广告营销素材解析、商品白底图(如下图 3)生产等工作,具备弱小的提效作用。针对营销素材、商品主图等元素解析能力,传统的办法须要应用结构化 PSD 来实现各素材元素、商品主体的拆散,这极大地限度了解析能力的应用场景。尽管,能够引入语义宰割的能力来解决动态图片的素材解析,然而其标注老本高、主体定义繁冗等问题,始终困扰着设计和算法人员。为此,基于大量容易收集的图片级标签,能够通过本文的弱监督语义宰割能力,高效地实现像素级的创意素材解析,进而为后续的创意重组和生成提供短缺的供应。

ACM MM | Efficient Modeling of Future Context for Image Captioning(基于自适应空间二元穿插熵的弱监督语义宰割)

论文作者 :费政聪(美团),黄君实(美团),魏晓明(美团),魏晓林(美团)

论文下载 :PDF

论文简介 :现有的图像形容(Image Caption)生成办法通常从左到右一一生成单词,并受到部分信息(包含给定图像和历史单词)的束缚。有许多钻研的指标是在解码过程中尝试利用全局上下文进行优化,例如迭代解码,然而,如何无效和高效地联合将来上下文仍有待摸索。

为了应答这个问题,受到非自回归图像形容(Non-Autoregressive Image Captioning, NAIC)能够利用批改掩码操作来了解双边关系的启发,咱们旨在将这一提高移植到传统的自回归图像形容模型中,同时放弃推理效率,不减少额定的工夫老本,如下图 4 所示:

具体来说,自回归和非自回归图像形容模型首先通过共享视觉编码器进行联结训练,以强制视觉编码器蕴含无效的将来上下文;而后,迫使自回归图像形容模型对其不统一预测词的散布校准(相似于常识蒸馏),同时额定捕获非自回归模型中跨层替换的因果变动。试验结果表明,咱们提出的办法在 MS COCO 基准的主动指标评估和人类评估方面显著超过了最先进的基准模型。

本文办法对于智能广告文案、商品介绍生成(如下图 5)有重大价值,有助于晋升营销、曝光点击率,缩小人工设计老本。对于广告营销文案的生成,产品图片给用户的第一印象来自于外观,它对用户的决策有着重要的影响。因而,图像形容生成零碎必须可能充沛开掘图片视觉信息,反映产品的外观特色,从而促成消费者的点击和下单转化。本文提出的高效将来信息建模办法,有助于更细粒度、更高质量的文本生成。

内容散发

高效的内容散发离不开对其结构化形容,包含图像视频的标签化、模态间(图 - 文、视频 - 文本)相关性等。近年来随着图文 / 短视频内容的广泛性、个性化及热点效应日趋显著,对新标签下的模型冷启动、更细粒度(包含空间上、语义上)的图文匹配、精细化的图像 / 视频 - 文本检索提出了更高的技术要求。

ACM MM | PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding(针对单阶段全景指代宰割的像素 - 短语匹配网络)

论文作者 :丁子涵(北京航空航天大学 & 美团实习生),惠天瑞(中国科学院信息工程研究所),黄君实(美团),魏晓明(美团),魏晓林(美团),刘偲(北京航空航天大学)

论文下载 :PDF

论文简介 :Panoptic Narrative Grounding (PNG) 是一项新兴工作,其指标是宰割由静止图像的密集叙述字幕形容的 things 和 stuff 类别的视觉对象。之前的两阶段办法首先通过现有的全景宰割模型提取宰割候选区域,而后进行粗粒度的区域 - 短语匹配以失去每个名词短语对应的宰割后果。

然而,两阶段办法通常有以下毛病:1)第一阶段低质量候选区域的性能限度;2)区域特色池化导致的空间细节损失;3)需为 things 和 stuff 类别别离设计的简单策略。为了缓解这些毛病,咱们提出了一种单阶段端到端像素短语匹配网络(PPMN)(如下图 6),通过间接将每个短语与其对应的像素匹配并简略的组合输入全景宰割。

因而,咱们的模型能够从密集正文的像素 - 短语对而不是稠密的区域 - 短语对的监督中利用足够和更精密的跨模态语义对应。此外,咱们还提出了一种语言兼容像素聚合(LCPA)模块,通过多轮优化进一步加强短语特色的判断能力,该模块为每个短语抉择最兼容的像素,以自适应地聚合相应的视觉上下文。大量的试验表明,咱们的办法在 PNG 数据集上实现了最优的性能,该工作也为信息流场景下的像素级图像内容了解及图文对齐工作垫定了根底。

本文办法对于信息流场景下的用户评论标签开掘有重大价值。评论数据作为用户对商家的多维度形容,承载了大量实在、多样的用户趣味点。开掘评论数据中的文本标签及图片定位信息,有助于咱们从图文多模态角度深刻了解用户趣味,进而实现内容的精准投放。本文的办法补救了以往粗粒度图文开掘工作的有余,通过端到端的像素 - 语句级别对齐,实现了更为精准、粗疏的多模态内容理解能力。该能力可间接用于图像标签开掘、跨模态以文搜图、图文多模态一致性判断等工作。

ACM MM | Concept Propagation via Attentional Knowledge Graph Reasoning for Video-Text Retrieval(基于注意力机制的常识图推理概念流传办法及其在视频文本检索工作中的利用)

论文作者 :方晟(中国科学院计算技术研究所),王树徽(中国科学院计算技术研究所),卓君宝(中国科学院计算技术研究所 & 美团实习生),黄庆明(中国科学院计算技术研究所),马彬(美团),魏晓明(美团),魏晓林(美团)

论文下载 :PDF

论文简介 :随着短视频平台的衰亡,视频数量的急剧增长使得视频文本检索技术越发要害。这个工作的次要挑战在于如何找到视频和文本间细粒度的语义关联。为了解决这个问题,本文提出了一个基于注意力的概念流传网络框架(Attentional Concept Propagation, ACP),如下图 7 所示:

本文思考了概念层级的信息,在内容层面匹配的根底上引入了语义层面的匹配。在语义层面的匹配分支中,本文设计了概念流传机制来开掘视频中的隐含语义。具体来说,在内部常识的领导下,本文的办法利用概念间的关联,扩大失去检测器之外的概念,以此来丰盛视频的表征。通过这种形式,本文的办法实现了细粒度的视频文本的匹配,从而失去更精确的检索后果,并在多个不同的基准模型以及多个公开数据集上利用了该办法,均取得了稳固的性能晋升,证实了本文办法的有效性和泛化性能。

该办法能够在短视频畛域,用于扩大通用视频标签体系并为视频内容提供好的根底表征,进而在内容散发场景下,为用户出现更加符合用户搜寻用意与潜在趣味的视频内容,改善用户体验。

ECCV | PromptDet: Towards Open-vocabulary Detection using Uncurated Images(应用未经解决的图像面向凋谢词汇的指标检测)

论文作者 :冯承健(美团),钟毓杰(美团),揭泽群(美团),初祥祥(美团),任海兵(美团),魏晓林(美团),谢伟迪(上海交通大学),马林(美团)

论文下载 :PDF

论文简介 :这项工作的指标是建设一个可扩大的指标检测器,应用零手动标注将指标检测器扩大到新的 / 未见过的类别,如下图 8 所示:

为了实现这一点,咱们做出了以下四项奉献:

  1. 为了谋求泛化性,咱们提出了一个两阶段的凋谢词汇指标检测器,应用来自预训练视觉语言模型的文本编码器对类别无关的物体提议区域进行分类。
  2. 为了将 RPN 提议区域的视觉潜在空间与预训练文本编码器的潜在空间配对,咱们提出了区域提醒(prompt)学习办法,以将文本嵌入空间与物体区域的视觉特色对齐。
  3. 为了扩充学习过程以检测更宽泛的类别,咱们通过一种新鲜的自训练框架利用可用的在线资源,该框架容许在大量嘈杂的未经解决的网络图像上训练所提出的检测器。
  4. 为了评估咱们提出的检测器,PromptDet,咱们在具备挑战性的 LVIS 和 MS-COCO 数据集进行了宽泛的试验。与现有办法相比,PromptDet 应用更少的额定训练图像和零手动标注,体现出卓越的检测性能。

本文办法对于用户种草图片的了解和归类有重大价值,有助于向其余用户举荐相干商品和景点。用户在种草或评估时通常会分享一些图片,而在寻找好商品或好去处时通常应用文原本搜寻,图片和文本之间没有间接的对应关系,从而不能依据用户的搜寻文本举荐相干的种草商品和景点。通过本文提出的办法,能够依据自定义的文本(如商品名称)检测图片中的物体,对种草图片进行了解和归类。当用户应用文本搜寻时,能够向用户举荐最相干的种草商品和景点,实现精准和多样化的种草内容举荐,晋升种草转化率。

ACM MM | Synthesizing Counterfactual Samples for Effective Image-Text Matching(合成反事实样本以进行无效的图像 - 文本匹配)

论文作者 :魏浩(中国科学院计算技术研究所),王树徽(中国科学院计算技术研究所),韩歆哲(中国科学院计算技术研究所),薛哲(北京邮电大学),马彬(美团),魏晓明(美团),魏晓林(美团)

论文下载 :PDF

论文简介 :图像文本匹配(Image-Text Matching)是跨模态畛域的一个根底钻研问题,旨在度量图像和文本之间的语义相似性。最近的工作通常应用难负样本开掘(Hard Negative Mining)来捕捉图像和文本之间的多重对应关系。可怜的是,领有丰盛信息的负样本在训练数据中十分稀少,很难在随机采样的小批次中取得。受到因果推理的启发,本文通过类比难负样本开掘和因果效应优化来解决这一问题。本文提出了反事实匹配(Counterfactual Matching, CFM)办法(如下图 9),用于更加无效的匹配关系开掘。

如上图,CFM 蕴含三个次要局部,即用于主动因果因子辨认的特征选择、用于保障因果因子完整性的自我摸索和用于反事实样本合成的自我调整。与传统的难负样本开掘相比,该办法缓解了过拟合景象,无效地捕捉了图像和文本之间的细粒度匹配关联。本文将 CFM 与三种最先进的图像文本匹配模型联合起来进行评估。在两个公开数据集上进行的试验表明,本文提出的办法具备很强的通用性和有效性。

本文办法对于晋升图像文本相关性建模成果具备重要价值,可进一步晋升在图文相关性,图像细粒度了解,图像、视频检索等上游工作的成果(如下图 10)。在内容展现中,对于晋升信息流内容的图像 - 文本、视频封面 - 文本相关性,改善用户体验具备重要意义。

ACM MM | Zero-shot Video Classification with Appropriate Web and Task Knowledge Transfer(基于网络常识与工作常识迁徙的零样本视频分类)

论文作者 :卓君宝(中国科学院计算技术研究所 & 美团实习生),朱妍(中国科学院计算技术研究所 & 美团实习生),崔书豪(美团),王树徽(中国科学院计算技术研究所),黄庆明(中国科学院计算技术研究所),马彬(美团),魏晓明(美团),魏晓林(美团)

论文下载 :PDF

论文简介 :零样本视频分类旨在辨认在模型训练过程中从未见过的视频类别,个别通过构建视觉特色和语义嵌入之间的映射来实现。钻研表明通过开掘视频蕴含的物体作为属性并联合内部常识能无效晋升模型的性能。然而,从可见类别开掘的物体属性不能无效泛化到未见类,且内部常识中属性之间的关系与视频中呈现的属性关系存在较大偏差。本文提出了基于网络常识的属性构建办法和属性 - 类别关系开掘办法,如下图 11 所示:

依据视频类别名称在网络中收集相干的图像,并利用事后训练的物体辨认模型对收集的图像进行辨认,提取频繁呈现的物体作为该视频类别相干的属性,构建属性 - 类别关系。通过所开掘的属性以及内部常识,采纳图神经网络学习视觉特色到类别的映射,无效晋升模型的泛化能力。此外,为解决现有办法过拟合到已见类别的问题,本文提出通过预计已见类和未知类之间的类似度来领导模型训练的办法。试验表明,所提办法获得了显著的性能晋升。

本文办法可在须要新的类别标签时,疾速实现样本冷启动,减速标签模型研发。对基于标签的短视频内容经营,媒资治理,内容散发等利用能起到重要撑持。能够通过大量示例样本疾速构建视频分类模型,从存量内容池中主动开掘高价值内容(如:“探店种草”)匹配公众点评 App“发现好去处”的产品定位,在首页信息流中为用户提供丰盛的信息参考,如下图 12 所示:

模型量化

ACM MM | Towards Accurate Post-Training Quantization for Vision Transformer(迈向 Vision Transformer 的高精度后量化算法)

论文作者 :丁一芙(北京航空航天大学 & 美团实习生),秦浩桐(北京航空航天大学),闫青华(北京航空航天大学),柴振华(美团),刘豪杰(美团),魏晓林(美团),刘祥龙(北京航空航天大学)

论文下载 :PDF

论文简介 :后量化是 CNN 模型压缩中较为成熟的一个钻研方向,然而如何在 Vision Transformer 上实现无损后量化在学界仍然是一个没有解决的问题。通过引入高精度的后量化算法,能够解决 Transformer 构造在服务端部署效率不高、显存占用过大的落地痛点,同时也为 Mobile Transformer 在挪动端设施的落地提供更多可能性。

现有的钻研办法中比拟代表的是华为诺亚方舟实验室的 FQ-ViT,在极低比特的状况下对量化误差的评估与理论仍存在较大误差,同时对具备幂率散布的 SoftMax 层的解决办法有待有进一步优化。基于上述察看,咱们提出了一种名为 APQ-ViT(Accurate Post-training Quantization framework for Vision Transformer)的办法(如下图 13):通过引入底部误差打消的逐块校准策略,基于块层面感知量化误差,缩小量化对最终输入的影响,并设计了一种马太效应放弃的 Softmax 后量化映射办法,能够达到在 8 bit 工业场景下根本性能无损的压缩成果,并且在更低比特(4/6 bit)下也能显著升高模型量化带来的精度损失。

本文办法可为内容场景中多媒体了解工作 Transformer 模型疾速量化部署产生的性能损失问题提供优化计划,同时也为端侧 Transformer 的落地利用提供技术撑持,并进一步缩小 App 的包体积。

本文介绍了美团视觉智能部围绕线上内容生产与散发,在跨模态匹配与生成、语义宰割、物体检测、模型压缩等畛域所做的一些科研工作,以及这些科研成果在理论场景中的利用,心愿对大家有所帮忙或启发。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。

正文完
 0