关于美团:短视频内容理解与生成技术在美团的创新实践

针对视频数据，如何通过计算机视觉技术用相干数据，为用户和商家提供更好的服务，是一项重要的研发课题。本文将为大家分享短视频内容了解与生成技术在美团业务场景的落地实际。

美团围绕丰盛的本地生存服务电商场景，积攒了丰盛的视频数据。

美团场景下的短视频示例

视频链接

下面展现了美团业务场景下的一个菜品评论示例。能够看到，视频相较于文本和图像能够提供更加丰盛的信息，创意菜“冰与火之歌”中火焰与巧克力和冰淇淋的动静交互，通过短视频模式进行了活泼的出现，进而给商家和用户提供多元化的内容展现和生产指引。

视频行业倒退

咱们可能疾速进入了视频爆炸的时代，是因为多个技术畛域都获得了显著的提高，包含拍摄采集设施小型化、视频编解码技术的提高、网络通信技术的晋升等。近年来，因为视觉 AI 算法一直成熟，在视频场景中被广泛应用。本文将次要围绕如何通过视觉 AI 技术的加持，来进步视频内容创作生产和散发的效率。

美团 AI——场景驱动技术

说到美团，大家首先会想到点外卖的场景，不过，除了外卖之外，美团还有其余 200 多项业务，涵盖了“吃”、“住”、“行”、“玩”等生存服务场景，以及“美团优选”“团好货”等批发电商。丰盛的业务场景带来了多样化的数据以及多元化的落地利用，进而驱动底层技术的翻新迭代。同时，底层技术的积淀，又能够赋能各业务的数字化、智能化降级，造成互相促进的正向循环。

美团业务场景短视频

本文分享的一些技术实际案例，次要围绕着“吃”来开展。美团在每个场景站位都有内容布局和展现模式，短视频技术在美团 C 端也有丰盛的利用，例如：大家关上公众点评 App 看到的首页 Feed 流视频卡片、沉迷态视频、视频笔记、用户评论、搜寻后果页等。这些视频内容在出现给用户之前，都要先通过了很多算法模型的了解和解决。

而在商家端（B 端）的视频内容展现模式包含，景区介绍——让消费者在线上感触更平面的玩耍体验；酒店相册速览——将相册中的动态图像合成视频，全面地展现酒店信息，帮忙用户疾速理解酒店全貌（其中主动生成的技术会在下文 2.2.2 章节进行介绍）；商家品牌广告——算法能够通过智能剪辑等性能，升高商家编辑创作视频的门槛；商家视频相册——商家能够自行上传各类视频内容，算法为视频打上标签，帮忙商家治理视频；商品视频 / 动图——上文提到美团的业务范围也包含批发电商，这部分对于商品信息展现就十分有劣势。举个例子，生鲜类商品，如螃蟹、虾的静止信息很难通过动态图像出现，而通过动图可为用户提供更多商品参考信息。

短视频技术利用场景

从利用场景来看，短视频在线上的利用次要包含：内容经营治理、内容搜寻举荐、广告营销、创意生产。底层的撑持技术，次要能够分为两类：内容了解和内容生产。内容了解次要答复视频中什么工夫点，呈现什么样的内容的问题。内容生产通常建设在内容了解根底上，对视频素材进行加工解决。典型的技术包含，视频智能封面、智能剪辑。上面我将别离介绍这两类技术在美团场景下的实际。

视频内容了解的次要指标是，概括视频中呈现的重要概念，关上视频内容的“黑盒”，让机器晓得盒子里有什么，为上游利用提供语义信息，以便更好地对视频做治理和散发。依据后果的模式，内容了解能够分为显式和隐式两种。其中，显式是指通过视频分类相干技术，给视频打上人能够了解的文本标签。隐式次要指以向量模式示意的嵌入特色，在举荐、搜寻等场景下与模型联合间接面向最终工作建模。能够粗略地了解为，前者次要面向人，后者次要面向机器学习算法。

显式的视频内容标签在很多场景下是必要的，例如：内容经营场景，经营人员须要依据标签，发展供需剖析，高价值内容圈选等工作。上图中展现的是内容了解为视频打标签的概要流程，这里的每个标签都是可供人了解的一个关键词。通常状况下，为了更好地保护和应用，大量标签会依据彼此之间的逻辑关系，组织成标签体系。

那么视频标签的利用场景有哪些？它背地的技术难点是什么？在美团场景下比拟有代表性的例子——美食探店视频，内容十分丰盛。标签体系的设定尤为要害，打什么样的标签来形容视频内容比拟适合？

首先，标签的定义须要产品、经营、算法多方面的视角独特敲定。在该案例中，共有三层标签，越下层越形象。其中，主题标签对整体视频内容的概括能力较强，如美食探店主题；中间层会进一步拆分，形容拍摄场景相干内容，如店内、店外环境；最底层拆分成细粒度实体，了解到宫保鸡丁还是番茄炒鸡蛋的粒度。不同层的标签有不同的利用，最上层视频主题标签可利用于高价值内容的筛选及经营伎俩。它的次要难点是形象水平高，“美食探店”这个词概括水平很高，人在看过视频后能够了解，但从视觉特色建模的角度，须要具备什么特点能力算美食探店，对模型的学习能力提出了较大的挑战。

解决方案次要关注两方面：一方面是与标签无关的通用根底表征晋升，另一方面是面向特定标签的分类性能晋升。初始模型须要有比拟好根底表征能力，这部分不波及上游最终工作（例如：辨认是否是美食探店视频），而是模型权重的预训练。好的根底表征，对于上游工作的性能晋升事倍功半。

因为视频标签的标注代价十分低廉，技术计划层面须要思考的是：如何在尽量少用业务全监督标注数据的状况下学习更好的根底特色。首先，在工作无关的根底模型表征层面，咱们采纳了在美团视频数据上的自监督预训练特色，相比在公开数据集上的预训练模型，更加符合业务数据分布。

其次，在语义信息嵌入层面（如上图所示），存在多源含标签数据能够利用。值得一提的是，美团业务场景下比拟有特色的弱标注数据，例如：用户在餐厅中做点评，图片和视频下层形象标签是美食，评论文本中大概率会提到具体在店里吃的菜品名称，这是可开掘的优质监督信息，能够通过视觉文本相关性度量等技术手段进行荡涤。这里展现了主动挖掘出的标签为“烤肉”的视频样本。

视频样本
视频样本

通过应用这部分数据做预训练，能够失去一个初始的 Teacher Model，给业务场景无标注数据打上伪标签。这里比拟要害的是因为预测后果不齐全精确，须要基于分类置信度等信息做伪标签荡涤，随后拿到增量数据与 Teacher Model 一起做业务场景下更好的特色表白，迭代荡涤失去 Student Model，作为上游工作的根底表征模型。在实践中，咱们发现数据迭代相较于模型构造的改良收益更大。

面向具体标签的性能晋升次要应答的问题是，如何在根底表征模型的根底上，高效迭代指标类别的样本数据，晋升标签分类模型的性能。样本的迭代分为离线和在线两局部，以美食探店标签为例，首先须要离线标注大量正样本，微调根底表征模型失去初始分类模型。这时模型的辨认准确率通常较低，但即便如此，对样本的荡涤、迭代也很有帮忙。构想如果标注员从存量样本池里漫无目的地筛选，可能看了成千盈百个视频都很难发现一个指标类别的样本，而通过初始模型做预筛选，能够每看几个视频就能筛出一个指标样本，对标注效率有显著的晋升。

第二步如何继续迭代更多线上样本，晋升标签分类模型准确率至关重要。咱们对于模型线上预测的后果分两条回流门路。线上模型预测后果十分相信，或是若干个模型认知统一，能够主动回流模型预测标签退出模型训练，对于高相信但谬误的噪声标签，能够通过模型训练过程中的一些抵制噪声的技术，如：相信学习进行主动剔除。更有价值的是，咱们在实践中发现对于模型性能晋升 ROI 更高的是人工修改模型非相信数据，例如三个模型预测后果差别较大的样本，筛出后交给人工确认。这种被动学习的形式，能够防止在大量简略样本上节约标注人力，针对性地裁减对模型性能晋升更有价值的标注数据。

上图展现了点评举荐业务视觉主题标签的利用案例，最具代表性的即为高价值内容的圈选：在点评 App 首页信息流的达人探店 Tab 中，经营同学通过标签筛选出有「美食探店」标签的视频进行展现。能够让用户以沉迷式地体验形式更全面地理解到店内的信息，同时也为商家提供了一个很好的窗口，起到宣传引流的作用。

上图展现了，不同维度标签对于技术有不同要求，其中细粒度实体了解，须要辨认具体是哪道菜，与下层粗粒度标签的问题不同，须要思考如何应答技术挑战。首先是细粒度辨认工作，须要对视觉特色进行更精密的建模；其次，视频中的菜品了解相较于单张图像中的菜品辨认更有挑战，须要应答数据的跨域问题。

形象出关键问题后，咱们来别离应答。首先在细粒度辨认问题上，菜品的视觉相似性度量挑战在于不同食材的特色及地位关系没有标准化的定义，同一道菜不同的徒弟很可能做出两种齐全不同的样子。这就须要模型既可能聚焦部分细粒度特色，又可能交融全局信息进行判断。为了解决这个问题，咱们提出了一种重叠式全局 - 部分注意力网络，同时捕获形态纹理线索和部分的食材差别，对菜品辨认成果有显著晋升，相干成绩发表在 ACM MM 国内会议上（ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked Global-Local Attention Network）。

上图（）中展现的是第二局部的挑战。图像和视频帧中的雷同物体经常有着不同的外观体现，例如：图片中的螃蟹经常是煮熟了摆在盘中，而视频帧中经常出现烹饪过程中鲜活的螃蟹，它们在视觉层面差异很大。咱们次要从数据分布的角度去应答这部分跨域差别。

业务场景积攒了大量有标注的美食图像，这些样本预测后果的判断性通常较好，但因为数据分布差别，视频帧中的螃蟹则不能被很确信地预测。对此咱们心愿晋升视频帧场景中预测后果的判断性。一方面，利用核范数最大化的办法，获取更好的预测散布。另一方面，利用常识蒸馏的形式，一直通过弱小的模型来领导轻量化网络的预测。再联合视频帧数据的半自动标注，即可在视频场景下取得较好的性能。

基于以上在美食场景内容了解的积攒，咱们在 ICCV2021 上举办了 Large-Scale Fine-Grained Food Analysis 较量。菜品图像来自美团的理论业务场景，蕴含 1500 类西餐菜品，比赛数据集继续凋谢：https://foodai-workshop.meituan.com/foodai2021.html#index，欢送大家下载应用，独特晋升挑战性场景下的辨认性能。

在视频中辨认出细粒度的菜品名称有什么利用呢？这里再跟大家分享一个点评搜寻业务场景的利用——按搜出封面。实现的成果是依据用户输出的搜寻关键词，为同一套视频内容展现不同的封面。图中的离线局部展现了视频片段的切分和优选过程，首先通过关键帧提取，根底品质过滤筛选出适宜展现的画面；再通过菜品细粒度标签辨认了解到在什么工夫点呈现什么菜品，作为候选封面素材，存储在数据库中。

线上用户对感兴趣内容进行搜寻时，依据视频的多个封面候选与用户查问词的相关性，为用户展示最符合的封面，晋升搜寻的体验。

比方，同样是搜寻“火锅”，左图是默认封面，右图是“按搜出封面”的后果。能够看到，右边的后果有一些以人物为主体的封面，与用户搜寻火锅视频预期看到的内容不符，直观感觉像是不相干的 Bad Case。而按搜出封面的展现后果，搜寻到的内容都是火锅画面，体验较好。这也是对视频片段了解到细粒度标签，在美团场景下的翻新利用。

以上都是围绕美食视频开展，但美团还有很多其余的业务场景。如何主动开掘更为丰盛的视频标签，让标签体系自身可能主动扩大，而不是全副依赖人工整理定义，是一个重要的课题。咱们基于点评丰盛的用户评论数据发展相干工作。上图中的例子是用户的笔记，能够看到内容中既蕴含视频又蕴含若干张图片，还有一大段形容，这几个模态具备关联性，存在共性的概念。通过一些统计学习的形式，在视觉和文本两个模态之间做穿插验证，能够挖掘出视频片段和标签的对应关系。

例如，通过算法主动挖掘出视频片段和标签，左图展现了标签呈现的频率，呈现出显著的长尾散布。但值得注意的是，通过这种形式，算法可能挖掘到粒度较细的有意义标签，比方“丝巾画”。通过这种形式能够在尽量减少人工参加的前提下，发现美团场景更多重要的标签。

上面，咱们来讲讲如何在内容了解的根底上做内容生产。内容生产是在短视频 AI 利用场景十分重要的局部，以下分享更多波及到的是视频素材的解构与了解。

视频内容生产的流程链路（如上图所示），其中内容生成环节次要是原始视频上传到云端后，作为素材，通过算法进行剪辑加工，更好地施展出内容的潜在价值。比方在广告场景，通过算法辨认并剪辑出原始视频中展现商家环境，菜品成果的精髓片段，晋升信息的密度与品质。

另外，视频内容生产依据利用模式可分为三类：

图片生成视频，常见的模式有相册速览视频主动生成；
视频生成视频片段，典型案例是长视频精彩片段剪辑，变成更精简的短视频做二次散发；
视频像素级编辑，次要波及精细化的画面特效编辑。

上面，咱们就三类利用模式开展阐明。

第一类，图像生成视频。该局部要做的更多是针对图像素材的了解和加工，使用户对技术细节无感的前提下，一键端到端生成现实素材。如上图所示，商家只须要输出生产素材的图像相册，所有交给 AI 算法：首先算法会主动去除拍摄品质较差的，不适宜展现的图片；而后做内容辨认，品质剖析。内容辨认包含内容标签，品质剖析包含清晰度、美学分；因为原始图像素材的尺寸难以间接适配指标展位，须要依据美学评估模型，对图像进行智能裁切；最终，叠加 Ken-Burns、转场等特效，失去渲染后果。商家即可取得一个编排精美的美食视频。

还有酒店场景下相册速览视频生成的例子，相比动图，须要联合音频与转场特效的配合。同时，视频对优先展现什么样的内容有更高要求，须要联合业务场景的特点，依据设计师制订的脚本模板，通过算法主动筛选特定类型的图像填充到模板相应地位。

第二类，视频生成视频片段。次要是将长视频切分并优选出若干个更精彩、合乎用户预期的内容作展现。从算法阶段划分为片段生成和片段筛选排序。片段生成局部，通过时序切分算法，获取镜头片段及关键帧。片段排序局部，比拟要害，它决定了视频优先程序。这也是比拟艰难的局部，它有两个维度：

通用品质维度，蕴含清晰度，美学分等；
语义维度，例如：在美食视频中，菜品成品展现，制作过程等通常是比拟精彩的片段。语义维度的了解次要是采纳后面介绍的内容了解模型来反对。

2.2.3.1 智能封面与精彩片段

原始视频（1min）
算法剪辑视频（10s）

咱们通过视频生成视频片段，实现了两种利用场景。一是智能动静封面，次要基于通用根底品质优选出清晰度更高、有动静信息量、无闪烁卡顿的视频片段作为视频的封面，相比于默认片段的成果更好。

视频链接

第三类，视频像素级编辑。比方这里展现了一个基于视频物体宰割（VOS，Video Object Segmentation）技术的菜品创意特效，背地的关键技术，是美团自研的高效语义宰割办法，该办法已在 CVPR 2022 发表了论文（Rethinking BiSeNet For Real-time Semantic Segmentation），感兴趣的同学，能够理解一下。

像素级编辑解决最重要的技术之一是语义宰割，在利用场景中面临的次要技术挑战是既要保障宰割模型时效性，也要保障分辨率，放弃高频细节信息。咱们对于经典的 BiSeNet 办法做出了进一步改良，提出了基于细节疏导的高效语义宰割办法。

具体的做法如网络结构所示，右边浅蓝色局部是网络的推理框架，沿用了 BiSeNet Context 分支的设计，Context 分支的骨干选用了咱们自研的骨干 STDCNet。与 BiSeNet 不同的是，咱们对 Stage3 进行一个细节疏导的训练，如左边的浅绿色局部所示，疏导 Stage3 学习细节特色；浅绿色局部只参加训练，不参加模型推理，因而不会造成额定的工夫耗费。首先对于宰割的 Ground Truth，咱们通过不同步长的 Laplacian 卷积，获取一个富集图像边缘和角点信息的细节真值；之后通过细节真值和设计的细节 Loss 来疏导 Stage3 的浅层特色学习细节特色。

因为图像的细节真值前后背景散布重大不平衡，因而咱们采纳的是 DICE loss 和 BCE loss 联结训练的形式；为了验证细节疏导的有效性，咱们做了这个试验，从特色可视化的后果中能够看出多尺度获取的细节真值对网络进行细节疏导能取得最好的后果，细节信息疏导对模型的性能也有所晋升。

成果方面，通过比照能够看出咱们的办法对于宰割细节的高频信息放弃具备较大的劣势。

以上分享了美团在视频标签、视频封面与剪辑、视频细粒度像素级编辑技术畛域，通过与业务场景的联合冀望为商家和用户提供更加智能的信息展现和获取形式。将来，短视频技术利用方面，在美团丰盛的业务场景包含本地生存服务、批发电商，都会施展更大的潜在价值。视频了解技术方面，多模态自监督训练，对于缓解标注数据依赖，晋升模型在简单业务场景的泛化性能方面十分有价值，咱们也在做一些尝试和摸索。

马彬，美团视觉智能部工程师。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者应用。任何商用行为，请发送邮件至 tech@meituan.com 申请受权。

关于美团:短视频内容理解与生成技术在美团的创新实践

1. 背景

2. 短视频内容了解和生成技术实际

2.1 短视频内容了解

2.1.1 视频标签

2.1.2 视频标签的不同维度与粒度

2.1.3 根底表征学习

2.1.4 模型迭代

2.1.5 视频主题标签利用——高价值内容筛选聚合

2.1.6 视频标签的不同维度与粒度

2.1.7 菜品图像识别能力向视频畛域的迁徙

2.1.8 细粒度菜品图像识别能力

2.1.9 菜品细粒度标签利用——按搜出封面

2.1.10 开掘更为丰盛的视频片段标签

2.1.11 视频片段语义标签开掘后果示例

2.2 短视频内容生成

2.2.1 图像生成视频——餐饮场景美食动图生成

2.2.2 图像生成视频——酒店场景相册速览视频生成

2.2.3 视频生成视频片段

2.2.4 视频像素级编辑解决——菜品视频特效

3. 总结瞻望

4. 作者简介