剧本杀作为爆发式增长的新兴业务,在商家上单、用户选购、供需匹配等方面存在有余,供应标准化能为用户、商家、平台三方发明价值,助力业务增长。本文介绍了美团到店综合业务数据团队从 0 到 1 疾速建设剧本杀供应标准化的过程及算法计划。咱们将美团到店综合常识图谱(GENE,GEneral NEeds net)笼罩至剧本杀行业,构建剧本杀常识图谱,实现供应标准化建设,包含剧本杀供应开掘、规范剧本库构建、供应与规范剧本关联等环节,并在多个场景进行利用落地,心愿给大家带来一些帮忙或启发。
一、背景
剧本杀行业近年来呈爆发式增长态势,然而因为剧本杀是新兴行业,平台已有的类目体系和产品状态,越来越难以满足飞速增长的用户和商户需要,次要体现在上面三个方面:
- 平台类目缺失:平台短少专门的“剧本杀”类目,中心化流量入口的缺失,导致用户决策门路凌乱,难以建设对立的用户认知。
- 用户决策效率低:剧本杀的外围是剧本,因为不足规范的剧本库,也未建设规范剧本和供应的关联关系,导致剧本信息展现和供应治理的规范化水平低,影响了用户对剧本抉择决策的效率。
- 商品上架繁琐:商品信息须要商户人工一一录入,没有可用的规范模板用以信息预填,导致商户在平台上架的剧本比例偏低,上架效率存在较大的晋升空间。
为了解决上述痛点,业务须要进行剧本杀的供应标准化建设:首先建设“剧本杀”新类目,并实现相应的供应(包含商户、商品、内容)的类目迁徙。以此为根底,以剧本为外围,搭建规范剧本库,并关联剧本杀供应,继而建设剧本维度的信息散发渠道、评估评分和榜单体系,满足用户“以剧本找店”的决策门路。
值得指出的是,供应标准化是简化用户认知、帮忙用户决策、促成供需匹配的重要抓手,标准化水平的高下对平台业务规模的大小有着决定性影响。具体到剧本杀行业,供应标准化建设是助力剧本杀业务持续增长的重要根底,而规范剧本库的搭建是剧本杀供应标准化的要害。因为基于规格如「城限」、背景如「古风」、题材如「情感」等剧本属性无奈确定具体的剧本,但剧本名称如「舍离」则能起惟一标识的作用。因而,规范剧本库的搭建,首先是规范剧本名称的建设,其次是规格、背景、题材、难度、流派等规范剧本属性的建设。
综上,美团到店综合业务数据团队与业务同行,助力业务进行剧本杀的供应标准化建设。在建设过程中,波及了剧本名称、剧本属性、类目、商户、商品、内容等多种类型的实体,以及它们之间的多元化关系构建。而常识图谱作为一种揭示实体及实体间关系的语义网络,用以解决该问题显得尤为适合。特地地,咱们曾经构建了 美团到店综合常识图谱(GENE,GEneral NEeds net),因而,咱们基于 GENE 的构建教训疾速进行剧本杀这一新业务的常识图谱构建,从 0 到 1 实现剧本杀标准化建设,从而改善供应治理和供需匹配,为用户、商户、平台三方发明出更大的价值。
二、解决方案
咱们构建的 GENE,围绕本地生存用户的综合性需要,以行业体系、需要对象、具象需要、场景因素和场景需要五个档次逐层递进,笼罩了玩乐、医美、教育、亲子、结婚等多个业务,体系设计和技术细节可见美团到店综合常识图谱相干的文章。剧本杀作为一项新兴的美团到店综合业务,体现了用户在玩乐上的新需要,人造适配 GENE 的体系结构。因而,咱们将 GENE 笼罩至剧本杀新业务,沿用雷同的思路来进行相应常识图谱的构建,以实现相应的供应标准化。
基于常识图谱来实现剧本杀标准化建设的要害,是以规范剧本为外围构建剧本杀常识图谱。图谱体系设计如图 1 所示,具体地,首先在行业体系层进行剧本杀新类目标构建,开掘剧本杀供应,并建设供应(包含商户、商品、内容)与类目标从属关系。在此基础上,在需要对象层,进一步实现规范剧本名称这一外围对象节点和其剧本属性节点的开掘以及关系构建,建设规范剧本库,最初将规范剧本库的每个规范剧本与供应和用户建设关联关系。此外,具象需要、场景因素、场景需要三层则实现了对用户在剧本杀上的具象的服务需要和场景化需要的显性表白,这部分因为与剧本杀供应标准化建设的分割不多,在这里不做开展介绍。
剧本杀常识图谱中用于供应标准化局部的具体样例如下图 2 所示。其中,规范剧本名称是外围节点,围绕它的各类规范剧本属性节点包含题材、规格、流派、难度、背景、别称等。同时,规范剧本之间可能构建诸如“同系列”等类型的关系,比方「舍离」和「舍离 2」。此外,规范剧本还会与商品、商户、内容、用户之间建设关联关系。
咱们基于剧本杀常识图谱的这些节点和关系进行供应标准化,在图谱构建过程中,包含了 剧本杀供应开掘 、 规范剧本库构建 、 供应与规范剧本关联 三个次要步骤,上面对三个步骤的实现细节以及波及的算法进行介绍。
三、实现办法
3.1 剧本杀供应开掘
剧本杀作为新兴的业务,已有的行业类目树中并没有相应的类目,无奈间接依据类目获取剧本杀的相干供应(包含商户、商品和内容)。因而,咱们须要首先进行剧本杀供应的开掘,即从以后与剧本杀行业相近类目标供应中挖掘出剧本杀的相干供应。
对于剧本杀的商户供应开掘,须要判断商户是否提供剧本杀服务,判断根据包含了商户名、商品名及商品详情、商户 UGC 三个起源的文本语料。这个实质上是一个多源数据的分类问题,然而因为不足标注的训练样本,咱们没有间接采纳端到端的多源数据分类模型,而是依靠业务输出,采纳无监督匹配和有监督拟合相结合的形式高效实现,具体的判断流程如下图 3 所示,其中:
- 无监督匹配 :首先结构剧本杀相干的关键词词库,别离在商户名、商品名及商品详情、商户 UGC 三个起源的文本语料中进行准确匹配,并构建基于 BERT[1] 的通用语义漂移判断模型进行匹配后果过滤。最初依据业务规定基于各起源的匹配后果计算相应的匹配分数。
- 有监督拟合:为了量化不同起源匹配分数对最终判断后果的影响,由经营先人工标注大量商户分数,用以表征商户提供剧本杀服务的强弱。在此基础上,咱们结构了一个线性回归模型,拟合标注的商户分数,获取各起源的权重,从而实现对剧本杀商户的精准开掘。
采纳上述形式,实现了桌面和实景两种剧本杀商户的开掘,准确率和召回率均达到了要求。基于剧本杀商户的开掘后果,可能进一步对商品进行开掘,并创立剧本杀类目,从而为后续剧本杀常识图谱构建及标准化建设打好了数据根底。
3.2 规范剧本库构建
规范剧本作为整个剧本杀常识图谱的外围,在剧本杀供应标准化建设中扮演着重要的角色。咱们基于剧本杀商品类似聚合的形式,联合人工审核来开掘规范剧本,并从相干发行方获取剧本受权,从而构建规范剧本库。规范剧本由两局部形成,一个是规范剧本名称,另一个是规范剧本属性。因而,规范剧本库构建也分为规范剧本名称的开掘和规范剧本属性的开掘两个局部。
3.2.1 规范剧本名称的开掘
咱们依据剧本杀商品的特点,先后采纳了规定聚合、语义聚合和多模态聚合三种办法进行开掘迭代,从数十万剧本杀商品的名称中聚合失去数千规范剧本名称。上面别离对三种聚合办法进行介绍。
规定聚合
同一个剧本杀商品在不同商户的命名往往不同,存在较多的不标准和个性化。一方面,同一个剧本名称自身就能够有多种叫法,例如「舍离」、「舍离壹」、「舍离 1」就是同一个剧本;另一方面,剧本杀商品名除了蕴含剧本名称外,商家很多时候也会退出剧本的规格和题材等属性信息以及吸引用户的描述性文字,例如「《舍离》情感本」。所以咱们首先思考剧本杀商品的命名特点,设计相应的荡涤策略对剧本杀商品名称进行荡涤后再聚合。
咱们除了梳理常见的非剧本词,构建词库进行规定过滤外,也尝试将其转换为命名实体辨认问题[2],采纳序列标注对字符进行“是剧本名”与“不是剧本名”两个类别的辨别。对于荡涤后的剧本杀商品名称,则通过基于最长公共子序列(LCS)的类似度计算规定,联合阈值筛选对其进行聚合,例如「舍离」、「舍离壹」、「舍离 1」最初均聚在一起。整个流程如上图 4 所示,采纳规定聚合的形式,可能在建设初期帮忙业务疾速对剧本杀商品名称进行聚合。
语义聚合
规定聚合的形式尽管简略好用,但因为剧本名称的多样性和复杂性,咱们发现聚合后果中依然存在一些问题:1)不属于同一个剧本的商品被聚合,例如「舍离」和「舍离 2」是同一个系列的两个不同剧本,却被聚合在一起。2)属于同一个剧本的商品没有聚合,例如,商品名应用剧本的简称缩写(「唐人街名侦探和猫」和「唐探猫」)或呈现错别字(「弗洛伊德之锚」和「佛洛依德之锚」)等状况时则难以规定聚合。
针对这上述这两种问题,咱们进一步思考应用商品名称语义匹配的形式,从文本语义雷同的角度来进行聚合。罕用的文本语义匹配模型分为交互式和双塔式两种类型。交互式是把两段文本一起输出进编码器,在编码的过程中让其相互交换信息后再进行判断;双塔式模型是用一个编码器别离给两个文本编码出向量,而后基于两个向量进行判断。
因为商品数量泛滥,采纳交互式的办法须要将商品名称两两组合后再进行模型预测,效率较为低下,为此,咱们采纳双塔式的办法来实现,以 Sentence-BERT[3]的模型构造为根底,将两个商品名称文本别离通过 BERT 提取向量后,再应用余弦间隔来掂量两者的类似度,残缺构造如下图 5 所示:
在训练模型的过程中,咱们首先基于规定聚合的后果,通过同聚簇内生成正例和跨聚簇穿插生成负例的形式,结构粗粒度的训练样本,实现初版模型的训练。在此基础上,进一步联合被动学习,对样本数据进行欠缺。此外,咱们还依据上文提到的规定聚合呈现的两种问题,针对性的批量生成样本。具体地,通过在商品名称后增加同系列编号,以及应用错字、别字和繁体字替换等形式来实现样本的主动结构。
多模态聚合
通过语义聚合的形式实现了从商品名称文本语义层面的同义聚合,然而咱们通过对聚合后果再剖析后发现还存在一些问题:两个商品属于同一个剧本,但仅从商品名称的角度是无奈判断。例如,「舍离 2」和「断念」从语义的角度无奈聚合,然而它们实质上是一个剧本「舍离 2·断念」。尽管这两个商品的名称各异,然而它们的图像往往是雷同或类似的,为此,咱们思考引入商品的图像信息来进行辅助聚合。
一个简略的办法是,应用 CV 畛域成熟的预训练模型作为图像编码器进行特征提取,间接计算两个商品的图像类似度。为了对立商品图像类似度计算和商品名称语义匹配的后果,咱们尝试构建一个剧本杀商品的多模态匹配模型,充分利用商品名称和图像信息来进行匹配。模型沿用语义聚合中应用的双塔式构造,整体构造如下图 6 所示:
在多模态匹配模型中,剧本杀商品的名称和图像别离通过文本编码器和图像编码器失去对应的向量示意后,再进行拼接作为最终的商品向量,最初应用余弦类似度来掂量商品之间的类似度。其中:
- 文本编码器 :应用文本预训练模型 BERT[1] 作为文本编码器,将输入均匀池化后作为文本的向量示意。
- 图像编码器 :应用图像预训练模型 EfficientNet[4] 作为图像编码器,提取网络最初一层输入作为图像的向量示意。
在训练模型的过程中,文本编码器会进行 Finetune,而图像编码器则固定参数,不参加训练。对于训练样本构建,咱们以语义聚合的后果为根底,以商品图像类似度来圈定人工标注样本的范畴。具体地,对于同聚簇内商品图像类似度高的间接生成正例,跨聚簇穿插的商品图像类似度低的间接生成负例,而对于残余的样本对则交由人工进行标注确定。通过多模态聚合,补救了仅应用文本匹配的有余,与其相比准确率晋升了 5%,进一步晋升了规范剧本的开掘成果。
3.2.2 规范剧本属性的开掘
规范剧本的属性包含了剧本的背景、规格、流派、题材、难度等十余个维度。因为商户在剧本杀商品上单的时候会录入商品的这些属性值,所以对于规范剧本属性的开掘,实质上是对该规范剧本对应的所有聚合商品的属性的开掘。
在理论过程中,咱们通过投票统计的形式来进行开掘,即对于规范剧本的某个属性,通过对应的聚合商品在该属性上的属性值进行投票,抉择投票最高的属性值,作为该规范剧本的候选属性值,最初由人工审核确认。此外,在规范剧本名称开掘的过程中,咱们发现同一个剧本的叫法多种多样,为了对规范剧本能有更好的形容,还进一步为规范剧本减少了一个别称的属性,通过对规范剧本对应的所有聚合商品的名称进行荡涤和去重来获取。
3.3 供应与规范剧本关联
在实现规范剧本库构建后,还须要建设剧本杀的商品、商户和内容三种供应,与规范剧本的关联关系,从而使剧本杀的供应实现标准化。因为通过商品和规范剧本的关联关系,能够间接获取该商品对应商户和规范剧本的关系,所以咱们只须要对商品和内容进行规范剧本关联。
3.3.1 商品关联
在 3.2 节中,咱们通过聚合存量剧本杀商品的形式来进行规范剧本的开掘,在这个过程中其实曾经构建了存量商品和规范剧本的关联关系。对于后续新减少的商品,咱们还须要将其和规范剧本进行匹配,以建设两者之间的关联关系。而对于与规范剧本无奈关联的商品,咱们则主动进行规范剧本名称和属性的开掘,经由人工审核后再退出规范剧本库。
整个商品关联流程如下图 7 所示,首先对商品名称进行荡涤再进行匹配关联。在匹配环节,咱们基于商品和规范剧本的名称及图像的多模态信息,对两者进行匹配判断。
与商品之间的匹配不同,商品与规范剧本的关联不须要放弃匹配的对称性。为了保障关联的成果,咱们在 3.2.1 节的多模态匹配模型的构造根底上进行批改,将商品和规范剧本的向量拼接后通过全连贯层和 softmax 层计算两者关联的概率。训练样本则间接依据存量商品和规范剧本的关联关系结构。通过商品关联,咱们实现了绝大部分剧本杀商品的标准化。
3.3.2 内容关联
对于剧本杀内容关联规范剧本,次要针对用户产生的内容(UGC,例如用户评估)这一类型的内容和规范剧本的关联。因为一段 UGC 文本通常蕴含多个句子,且其中只有局部句子会提及规范剧本相干信息,所以咱们将 UGC 与规范剧本的匹配,细化为其子句粒度的匹配,同时出于效率和成果的均衡的思考,进一步将匹配过程分为了召回和排序两个阶段,如下图 8 所示:
在召回阶段,将 UGC 文本进行子句拆分,并依据规范剧本名称及其别称,在子句汇合中进行准确匹配,对于匹配中的子句则将进入到排序阶段进行精细化的关联关系判断。
在排序阶段,将关联关系判断转换为一个 Aspect-based 的分类问题,参考属性级情感分类的做法 [5],构建基于 BERT 句间关系分类的匹配模型,将理论命中 UGC 子句的规范剧本别称和对应的 UGC 子句用[SEP] 相连后输出,通过在 BERT 后减少全连贯层和 softmax 层来实现是否关联的二分类,最初对模型输入的分类概率进行阈值筛选,获取 UGC 关联的规范剧本。
与上文中波及的模型训练不同,UGC 和规范剧本的匹配模型无奈疾速获取大量训练样本。思考到训练样本的不足,所以首先通过人工大量标注数百个样本,在此基础上,除了采纳被动学习外,咱们还尝试比照学习,基于 Regularized Dropout[6]办法,对模型两次 Dropout 的输入进行正则束缚。最终在训练样本不到 1K 的状况下,UGC 关联规范剧本的准确率达到上线要求,每个规范剧本关联的 UGC 数量也失去了大幅晋升。
四、利用实际
以后剧本杀常识图谱,以数千规范剧本为外围,关联百万供应。剧本杀供应标准化建设的后果已在美团多个业务场景上进行了初步的利用实际。上面介绍具体的利用形式和利用成果。
4.1 类目构建
通过剧本杀供应开掘,帮忙业务辨认出剧本杀商户,从而助力剧本杀新类目和相应剧本杀列表页的构建。剧本杀类目迁徙、休闲娱乐频道页的剧本杀入口、剧本杀列表页均已上线,其中,频道页剧本杀 ICON 固定第三行首位,提供了中心化流量入口,有助于建设对立的用户认知。上线示例如图 9 所示((a)休闲娱乐频道页剧本杀入口,(b)剧本杀列表页)。
4.2 个性化举荐
剧本杀常识图谱蕴含的规范剧本及属性节点,以及其与供应和用户的关联关系,可利用于剧本杀各页面的举荐位。一方面利用于剧本列表页热门剧本举荐(图 10(a)),另一方面还利用于剧本详情页的商品在拼场次举荐(图 10(b)左)、可玩门店举荐(图 10(b)左)和相干剧本举荐模块(图 10(b)右)。这些举荐位的利用,帮忙造就了用户在平台找剧本的心智,优化了用户认知和选购体验,进步了用户和供应的匹配效率。
以剧本列表页的热门剧本举荐模块为例,剧本杀常识图谱蕴含的节点和关系除了能够间接用于剧本的召回,还能够进一步在精排阶段进行利用。在精排中,咱们基于剧本杀常识图谱,联合用户行为,参考 Deep Interest Network(DIN)[7]模型构造,尝试对用户拜访剧本的序列和拜访商品的序列进行建模,构建双通道 DIN 模型,深度刻画用户趣味,实现剧本的个性化散发。其中商品拜访序列局部,通过商品与规范剧本的关联关系将其转为为剧本序列,与候选剧本采纳 Attention 形式进行建模,具体模型构造如下图 11 所示:
4.3 信息外露和筛选
基于剧本杀常识图谱中的节点和关系,在剧本杀列表页和在剧本列表页减少相干标签筛选项,并外露剧本的属性和关联的供应信息,相干利用如下图 12 所示。这些标签筛选项和信息的外露,为用户提供了标准的信息展现,升高了用户决策老本,更加不便了用户选店和选剧本。
4.4 评分和榜单
在剧本详情页,内容和规范剧本的关联关系参加到剧本的评分计算中(图 13(a))。在此基础上,基于剧本维度,造成经典必玩和近期热门的剧本榜单,如图 13(b)所示,从而为用户的剧本抉择决策提供了更多的帮忙。
五、总结瞻望
面对剧本杀这一新兴行业,咱们疾速响应业务,以规范剧本为外围节点,联合行业特点,通过剧本杀供应开掘、规范剧本库构建、供应与规范剧本关联,构建相应的常识图谱,从 0 到 1 逐步推进剧本杀的供应标准化建设,力求以简略而无效的办法来解决剧本杀业务的问题。
目前剧本杀常识图谱已在剧本杀多个业务场景中获得利用成绩,赋能剧本杀业务持续增长,显著晋升了用户体验。在将来的工作中,咱们将一直进行优化和摸索:
- 规范剧本库的继续欠缺:优化规范剧本名称和属性以及相应的供应关联关系,保障规范剧本库的质与量俱佳,并尝试引入内部的常识补充以后的标准化后果。
- 剧本杀场景化:以后剧本杀常识图谱次要以“剧本”这类用户的具象需要对象为主,后续将深刻开掘用户的场景化需要,摸索剧本杀和其余行业的联动,更好的助力剧本杀行业的倒退。
- 更多的利用摸索:将图谱数据利用于搜寻等模块,在更多的利用场景中晋升供应匹配效率,从而发明出更大的价值。
参考文献
[1] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[2] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[J]. arXiv preprint arXiv:1603.01360, 2016.
[3] Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.
[4] Tan M, Le Q. EfficientNet: Rethinking model scaling for convolutional neural networks[C]//International Conference on Machine Learning. PMLR, 2019: 6105-6114.
[5] Sun C, Huang L, Qiu X. Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence[J]. arXiv preprint arXiv:1903.09588, 2019.
[6] Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks[J]. arXiv preprint arXiv:2106.14448, 2021.
[7] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1059-1068.
作者简介
李翔、陈焕、志华、晓阳、王奇等,均来自美团到店平台技术部到综业务数据团队。
招聘信息
美团到店平台技术部 - 到综业务数据团队,长期招聘算法(自然语言解决 / 举荐算法)、数据仓库、数据迷信、零碎开发等岗位同学,坐标上海。欢送感兴趣的同学发送简历至:licong.yu@meituan.com。
浏览美团技术团队更多技术文章合集
前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试
| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。
| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。