关于美团:美团外卖美食知识图谱的迭代及应用

39次阅读

共计 7179 个字符,预计需要花费 18 分钟才能阅读完成。

菜品是外卖交易过程的外围因素,对菜品的了解也是实现外卖供需匹配的重点。明天咱们将一次推送三篇文章,系统地介绍了美团外卖美食常识图谱的构建和利用。《美团外卖美食常识图谱的迭代及利用》会介绍外卖常识图谱的体系全貌,包含菜品类目、规范菜品、美食根底属性和美食业务主题属性。《外卖商品的标准化建设与利用》将重点介绍外卖菜品标准化建设思路、技术计划和业务利用。因为外卖的业务特点是搭配成单,而《外卖套餐搭配的摸索和利用》一文会针对性地介绍外卖套餐搭配技术的迭代以及利用实际。心愿对从事相干工作的同学可能带来一些启发或者帮忙。

本文系外卖美食常识图谱系列的第一篇文章,这篇文章系统地介绍了美团外卖美食常识图谱的标签体系结构,包含菜品类指标签、规范菜品名、美食根底属性(食材、口味、菜系等)和美食业务主题属性(商家招牌、类目经典等)。在技术层面,举例对标签体系的具体构建办法进行介绍,例如基于 BERT 预训练的分类模型。在利用方面,介绍了美食常识图谱在美团外卖业务的具体利用,包含撑持套餐搭配的菜品表征、晋升搜寻和商家举荐等业务的用户体验。

1. 背景

常识图谱,旨在形容真实世界中存在的各种实体和实体之间的关系。在美团外卖业务中,美食商品是美团向用户提供服务的根底,美食常识图谱的建设,能够帮忙咱们向用户提供更加精确、更加丰盛、更加个性化的美食服务。另外,美团外卖业务向用户提供“到家”吃饭的服务,到店餐饮业务则向用户提供“到店”吃饭的服务,而外卖和到店的商家和菜品有相当程度的重合,菜品数据的对齐,为咱们进行线上(外卖场景)线下(到店场景)数据的比照剖析也提供了一个很好的“抓手”。

本文介绍了外卖美食常识图谱的建设,基于对外卖业务数据(外卖交易数据、商家录入的商品标签信息、业余形容 PGC、用户评论 UGC、商品图片等)和站外数据(百科、菜谱等)的开掘和剖析,造成了针对外卖美食的分类体系(美食类指标签)和标准化体系(规范菜品名标签),并进一步针对不同类型的美食商品,构建蕴含口味、食材等泛滥美食根底属性体系。同时,依靠美团外卖的业务个性,构建美食商品在外卖业务中波及的主题属性体系,例如商家招牌、商家主营、类目经典等。目前,外卖美食常识图谱的标签构造如下图 1 所示:

外卖美食常识图谱蕴含以下四种维度的标签(以“宫保鸡丁”为例,如下图 2 所示):

  1. 类指标签:包含主食、小吃、菜品等类目,并在每个类目下,造成了层级化的三百多种细分类目。例如“宫保鸡丁”的类目是“菜品”。类指标签是美食商品的根底分类信息,依据类目标不同,美食商品的根底属性也不同。例如“菜品”类目存在“荤素”、“菜系”之分,而“酒水饮品”类目则没有这种属性标签。
  2. 规范菜品名标签:规范菜品名标签次要为规范商品信息,例如“宫保鸡丁(招牌必点)”的规范商品是“宫保鸡丁”。因商家输出商品的多样性,规范菜标签的建设,实现了雷同美食的聚合。
  3. 根底属性:依据美食商品的类目不同,构建包含美食的食材、菜系、口味、制作方法、荤素等根底属性。例如“宫保鸡丁”的菜系是“川菜”,食材有“鸡胸”和“花生”,荤素标签是“荤”。根底属性的开掘对咱们了解商品起到关键作用,在商品的筛选、展现、商品表征等业务需要方面,提供根本的数据特色。
  4. 主题属性:主题属性次要体现美食的业务主题,包含美食在外卖的交易行为、美食在商家的定位、美食在用户反馈中的好评度等。例如某商家的“宫保鸡丁(招牌必点)”是该商家的“招牌菜”。

菜品对齐,波及到菜品数据,来自外卖在线菜品、点评举荐菜品、美团商家套餐等。

2. 需要及挑战

目前,外卖美食常识图谱曾经利用于美团外卖的多个场景,例如举荐、搜寻、套餐搭配、经营剖析等。业务的深刻倒退,对美食常识图谱的建设和迭代也提出了更加简单的要求,例如:

  1. 美食商品越来越多样,相应的美食常识图谱则须要越来越精密和精确。例如美食常识图谱的类指标签从零开始,建设了蕴含一百多品种目标类指标签体系。但随着业务倒退,局部类目存在显著的可细化空间。
  2. 图谱标签的开掘,偏差于动态标签的开掘,对于雷同图谱标签下的美食,短少业务相干的主题属性形容。例如同样蕴含“花生”的“酒鬼花生”,相比“宫保鸡丁”,更能代表“花生”相干的美食。
  3. 外卖美食常识图谱次要形容外卖美食商品,而同一商家的美食商品,也可能会呈现在该店的线下收银等业务中。通过对齐不同业务的美食商品,能够在美食实体层面,欠缺美食常识图谱对商家美食的形容,从而领导商品和商家经营。

为满足业务需要,咱们对类指标签和根底属性进行了迭代和优化;同时,构建了业务相干的主题属性。另外,咱们将外卖菜品和到餐菜品进行了实体对齐。其中,开掘主题属性,即开掘业务相干的图谱常识,是一个须要综合思考外卖业务和商品自身属性的简单过程。外卖菜品和到餐菜品的对齐,则须要综合思考菜品多样性表述和菜品主体归一。

外卖美食常识图谱的迭代难点次要体现在以下几点:

  1. 业务相干的主题属性开掘,并没有现成的体系能够参考,在构建过程中,波及大量的剖析和体系设计工作。
  2. 主题属性的开掘,最重要的是须要从用户的需要登程,剖析用户对商品的需要点,并将其反映在商品的图谱层面,造成相应的主题属性标签。同时,商家的商品信息是一个动态变化的过程,例如销量、供应、商品标签等,前后两天的信息可能就会齐全不同。因而业务性主题属性的开掘,一方面须要建设绝对欠缺的体系,另一方面也须要适配业务数据的动态变化过程,也就在图谱开掘和需要匹配上带来了极大的挑战。
  3. 商家录入菜品时,对菜品存在多样性表述,例如同一道菜在重量、口味、食材等方面存在的差别。菜品对齐时,则须要对这些多样性表述进行均衡,例如是否疏忽重量因素等。但目前并没有现成的对齐规范能够参考。

3. 外卖美食常识图谱的迭代

因篇幅受限,本文次要对其中菜品类目,不同类目、口味、食材、荤素、做法下的经典美食,衰弱餐等图谱标签的开掘进行介绍。其中,在图谱标签开掘中波及到的数据起源和采纳的技术,大抵如下表所示:

标签技术
菜品类目BERT 分类模型
不同类目、口味、食材、荤素、做法下的经典美食数据统计、实体辨认、关系辨认、产品定义(综合思考销量和供给量)
衰弱餐分类模型 + 产品定义(合乎肯定食材、做法、效用的商品)

3.1 菜品类目

菜品类指标签的开掘,次要解决美食菜品是什么类别的问题。实现这一指标的挑战有两方面:首先是类目体系如何建设,其次是如何将商品链接到相应的类目节点。在最开始的体系构建时,咱们从美食商品的特点以及业务的具体需要登程,从零开始建设起蕴含一百多品种别的层次化类别体系,局部实例如图 3(左)所示。同时,构建基于 CNN+CRF 的分类模型,对美食商品进行类目分类,如图 4(左)所示。

然而,随着业务的倒退,已有分类目曾经无奈反对现有业务的需要。例如:原先的类目体系,对热菜形容不够具体,譬如没有辨别热菜的做法等。为此,咱们与外卖的供应布局部单干,将类目体系裁减到细分的三百多品种指标签,划分更加具体,笼罩也更加全面,局部实例如图 3(右)所示。

类目标细分,要求模型更加准确。在进行类目辨认时,可用的数据包含菜品名、商家店内侧边栏分类名称、商家名等。思考到可应用的信息大多为文本信息,并且,商家录入的文本并没有肯定的标准,菜品名也多种多样,为进步模型精度,咱们将原先的 CNN+CRF 的分类模型进行了降级,采纳模型容量更大的 BERT 预训练 +Fine-Tuning 的模型。模型构造如下图 4(右)所示。

3.2 不同类目、口味、食材、荤素、做法下的经典美食标签

咱们在建设主题属性时,首先在根底属性标签维度,综合思考商品的销量和供应状况,对菜品进行选优。例如类目下的经典美食等。但在建设过程中,咱们发现菜系的经典美食辨认,如果根据销量和供应进行辨认,则辨认后果偏向于菜系下的“家常菜”,因而将经典菜系美食进行独自辨认。

类目经典美食等指的是销量较高、供给量丰盛的类目美食商品,例如主食经典美食、小吃经典美食。口味、食材、做法经典美食标签等也是类似的定义。

在建设过程中,咱们发现,如果间接在商品维度进行辨认,因为商品的更新频率绝对较高,对新录入的临时没有销量或者临时销量低的美食商品不敌对,销量程度须要思考在线工夫的影响。因而咱们应用规范菜品进行类目、口味经典等的辨认,并通过规范菜品,泛化到具体的美食商品上。

其中,“规范菜品”借用其它类电商业务中的“标品”概念,尽管绝大部分菜品的生产都不是标准化的过程,然而这里咱们只关注次要的共性局部,疏忽主要的差别局部。例如“西红柿鸡蛋”、“番茄炒蛋”都是同一类菜品。从后果上看,目前咱们聚合进去的“规范菜品”达到几十万的量级,并且可能笼罩大部分美食商品。

借助规范菜品,咱们将类目、口味、食材、荤素、做法等标签聚合到规范菜品维度,并将销量、供给量进行规范菜品维度计算,这样就解决了商品在线工夫长短的问题。在具体打标过程中,例如类目经典,咱们基于销量和供应,在类目维度对规范菜进行排序,并抉择 Top n% 规范菜进行打标,作为类目经典下的商品。例如在“面食”类目下,“西红柿鸡蛋面”的销量和供给量均在 Top n% 的程度,因而就认为“西红柿鸡蛋面”是一个面食类经典美食。

3.3 衰弱餐

这里的衰弱餐次要指低脂低卡餐,即低卡路里、低脂肪、高纤维、制作简略、原汁原味、衰弱养分的食物,个别为蔬菜水果(如罗勒、甘蓝、秋葵、牛油果等),富含优质蛋白的肉类(如三文鱼、虾、贝类、鸡胸等),谷物(次要以细粮为主,如燕麦、高粱、藜麦等)。烹饪办法也保持“少油,少盐,少糖”的准则,次要做法为蒸、煮、少煎、凉拌等。

衰弱餐的辨认,次要挑战在于自身的样本较少,然而因为衰弱餐的特殊性,商家在进行商品录入时,个别会对其进行形容,例如指出这个美食商品是“衰弱”的、“低卡”的、“健身”类型的,因而咱们构建了一个分类模型,对衰弱餐进行辨认。可应用的数据,包含商品名、商家导航栏、商家名称、商家对商品的形容等。而商家类目与商品的类目处于迭代状态,因而并没有对这部分信息进行应用。

辨认过程如下

  • 训练数据构建:因衰弱餐自身的占比绝对较少,因而首先总结和衰弱餐相干的关键词,应用关键词进行文本匹配,采样概率绝对较高的衰弱餐数据,进行外包数据标注。此处,咱们总结出“沙拉、谷物饭、谷物碗、低油、低卡、无糖、减脂、减肥、轻食、轻卡”等关键词。
  • 模型构建 :同一个商品因其中应用的配料不同,在衰弱餐辨认方面也会不同,例如菜名为“招牌沙拉”的商品,如果沙拉中增加了芝士,则有可能商品就不会被辨认成衰弱餐。为了综合思考商家录入的商品信息,应用商品名、商家名、导航栏名称、商家录入的商品形容等。这四种数据为不同尺度的数据源,商品名等为绝对较短的文本,因而在模型构建时,思考应用相似 Text-CNN[1] 的构造进行字级别的特征提取;商品形容则是绝对较长的文本,因而在构建时,思考应用相似 Transformer[2]的构造进行特征提取,应用 Multi-head Attention 的机制,提取长文本中,“字”层面的特色。具体构造如下:

    • 采纳了两种构造:Multihead-attention(Transformer)和 Text-CNN。试验发现,采纳两种构造联结的形式,比采纳繁多构造准确率高。
    • 在建模时,均应用字级别特色解决,防止因为分词造成的误差,同时也防止未登录词的影响。
  • 数据迭代加强:因为应用关键词进行样本构建,在模型训练时,模型会朝着蕴含这些关键词的方向学习,因而存在漏召回的状况。在这里,咱们进行了肯定的训练数据加强,例如在评估时,选取可辨认出衰弱餐的商家,对该商家中漏召回的数据进行训练数据补充;同时,对局部特色显著的关键词,进行补充并裁减正例。通过对训练样本的屡次裁减,最终实现衰弱餐的高准确率辨认。

3.4 菜品实体对齐

思考到同一商家菜品在不同业务线的菜品名可能略有差别,咱们设计了一套菜品名匹配的算法,通过拆解菜品名称的量词、拼音、前后缀、子字符串、程序等特色,利用美食类目辨认、规范菜品名抽取、同义关系匹配等进行菜品实体对齐。例如:碳烧鸽 = 炭烧鸽、重庆辣子鸡 = 重庆歌乐山辣子鸡、茄子肉泥盖饭 = 茄子肉泥盖浇饭、番茄炒蛋 = 西红柿炒蛋等。目前,造成如下图的菜品归一体系:

4. 利用

这里对外卖美食常识图谱的利用,进行举例说明。次要波及套餐搭配、美食商品展现等。

4.1 套餐搭配 - 表征菜品

为满足用户的搭配成单需要,进行套餐搭配技术的摸索。套餐搭配技术的关键在于,对美食商品的认知,而外卖美食常识图谱,则提供了最全面的数据根底。咱们基于同商家内的商品信息和历史成单信息,对商品的搭配关系进行拟合,参考指针网络 [2] 等构造,构建了基于 Multi-Head Attention[3]的 Enc-Dec 模型,具体的模型构造如下:

  1. Encoder:对商家菜单进行建模,因菜单为无序数据,因而采纳 Attention 的形式进行建模。商品的信息次要包含商品名、商品图谱标签、交易统计数据等三局部。

    1. 对菜名、商品标签别离进行 Self-Attention 计算,失去菜名和商品标签对应的向量信息,而后与交易统计数据进行 Concat,作为商品的初步示意。
    2. 对商品的初步示意进行 Self-Attention 计算,以对同商家的商品有所感知。
  2. Deocoder:对搭配关系进行学习,基于以后已抉择的商品,对下一个可能的搭配进行预估。

    1. 在搭配输入时,应用 Beam-Search 进行多种搭配后果的输入。
    2. 为了保障输入搭配中的商品的多样性,增加 Coverage 机制[2]。
  3. 训练之后,将 Encoder 局部拆散,进行离线调度,可实现每天的向量产出。

具体的模型构造如下图所示:

基于外卖美食常识图谱构建的套餐搭配模型,在多个入口(“满减神器”、“对话点餐”、“菜品详情页”等)获得转化的晋升。

4.2 交互式举荐

通过剖析外卖用户的需要,发现用户存在跨店类似商品比照的需要,为突破商家界线的选购流程特点,提供便捷的跨店比照决策形式。交互式举荐,通过新的交互模式,打造举荐产品的突破点。在用户的交互过程中,依据用户的历史偏好、实时的点击行为,向用户举荐可能喜爱的美食商品。如下图 8(左)所示,在向用户进行同类美食的举荐时,美食常识图谱中的规范菜品标签提供了次要的数据撑持。

4.3 搜寻

搜寻作为外卖外围流量入口,承载了用户明确的外卖需要。用户通过输出关键词,进行菜品检索。在理论应用中,从搜寻的关键词类型看,可能是某个具体的菜品,也可能是某种食材、某种菜系。在美食常识图谱中,图谱标签的高准确率和高笼罩,有助于晋升搜寻入口的用户体验,最新的试验也表明了这一点(新增局部食材、菜系、效用等标签,在搜寻的线上试验成果正向)。

5. 将来布局

5.1 场景化标签的开掘

美食与咱们的生存非亲非故,美团外卖每天为千万用户提供美食方面的服务。然而,用户的需要是多种多样的,在不同的环境、不同的场景下,对美食的需要也不尽相同。目前美食常识图谱开掘,在场景相干的标签较为缺失,例如某些节气、节日等图谱常识;特定天气情况下的图谱常识;特定人群(增肌人群、减肥人群)等的图谱常识。接下来咱们会在场景化标签的开掘方面进行摸索。

在开掘办法方面,目前的开掘数据次要为文本信息。在商品图片、形容、结构化标签等信息的交融方面,开掘不够深刻,模型的成果也有待晋升。因而在多模态辨认模型方面,咱们也会进行相应的摸索。

5.2 基于图谱的举荐技术钻研

美团外卖在了解美食的根底上,向用户进行美食举荐,以更好地满足用户对美食的需要。外卖美食常识图谱和外卖业务数据,作为实现这一点的数据根底,蕴含上亿的节点信息和十几亿的关系数据。通过对用户的商品搜寻、点击、购买等行为进行建模剖析,能够更加贴合用户的需要,向用户进行商品举荐,例如,将美食常识图谱和外卖行为数据交融,以用户为终点,进行随机游走,向用户举荐相干的美食。在接下来的图谱利用方面的摸索中,咱们也会更加深刻的摸索基于美食常识图谱和用户行为的举荐技术。

6. 参考文献

  • [1] Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.
  • [2] See A, Liu P J, Manning C D. Get to the point: Summarization with pointer-generator networks[J]. arXiv preprint arXiv:1704.04368, 2017.
  • [3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
  • [4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[C]//Advances in Neural Information Processing Systems. 2017: 1024-1034.

7. 作者简介

杨林、郭同、海超、懋地等,均来自美团外卖技术团队。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。

正文完
 0