关于nlp:美团商品知识图谱的构建及应用

53次阅读

共计 9783 个字符,预计需要花费 25 分钟才能阅读完成。

商品常识图谱作为新批发行业数字化的基石,提供了围绕商品的精准结构化了解,对业务利用起到了至关重要的作用。相比于美团大脑中原有的围绕商户的图谱而言,商品图谱需应答更加扩散、简单、海量的数据和业务场景,且面临着信息起源品质低、数据维度多、依赖常识以及专业知识等挑战。本文将围绕批发商品常识图谱,介绍美团在商品层级建设、属性体系建设、图谱建设人效晋升等方向的摸索,心愿对大家有所帮忙或启发。

背景

美团大脑

近年来,人工智能正在疾速地扭转人们的生存,背地其实有两大技术驱动力:深度学习 常识图谱。咱们将深度学习演绎为隐性的模型,它通常是面向某一个具体任务,比如说下围棋、辨认猫、人脸识别、语音辨认等等。通常而言,在很多工作上它可能获得很优良的后果,同时它也有一些局限性,比如说它须要海量的训练数据,以及弱小的计算能力,难以进行跨工作的迁徙,并且不具备较好的可解释性。在另一方面,常识图谱作为显式模型,同样也是人工智能的一大技术驱动力,它可能宽泛地实用于不同的工作。相比深度学习,常识图谱中的常识能够积淀,具备较强的可解释性,与人类的思考更加贴近,为隐式的深度模型补充了人类的常识积攒,和深度学习互为补充。因而,寰球很多大型的互联网公司都在常识图谱畛域踊跃进行布局。

美团连贯了数亿用户和数千万商户,背地也蕴含着丰盛的日常生活相干常识。2018 年,美团常识图谱团队开始构建美团大脑,着力于利用常识图谱技术赋能业务,进一步改善用户体验。具体来说,美团大脑会对美团业务中波及到的千万级别商家、亿级别的菜品 / 商品、数十亿的用户评论,以及背地百万级别的场景进行深刻的了解和结构化的常识建模,构建人、店、商品、场景之间的常识关联,从而造成生存服务畛域大规模的常识图谱。现阶段,美团大脑已笼罩了数十亿实体,数百亿三元组,在餐饮、外卖、酒店、金融等场景中验证了常识图谱的有效性。

在新批发畛域的摸索

美团逐渐冲破原有边界,在生存服务畛域摸索新的业务,不仅局限于通过外卖、餐饮帮大家“吃得更好”,近年来也逐渐拓展到批发、出行等其余畛域,帮大家“生存更好”。在批发畛域中,美团先后落地了美团闪购、美团买菜、美团优选、团好货等一系列相应的业务,逐渐实现“万物到家”的愿景。为了更好地反对美团的新批发业务,咱们须要对背地的批发商品建设常识图谱,积攒结构化数据,深刻对批发畛域内商品、用户、属性、场景等的了解,以便能更好地为用户提供批发商品畛域内的服务。

相比于围绕商户的餐饮、外卖、酒店的等畛域,批发商品畛域对于常识图谱的建设和利用提出了更大的挑战。一方面,商品数量更加宏大,笼罩的畛域范畴也更加广阔。另一方面,商品自身所具备的显示信息往往比拟稠密,很大水平上须要联合生存中的常识常识来进行推理,方可将暗藏在背地的数十维的属性进行补齐,实现对商品残缺的了解。在下图的例子中,“乐事黄瓜味”这样简略的商品形容其实就对应着丰盛的隐含信息,只有对这些常识进行了结构化提取和相应的常识推理后,才可能更好的反对上游搜寻、举荐等模块的优化。

商品图谱建设的指标

咱们针对美团批发业务的特点,制订了多层级、多维度、跨业务的批发商品常识图谱体系。

多层级

在不同业务的不同利用场景下,对于“商品”的定义会有所差异,须要对各个不同颗粒度的商品进行了解。因而,在咱们的批发商品常识图谱中,建设了五层的层级体系,具体包含:

  • L1- 商品 SKU/SPU:对应业务中所售卖的商品颗粒度,是用户交易的对象,往往为商户下挂的商品,例如“望京家乐福所售卖的蒙牛低脂高钙牛奶 250ml 盒装”。这一层级也是作为商品图谱的最底层的基石,将业务商品库和图谱常识进行买通关联。
  • L2- 规范商品:形容商品自身客观事实的颗粒度,例如“蒙牛低脂高钙牛奶 250ml 盒装”,无论通过什么渠道在什么商户购买,商品自身并没有任何区别。商品条形码则是在规范商品这层的主观根据。在这一层级上,咱们能够建模围绕规范商品的主观常识,例如同一个规范商品都会具备同样的品牌、口味、包装等属性。
  • L3- 形象商品:进一步咱们将规范商品向上形象的商品系列,例如“蒙牛低脂高钙牛奶”。在这一层级中,咱们不再关注商品具体的包装、规格等,将同系列的商品聚合为形象商品,承载了用户对于商品的主观认知,包含用户对商品系列的别名俗称、品牌认知、主观评估等。
  • L4- 主体品类:形容商品主体的实质品类,列如“鸡蛋”、“奶油草莓”、“台式烤肠”等。这一层作为商品图谱的后盾类目体系,以主观的形式对商品畛域的品类进行建模,承载了用户对于商品的需要,例如各品牌各产地的鸡蛋都可能满足用户对于鸡蛋这个品类的需要。
  • L5- 业务类目:相比于主体品类的后盾类目体系,业务类目作为前台类目体系会根据业务以后的倒退阶段进行人工定义和调整,各个业务会依据以后业务阶段的特点和需要建设对应的前台类目体系。

多维度

  • 商品属性视角:围绕商品自身,咱们须要有海量的属性维度来对商品进行形容。商品属性维度次要分为两类:一类是通用的属性维度,包含品牌、规格、包装、产地等;另一类是品类特有的属性维度,例如对于牛奶品类咱们会关注脂肪含量(全脂 / 低脂 / 脱脂牛奶)、存储形式(常温奶、冷藏奶)等。商品属性次要是刻画了商品的主观常识,往往会建设在规范商品这一层级上。
  • 用户认知视角:除了主观的商品属性维度以外,用户往往对于商品会有一系列的主观认知,例如商品的别名俗称(“小黑瓶”、“高兴水”)、对于商品的评估(“香甜可口”、“入口即化”、“性价比高”)、商品的清单 / 榜单(“进口食品榜单”、“冬季消暑常备”)等维度。这些主观认知往往会建设在形象商品这一层级上。
  • 品类 / 类目视角:从品类 / 类目标视角来看,不同品类 / 类目也会有各自不同的关注点。在这一层级上,咱们会建模各个品类 / 类目下有哪些典型的品牌、用户关注哪些典型属性、不同品类的复购周期是多长时间等。

跨业务

美团大脑商品常识图谱的指标是心愿可能对主观世界中的商品常识进行建模,而非局限于单个业务之中。在商品图谱的五层体系中,规范商品、形象商品、品类体系都是与业务解耦的,围绕着主观商品所建设的,包含围绕这些层级建设的各维度数据也均是刻画了商品畛域的主观常识。

在利用于各个业务当中时,咱们将主观的图谱常识向上关联至业务前台类目,向下关联至业务商品 SPU/SKU,则能够实现各个业务数据的接入,实现各个业务数据和主观常识之间的联通,提供更加全面的跨业务的全景数据视角。利用这样的数据,在用户方面咱们能够更加全面的建模、剖析用户对于业务、品类的偏好,对于价格、品质等的敏感水平,在商品方面咱们能够更精确的建模各品类的复购周期、地区 / 节令 / 节日偏好等。

商品图谱建设的挑战

商品常识图谱的构建的挑战次要来源于以下三个方面:

  1. 信息起源品质低:商品自身所具备的信息比拟匮乏,往往以题目和图片为主。尤其在美团闪购这样 LBS 的电商场景下,商户须要上传大量的商品数据,对于商品信息的录入存在很多信息不残缺的状况。在题目和图片之外,商品详情尽管也蕴含着大量的常识信息,然而其品质往往参差不齐,并且构造各异,从中进行常识开掘难度极高。
  2. 数据维度多:在商品畛域有泛滥的数据维度须要进行建设。以商品属性局部为例,咱们不仅须要建设通用属性,诸如品牌、规格、包装、口味等维度,同时还要笼罩各个品类 / 类目下特定关注的属性维度,诸如脂肪含量、是否含糖、电池容量等,整体会波及到上百维的属性维度。因而,数据建设的效率问题也是一大挑战。
  3. 依赖常识 / 专业知识:人们在日常生活中因为有很丰盛的常识常识积攒,能够通过很简短的形容获取其背地暗藏的商品信息,例如在看到“乐事黄瓜”这样一个商品的时候晓得其实是乐事黄瓜味的薯片、看到“唐僧肉”的时候晓得其实这不是一种肉类而是一种零食。因而,咱们也须要摸索联合常识常识的语义了解办法。同时,在医药、个护等畛域中,图谱的建设须要依赖较强的专业知识,例如疾病和药品之间的关系,并且此类关系对于准确度的要求极高,须要做到所有常识都准确无误,因而也须要较好的专家和算法相结合的形式来进行高效的图谱构建。

商品图谱建设

在理解了图谱建设的指标和挑战后,接下来咱们将介绍商品图谱数据建设的具体计划。

层级体系建设

品类体系建设

实质品类形容了商品实质所属的最细类别,它聚合了一类商品,承载了用户最终的生产需要,如“高钙牛奶”、“牛肉干”等。实质品类与类目也是有肯定的区别,类目是若干品类的汇合,它是形象后的品类概念,不可能明确到具体的某类商品品类上,如“乳制品”、“水果”等。

品类打标:对商品图谱的构建来说,要害的一步便是建设起商品和品类之间的关联,即对商品打上品类标签。通过商品和品类之间的关联,咱们能够建设起商品库中的商品与用户需要之间的关联,进而将具体的商品展现到用户背后。上面简略介绍下品类打标办法:

  1. 品类词表构建:品类打标首先须要构建一个初步的商品品类词表。首先,咱们通过对美团的各个电商业务的商品库、搜寻日志、商户标签等数据源进行分词、NER、新词发现等操作,取得初步的商品候选词。而后,通过标注大量的样本进行二分类模型的训练(判断一个词是否是品类)。此外,咱们通过联合被动学习的办法,从预测的后果中挑选出难以辨别的样本,进行再次标注,持续迭代模型,直到模型收敛。
  2. 品类打标:首先,咱们通过对商品题目进行命名实体辨认,并联合上一步中的品类词表来获取商品中的候选品类,如辨认“蒙牛脱脂牛奶 500ml”中的“脱脂牛奶”、“牛奶”等。而后,在取得了商品以及对应的品类之后,咱们利用监督数据训练品类打标的二分类模型,输出商品的 SPU_ID 和候选品类 TAG 形成的 Pair,即 <SPU_ID,TAG>,对它进行是否匹配的预测。具体的,咱们一方面利用联合业务中丰盛的半结构化语料构建围绕标签词的统计特色,另一方面利用命名实体辨认、基于 BERT 的语义匹配等模型产出高阶相关性特色,在此基础上,咱们将上述特色输出到终判模型中进行模型训练。
  3. 品类标签后处理:在这一步中,咱们对模型打上的品类进行后处理的一些策略,如基于图片相关性、联合商品题目命名实体辨认后果等的品类荡涤策略。

通过上述的三个步骤,咱们便能够建设起商品与品类之间的分割。

品类体系:品类体系由品类和品类间关系形成。常见的品类关系包含同义词和上下位等。在构建品类体系的过程中,罕用的以下几种办法来进行关系的补全。咱们次要应用上面的一些办法:

  1. 基于规定的品类关系开掘。在百科等通用语料数据中,有些品类具备固定模式的形容,如“玉米又名苞谷、苞米棒子、玉蜀黍、珍珠米等”、“榴莲是驰名寒带水果之一”,因而,能够应用规定从中提取同义词和上下位。
  2. 基于分类的品类关系开掘。相似于上文中提到的品类打标办法,咱们将同义词和上下位构建为 <TAG, TAG> 的样本,通过在商品库、搜寻日志、百科数据、UGC 中开掘的统计特色以及基于 Sentence-BERT 失去的语义特色,应用二分类模型进行品类关系是否成立的判断。对于训练失去的分类模型,咱们同样通过被动学习的形式,选出后果中的难分样本,进行二次标注,进而一直迭代数据,进步模型性能。
  3. 基于图的品类关系推理。在取得了初步的同义词、上下位关系之后,咱们应用已有的这些关系构建网络,应用 GAE、VGAE 等办法对网络进行链路预测,从而进行图谱边关系的补全。

规范 / 形象商品

规范商品是形容商品自身客观事实的颗粒度,和销售渠道和商户无关,而商品条形码是规范商品这层的主观根据。标品关联行将同属于某个商品条形码的业务 SKU/SPU,都正确关联到该商品条形码上,从而在规范商品层级上建模相应的主观常识,例如规范商品对应的品牌、口味和包装等属性。上面通过一个案例来阐明标品关联的具体任务和计划。

案例:下图是一个公牛三米插线板的规范商品。商家录入信息的时候,会把商品间接关联到商品条码上。通过商户录入数据实现了一部分的标品关联,但这部分比例比拟少,且存在大量的链接缺失,链接谬误的问题。另外,不同的商家对于同样的标品,商品的题目的形容是千奇百怪的。咱们的指标是补充缺失的链接,将商品关联到正确的标品上。

针对标品关联工作,咱们构建了商品畛域的同义词判断模型:通过远监督的形式利用商户曾经提供的大量有关联的数据,作为已有的常识图谱结构远监督的训练样本。在模型中,正例是置信度比拟高的标品码;负例是原始数据中商品名或者图像相似但不属于同一标品的 SPU。结构准确率比拟高的训练样本之后,通过 BERT 模型进行同义词模型训练。最初,通过模型自主去噪的形式,使得最终的准确率可能达到 99% 以上。总体能做到品牌,规格,包装等维度敏感。

形象商品是用户认知的层面,作为用户所评论的对象,这一层对用户偏好建模更加无效。同时,在决策信息的展现上,形象商品粒度也更合乎用户认知。例如下图所示冰淇淋的排行榜中,列举了用户认知中形象商品对应的 SKU,而后对应展现不同形象商品的特点、举荐理由等。形象商品层整体的构建形式,和规范商品层比拟相似,采纳标品关联的模型流程,并在数据结构局部进行规定上的调整。

属性维度建设

对一个商品的全面了解,须要涵盖各个属性维度。例如“乐事黄瓜味薯片”,须要开掘它对应的品牌、品类、口味、包装规格、标签、产地以及用户评论特色等属性,能力在商品搜寻、举荐等场景中精准触达用户。商品属性开掘的源数据次要蕴含商品题目、商品图片和半结构化数据三个维度。

商品题目蕴含了对于商品最重要的信息维度,同时,商品题目解析模型能够利用在查问了解中,对用户疾速深刻了解拆分,为上游的召回排序也能提供高阶特色。因而,这里咱们着重介绍一下利用商品题目进行属性抽取的办法。

商品题目解析整体能够建模成文本序列标注的工作。例如,对于商品题目“乐事黄瓜薯片”,指标是了解题目文本序列中各个成分,如乐事对应品牌,黄瓜对应口味,薯片是品类,因而咱们应用命名实体辨认(NER)模型进行商品题目解析。然而商品题目解析存在着三大挑战:(1)上下文信息少;(2)依赖常识常识;(3)标注数据通常有较多的乐音。为了解决前两个挑战,咱们首先尝试在模型中引入了图谱信息,次要蕴含以下三个维度:

  • 节点信息:将图谱实体作为词典,以 Soft-Lexicon 形式接入,以此来缓解 NER 的边界切分谬误问题。
  • 关联信息:商品题目解析依赖常识常识,例如在不足常识的状况下,仅从题目“乐事黄瓜薯片”中,咱们无奈确认“黄瓜”是商品品类还是口味属性。因而,咱们引入常识图谱的关联数据缓解了常识常识缺失的问题:在常识图谱中,乐事和薯片之间存在着“品牌 - 售卖 - 品类”的关联关系,然而乐事跟黄瓜之间则没有间接的关系,因而能够利用图构造来缓解 NER 模型常识常识短少的问题。具体来说,咱们利用 Graph Embedding 的技术对图谱进行的嵌入表征,利用图谱的图构造信息对图谱中的单字,词进行示意,而后将蕴含了图谱构造信息的嵌入示意和文本语义的表征进行拼接交融,再接入到 NER 模型之中,使得模型可能既思考到语义,也思考到常识常识的信息。
  • 节点类型信息:同一个词能够代表不同的属性,比方“黄瓜”既能够作为品类又能够作为属性。因而,对图谱进行 Graph Embedding 建模的时候,咱们依据不同的类型对实体节点进行拆分。在将图谱节点表征接入 NER 模型中时,再利用注意力机制依据上下文来抉择更合乎语义的实体类型对应的表征,缓解不同类型下词语含意不同的问题,实现不同类型实体的交融。

接下来咱们探讨如何缓解标注乐音的问题。在标注过程中,少标漏标或错标的问题无奈防止,尤其像在商品题目 NER 这种标注比较复杂的问题上,尤为显著。对于标注数据中的乐音问题,采纳以下形式对乐音标注优化:不再采取原先非 0 即 1 的 Hard 的训练形式,而是采纳基于置信度数据的 Soft 训练形式,而后再通过 Bootstrapping 的形式迭代穿插验证,而后依据以后的训练集的置信度进行调整。咱们通过试验验证,应用 Soft 训练 +Bootstrapping 多轮迭代的形式,在噪声比例比拟大的数据集上,模型成果失去了显著晋升。具体的办法可参见咱们在 NLPCC 2020 较量中的论文《Iterative Strategy for Named Entity Recognition with Imperfect Annotations》。

效率晋升

常识图谱的构建往往是针对于各个领域维度的数据独自制订的开掘形式。这种开掘形式重人工,比拟低效,针对每个不同的畛域、每个不同的数据维度,咱们都须要定制化的去建设工作相干的特色及标注数据。在商品场景下,开掘的维度泛滥,因而效率方面的进步也是至关重要的。咱们首先将常识开掘工作建模为三类分类工作,包含节点建模、关系建模以及节点关联。在整个模型的训练过程中,最须要进行效率优化的其实就是上述提到的两个步骤:(1)针对工作的特征提取;(2)针对工作的数据标注。

针对特征提取局部,咱们摒弃了针对不同开掘工作做定制化特色开掘的形式,而是尝试将特色和工作解耦,构建跨工作通用的图谱开掘特色体系,利用海量的特色库来对指标的节点 / 关系 / 关联进行表征,并利用监督训练数据来进行特色的组合和抉择。具体的,咱们构建的图谱特色体系次要由四个类型的特色组形成:

  1. 规定模板型特色次要是利用人工先验常识,交融规定模型能力。
  2. 统计散布型特色,能够充分利用各类语料,基于不同语料不同层级维度进行统计。
  3. 句法分析型特色则是利用 NLP 畛域的模型能力,引入分词、词性、句法等维度特色。
  4. 嵌入示意型特色,则是利用高阶模型能力,引入 BERT 等语义了解模型的能力。

针对数据标注局部,咱们次要从三个角度来晋升效率。

  1. 通过半监督学习,充沛的利用未标注的数据进行预训练。
  2. 通过被动学习技术,抉择对于模型来说可能提供最多信息增益的样本进行标注。
  3. 利用近程监督办法,通过已有的常识结构远监督样本进行模型训练,尽可能的施展出已有常识的价值。

人机联合 - 业余图谱建设

以后医药衰弱行业结构性正在发生变化,消费者更加偏向于应用在线医疗解决方案和药品配送服务,因而医药业务也逐步成为了美团的重要业务之一。相比于普通商品常识图谱的建设,药品畛域常识具备以下两个特点:(1)具备极强的专业性,须要有相干背景常识能力判断相应的属性维度,例如药品的实用症状等。(2)准确度要求极高,对于强专业性常识不容许出错,否则更容易导致严重后果。因而咱们采纳将智能模型和专家常识联合的形式来构建药品常识图谱。

药品图谱中的常识能够分为弱专业知识和强专业知识两类,弱专业知识即个别人可能较容易获取和了解的常识,例如药品的应用办法、适用人群等;而强专业知识则是须要具备业余背景的人才可能判断的常识,例如药品的主治疾病、适应症状等。因为这两类数据对专家的依赖水平不同,因而咱们别离采取不同的开掘链路:

  • 弱专业知识:对于药品图谱的弱专业知识开掘,咱们从说明书、百科知识等数据源中提取出相应的信息,并联合通过专家常识积淀进去的规定策略,借助通用语义模型从中提取相应的常识,并通过专家的批量抽检,实现数据的建设。
  • 强专业知识:对于药品图谱的强专业知识开掘,为了确保相干常识百分百精确,咱们通过模型提取出药品相干属性维度的候选后,将这些候选常识给到专家进行全量质检。在这里,咱们次要是通过算法的能力,尽可能减少业余药师在根底数据层面上的精力破费,进步专家从半结构化语料中提取专业知识的效率。

在药品这类专业性强的畛域,专业知识的表述和用户习惯往往存在差别。因而咱们除了开掘强弱专业知识外,还须要填补专业知识和用户之间的差别,能力将药品图谱更好的与上游利用联合。为此,咱们从用户行为日志以及畛域日常对话等数据源中,开掘了疾病、症状和效用的别名数据,以及药品通用名的俗称数据,来买通用户习惯和业余表述之间的通路。

商品图谱的落地利用

自从谷歌将常识图谱利用于搜索引擎,并显著晋升了搜寻品质与用户体验,常识图谱在各垂直畛域场景都表演起了重要的角色。在美团商品畛域中,咱们也将商品图谱无效的利用在围绕商品业务的搜寻、举荐、商家端、用户端等多个上游场景当中,接下来咱们举几个典型的案例进行介绍。

结构化召回

商品图谱的数据,对于商品的了解很有帮忙。例如,在商品搜寻中,如用户在搜寻头疼腰疼时,通过结构化的常识图谱,能力晓得什么药品是有止疼效用的;用户在搜寻可爱多草莓、黄瓜薯片时,须要依赖图谱的常识常识来了解用户真正需要是冰淇淋和薯片,而不是草莓和黄瓜。

排序模型泛化性

图谱的类目信息、品类信息、属性信息,一方面能够作为比拟强有力的相关性的判断办法和干涉伎俩,另一方面能够提供不同粗细粒度的商品聚合能力,作为泛化性特色提供到排序模型,能无效地晋升排序模型的泛化能力,对于用户行为尤为稠密的商品畛域来说则具备着更高的价值。具体的特色应用形式则包含:

  1. 通过各颗粒度进行商品聚合,以 ID 化特色接入排序模型。
  2. 在各颗粒度聚合后进行统计特色的建设。
  3. 通过图嵌入示意的形式,将商品的高维向量示意和排序模型联合。

多模态图谱嵌入

现有的钻研工作曾经在多个畛域中证实了,将常识图谱的数据进行嵌入示意,以高维向量示意的形式和排序模型联合,能够无效地通过引入内部常识达到缓解排序 / 举荐场景中数据稠密以及冷启动问题的成果。然而,传统的图谱嵌入的工作往往漠视了常识图谱中的多模态信息,例如商品畛域中咱们有商品的图片、商品的题目、商家的介绍等非简略的图谱节点型的常识,这些信息的引入也能够进一步晋升图谱嵌入对举荐 / 排序的信息增益。

现有的图谱嵌入办法在利用到多模态图谱表征的时候会存在一些问题,因为在多模态场景下,图谱中边的含意不再是单纯的语义推理关系,而是存在多模态的信息补充的关系,因而咱们也针对多模态图谱的特点,提出了 MKG Entity Encoder 和 MKG Attention Layer 来更好的建模多模态常识图谱,并将其表征无效的接入至举荐 / 排序模型中,具体方法能够参考咱们在 CIKM 2020 发表了的论文《Multi-Modal Knowledge Graphs for Recommender Systems》。

用户 / 商家端优化

商品图谱在用户端提供显式化的可解释性信息,辅助用户进行决策。具体的出现模式包含筛选项、特色标签、榜单、举荐理由等。筛选项的维度受以后查问词对应品类下用户关注的属性类别决定,例如,当用户搜寻查问词为薯片时,用户通常关注的是它的口味、包装、净含量等,咱们将会依据供应数据在这些维度下的枚举值展现筛选项。商品的特色标签则来源于题目、商品详情页信息与评论数据的提取,以简洁明了的结构化数据展现商品特色。商品的举荐理由通过评论抽取与文本生成两种渠道取得,与查问词联动,以用户视角给出商品值得买的起因,而榜单数据则更为主观,以销量等实在数据,反馈商品品质。

在商家端,即商家公布侧,商品图谱则提供了基于商品题目的实时预测能力,帮忙商家进行类目标挂载、属性信息的欠缺。例如,商家填写题目“德国进口德亚脱脂纯牛奶 12 盒”后,商品图谱提供的在线类目预测服务可将其挂载到“食品饮料 - 乳制品 - 纯牛奶”类目,并通过实体辨认服务,失去商品的“产地 - 德国”,“是否进口 - 进口”,“品牌 - 德亚”,“脂肪含量 - 脱脂”,“规格 -12 盒”的属性信息,预测实现后,由商家确认公布,升高商家对商品信息的保护老本,并晋升公布商品的信息品质。

作者简介

雪智,凤娇,姿雯,匡俊,林森,武威等,均来自美团平台搜寻与 NLP 部 NLP 核心。

招聘信息

美团大脑常识图谱团队大量岗位继续招聘中,实习、校招、社招均可,坐标北京 / 上海,欢送感兴趣的同学退出咱们,利用自然语言和常识图谱技术,帮大家吃得更好,生存更好。简历可投递至:caoxuezhi@meituan.com。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。

正文完
 0