关于知识图谱:本地生活综合性需求图谱的构建及应用

2次阅读

共计 14403 个字符,预计需要花费 37 分钟才能阅读完成。

本地生存综合性需要图谱(GENE: lifestyle GEneral NEeds net),是从用户需要视角登程,深刻开掘本地生存场景下用户多样化的需要,并将其与多行业、多类型的供应造成关联的常识图谱,旨在晋升平台供需匹配效率,助力业务增长。本文介绍了本地生存综合性需要图谱的背景、体系设计和波及的算法实际,并展现了在美团多个业务线的利用落地,心愿给大家带来一些帮忙或启发。

一、背景

1.1 业务现状

以“帮大家吃得更好,生存更好”为使命,美团笼罩了外卖、餐饮、酒店、民宿、游览、门票、电影 / 上演、休闲 / 玩乐、丽人、医疗、亲子、教育、结婚、生存服务等数百个行业,满足数以亿计用户的多样化生存服务需要。为了继续减少平台价值,除了推动用户和商户在数量和品质上的一直晋升之外,更高效地匹配用户需要和商户供应也是重要抓手之一。

为了晋升匹配的效率,咱们须要更充沛、深刻地了解用户需要和商户供应,并且尝试从用户视角登程来组织和治理供应。以后,“行业 - 类目 - 商户 - 商品”是一种较为常见的供应组织和治理形式,然而随着业务和行业的疾速倒退,这种组织形式带来的痛点日渐突显,举例来说:

  • 局部指向性不明确的用户需要,较难失去适宜的匹配后果。例如“周末陪宝宝去哪儿玩?”因为平台的匹配后果不现实,用户往往只能在线下实现类目决策,决定带宝宝去农家乐烧烤,再到平台上搜寻相应的农家乐团购。
  • 局部需要跨多个类目,匹配过程不够晦涩。例如“周末和敌人去哪里放松一下?”用户在线下实现类目决策后,可选类目包含 KTV、酒吧、密室、桌游等,但各类目标承载页面互相独立,用户须要在承载页面间来回切换。
  • 在局部指向明确的类目中,用户依然难以找到满足本人需要的供应。例如在医美类目下,因为不足相干常识,用户往往并不理解商户提供的不拘一格的服务项目别离具备什么效用,适宜什么部位,应该应用什么资料,无奈高效地找到适宜本人的服务供应。

上述问题的实质起因在于供应的组织形式次要是从行业视角登程,没有充分考虑到用户视角。在以后以满足用户需要为首要指标的市场环境下,咱们须要迭代欠缺现有的供应组织形式。

1.2 问题解析

为了解决上述问题,咱们尝试从一个内部视角,联合第一性原理去进行分析。在整个人类社会中,依照马斯洛需要档次 [1] 的实践,人的需要是能够被演绎及分层的。如果将人类社会看作一个零碎,人类在其中一个称为“市场”的子系统中,通过交易来满足本人的需要。

人类从需要档次登程,在市场中实现交易,最终需要得以满足,那么在市场中交易的过程能够被拆解为“起心动念 -> 思考 -> 抉择评估 -> 交易购买 -> 履约 / 服务”。并且,经由前三个阶段,用户的需要逐步从粗粒度演变为细粒度,从形象过渡到具象。上面将联合具体的例子来进行解读:

  • 需要档次:在马斯洛需要档次中有一个情感档次,对应了人类丰盛多样的情感需要,蕴含亲情、情谊、恋情等等。作为一个母亲,与本人的宝宝之间往往存在一种强烈的母子情,并且心愿一直去强化这种情感。
  • 起心动念:为此,母亲往往都会尽力花较多的工夫去陪伴宝宝。通过减少陪伴形式的维度,变为“陪宝宝玩”;通过减少工夫、空间等维度,变为“周末陪宝宝去哪儿玩?”
  • 思考:对于上述问题,母亲会找出很多种计划,比方户外烧烤、农家采摘、主题公园等等。当她决定选用户外烧烤这一计划时,便会转化为具体的商品需要,如购买烤架。
  • 评估抉择:母亲于是在可触达的供应范畴中进行抉择。正如人们常说的货比三家,抉择的根据会各不相同,如价格、品质、口碑等等。
  • 交易购买:当实现抉择之后,母亲便会进行交易,以换取商品或服务。
  • 履约服务:即商品到货、实现服务等等。

市场是人类社会的一个子系统,电商平台则是市场中的一个子系统。同时,电商平台是一种线上化的子系统,它提供了搜寻、举荐等模式的供应检索能力。以后的一个现状是:用户往往在线下实现了“起心动念”到“思考”的过程,转化为具体的商品 / 服务需要,随后进入电商平台实现“抉择评估”到“履约服务”的后续过程(如下图 1 所示)。而电商平台往往聚焦于后三个阶段的能力晋升,容易疏忽前两个阶段。

因而,用户较难造成在平台上实现“起心动念”和“思考”的心智,而大部分电商平台按“行业 - 类目 - 商户 - 商品”的形式对供应进行组织和治理。最终,用户和电商平台之间造成了一种互相掣肘的关系。

事实上,绝对于“烤架”这种明确的商品需要,用户还有很多形象的、含糊的、不明确的需要,仍然停留在前两个阶段。例如,周末陪宝宝去哪儿玩?周末和敌人去哪里放松一下?结婚前怎样才能让本人变得更美?寒假如何造就孩子的入手能力?同时,这样的需要往往逾越多个类目,或者在同类目下存在多种抉择。

电商平台只有突破既有的掣肘关系,向用户提供前两个阶段(起心动念、思考)的能力,能力进一步满足用户的需要。用户的决策老本进一步升高,决策过程更加连贯,用户体验也能失去相应的晋升,同时用户在市场中的交易过程也可能进一步实现线上化。

以“行业 - 类目 - 商户 - 商品”作为参考,如果电商平台可能辨认出用户在前两个阶段的需要,并且在其和供应之间建设新的关联关系,辅以搜寻、举荐等检索能力,用户便有可能在线上实现前两个阶段。而常识图谱作为一种揭示实体之间关系的语义网络,用以解决上述问题显得尤为适合。

二、解决方案

2.1 解决思路

连续 1.2 中的例子,这位母亲将“周末陪宝宝去哪儿玩?”的需要转化为具体的“户外烧烤”需要,延长至更为具体的“烤架”和“农家乐团购”需要。此时,母亲便会别离返回各类实物电商平台以及以美团为代表的生存服务电商平台进行“抉择评估”。两种电商平台别离在实物供应池或服务供应池中采纳搜寻、举荐之类的召排技术定位到具体的商品 / 服务,并反馈给这位母亲。

对于 1.2 中的所述,技术团队冀望达成的目标,目前比拟有代表性的参考案例是阿里巴巴电商认知图谱 AliCoCo[2]。它根本构建思路是从用户视角登程,先进行各种类型的原子词开掘,再进一步对原子词进行组合和挖掘出相干候选短语,再从中辨认出实在的用户需要,最初关联至相应的供应。它的层次结构如图 2 所示:

  • 分类层:构建齐备的分类体系,蕴含了的大千世界的各种分类,既有通用的空间、工夫等类别,也有电商中波及的色彩、性能以及最为重要的品类等类别。
  • 原子概念层:在分类层诸多类别的根底上进行扩大,蕴含了各种类别下的原子概念(例如空间 -> 户外、事件 -> 烧烤、工夫 -> 圣诞节、色彩 -> 红色、性能 -> 保暖、品类 -> 连衣裙)及原子概念之间的关系。
  • 电商概念层:在原子概念层之上,蕴含了由原子概念组成或间接开掘的短语粒度的用户购物需要,即电商概念(例如户外烧烤),从而将用户购物需要显式地用一个合乎自然语言的短语示意。
  • 商品层:蕴含了商品与各种原子概念、电商概念之间的关联关系(例如户外烧烤 -> 烤架、黄油、锡纸)。

基于上述图谱,这位母亲能够间接在天猫上表白“户外烧烤”的需要,而非更具体的“烤架”;天猫也会将烤架以外其余和户外烧烤相干的重要商品反馈给这位母亲。从对应关系来看,AliCoCo 的电商概念层对应至“思考”阶段,商品层对应至“抉择评估”阶段。显然,因为 AliCoCo 的存在,天猫可能从“思考”阶段开始染指用户的交易过程。

由此推论,咱们应该能够将图谱构建得更为残缺,以笼罩“起心动念”阶段。在此阶段,人类的需要,按马斯洛需要档次,通过减少一个或多个维度束缚,而被逐步具象化。对于这样的维度束缚,咱们统称为“场景束缚”。因而,咱们将“思考”阶段对应的需要称为“具象需要”;将“起心动念”阶段对应的需要称为“场景需要”。为此,咱们心愿构建一个 本地生存综合性需要图谱(GENE:lifestyle GEneral NEeds net,如下图 3 所示。对于本地生存场景下所波及的数百个综合性行业,咱们认为新的供应组织形式更能贴近用户需要,也是从用户视角去解决供需匹配的问题。

2.2 具体计划

连续 2.1 中的构建思路,咱们尝试构建一套多层次的图谱构造,并将“具象需要”和“场景需要”拆分为独立的档次,既防止了两种类型的需要合在同一层级中而引起混同,又能对用户场景化的需要进行更详尽的拆解、更丰盛的刻画。本地生存综合性需要图谱(GENE),次要由六局部形成,蕴含场景需要层、场景因素层、具象需要层、需要对象层、行业体系层和供应层,如下图 4 所示:

在场景需要层,咱们用 Human-Readable 的短句来表征场景化的用户需要,如“国庆节陪 3 岁宝宝去哪玩”、“结婚前让本人变得更美”、“小学生晋升思维能力”等。一个场景需要的表述中,通常会蕴含人物、目标、工夫、空间、形式等因素,以“国庆节陪 3 岁宝宝去哪玩”为例,“3 岁宝宝”是人物,“陪宝宝玩”是目标,“国庆节”是工夫。

在场景因素层,为了更好地表白场景需要,咱们将这些短句进行拆解,细化成多个细粒度的词汇,用这些词汇对场景需要中的人物、目标、工夫、空间、形式等因素进行残缺的笼罩和零碎的组织,咱们将其称为“场景因素”。

在具象需要层,因为场景需要的表述往往并不显式地指向某个具体的服务 / 供应,而是隐含了一批潜在的适宜这一场景的服务 / 供应。例如,在“国庆节陪 3 岁宝宝去哪玩”这个例子中,户外烧烤、喂羊驼、玩滑梯、骑小马等都是适宜这一场景需要的具体服务。所以咱们须要将所有这些具体的服务通过短语的模式显式的展示进去,这些短语间接反馈了用户具体的服务需要,被称之为“具象需要”。

在需要对象层,为了进一步的了解具象需要,咱们将具象需要分为具体的服务需要所对应的对象,咱们称之为“需要对象”,以及该服务中用户和对象之间的交互行为。例如,对于具象需要喂羊驼,能够分为羊驼(需要对象)和喂(服务交互),因为本地生存服务的多样性,围绕羊驼这一需要对象,除了喂羊驼外,还能够产生触摸羊驼、骑羊驼和看羊驼表演等多种具象需要。这一层除了蕴含需要对象节点外,也会涵盖需要对象的属性信息,以对需要对象进行更详尽地形容。例如对于具象需要户外烧烤,可分为烧烤(需要对象)、户外(需要对象属性)和体验(隐含的服务交互)。

在行业体系层,因为用户的场景需要和具象需要往往会逾越多个传统的服务类目,为了给用户需要确定一个具体的业务范围,咱们还须要构建出各行业波及的类目体系,作为上述各层构建的业务根底。

在供应层,蕴含内容这类虚构供应和商户与商品这类实体供应,这些供应将会和具象需要和场景需要等节点进行关联,从而为用户需要提供绝对应的供应撑持。例如,一个提供户外烧烤的供应将会关联上具象需要“户外烧烤”,并进一步关联上场景需要“国庆节陪 3 岁宝宝去哪玩”。

综上所述,在本地生存综合性需要图谱中,用户场景化的需要和具体的服务需要被别离表白成短句级别的场景需要和短语级别的具象需要。这两种需要别离通过场景因素和需要对象进行表白。最初,不同类型的供应都会和场景需要和具象需要相关联,从而以用户需要为纽带,晋升供应和用户的匹配效率。

三、实现办法

以后,本地生存综合性需要图谱曾经初步涵盖了用户在玩乐、医美和教育三个本地生存相干行业中的多元化需要。咱们在图谱的构建过程中,自底向上依照行业体系层、需要对象层、具象需要层、场景因素层、场景需要层的程序逐层进行构建,并将各层的节点与各种类型的供应建设关联关系。下文将以玩乐行业为例,对图谱每一层的构建细节以及波及的算法进行介绍。

3.1 行业体系层

3.1.1 行业类目树的构建

在玩乐行业中,行业体系层蕴含了可能提供玩乐服务的类目,类目信息通过一个树形构造来表征。因为玩乐行业体系的构建,对专家常识的要求十分高,并且这部分的设计对后续各层的常识开掘至关重要,因而咱们没有间接进行人工定义,而是以以后咱们成熟的行业类目树为根底,通过对其进行剪枝和决裂来构建。

首先在类目树中筛选出和玩乐相干的一级类目节点,包含“休闲娱乐”、“亲子”、“游览”、“餐饮”等。对于每个一级类目,咱们进一步筛选其和玩乐相干的下一级类目直至叶子类目,并剪去与玩乐无关的类目。此外,咱们还对剪枝后的类目树中能够细分的玩乐相干的叶子类目进行决裂,例如将“洗浴”细分为“私汤”、“洗浴核心”等,最终失去残缺的玩乐行业类目树。

3.1.2 类目标供应关联

确定了类目树后,咱们还须要获取实体供应(商户和商品)和虚构供应(内容,例如 UGC)与类目标从属关系,从而为后续的一系列开掘提供数据反对。因为商品和内容均可链接到商户,所以咱们只须要获取商户与类目标从属关系即可。玩乐类目树是对咱们已有的类目进行剪枝和决裂失去的,除了决裂出的新类目外,其余类目和商户的关系均可间接继承原有的后果。对于新决裂的类目,咱们则须要从新构建商户和其之间的从属关系。

要判断一个商户属于哪个类目,最直观的根据就是商户名、商品名及商品详情,然而很多商户的商户名和商品蕴含的信息往往较少,减少了类目判断的难度。为了确保商户类目判断的准确性,咱们引入更多的商户信息,包含商户 UGC 和商户画像,设计了一个多源异构数据交融判断模型,整体模型构造如下图 5 所示:

其中,不同起源数据的特征提取和解决形式如下:

  • 商户名、商品名及商品详情:均为文本数据,间接通过 BERT[3]提取文本特色后输入。
  • 商户 UGC:因为商户的 UGC 往往数量十分多,为了对其信息进行无效利用,首先通过 Doc2Vec[4]的形式进行 Encode 失去 UGC 的特色后,再通过一个 Self-Attention[5]模块进行特色解决后输入。
  • 商户画像:转成 One-Hot 特色后,通过全连贯层进行非线性映射后输入。

上述三种特色相连接后进行交融,通过全连贯层和 softmax 层实现最终的类目判断。基于多源数据的交融建模,商户信息失去了充分利用。以洗浴细分类目为例,仅利用商户名、商品名及商品详情数据,基于 BERT 判断,准确率为 92%,而基于多源交融模型判断后,准确率晋升到 98%。

3.2 需要对象层

在需要对象层,咱们心愿可能挖掘出玩乐行业体系中各类目波及的玩乐对象词作为该层的节点,这些词可能形容出用户在理论玩乐过程中的交互对象,这是用于组成具象玩乐需要的根底。为了确保玩乐对象开掘的全面性,咱们采纳多源多办法的模式。

在数据上,咱们采纳来自商户和用户的相干文本作为开掘语料。在办法上,咱们采纳两种形式来开掘玩乐对象词:

  • 第一种是无监督的裁减,在开始开掘前经营会首先依据教训,提供一些玩乐对象词作为种子输出,咱们提前利用语料构建无监督的 Skip-Gram 构造的 Word2Vec 模型,对业务输出的种子词提取词向量,并联合余弦类似度,疾速裁减相干的对象词。
  • 第二种是有监督的标注,咱们将其定义序列标注问题,采纳基于 BERT+CRF 的模型,在语料中自动识别出新的对象词。

在实际过程中,为了更高效的开掘,咱们将无监督环节裁减和质检后的对象词在语料中进行文本匹配,并将匹配后果转化为有监督标注环节的训练样本;同时对于有监督标注的后果,通过经营质检后,也会将其作为无监督裁减的输出,通过两个环节相结合,咱们实现玩乐对象的开掘,残缺流程如下图 6 所示。此外,在经营人工审核玩乐对象词的过程中,对于一些业务已知的外围玩乐对象,也会间接输出业务侧曾经积淀的相干特色作为其属性,进一步欠缺玩乐对象的信息,例如对于“剧本杀”这一玩乐对象,减少相应的“实景”和“桌面”等类型属性。

在获取对象词后,咱们还须要晓得对象词属于哪个类目,以便下一步的具象需要开掘及供应关联,为此咱们构建对象词和类目之间的关系。通过各类目下的语料文本中提及对象词的次数来掂量两者关系,是最直观且准确率最高的办法。因而,咱们间接应用对象词在每个类目下的语料中进行文本匹配,通过词频高下来确定关系。同时,咱们进一步构建对象词之间的上下位和同义关系,以后常见的有通过投影和分类(如 BERT 句间关系模型)等办法来进行关系判断等有监督办法。在理论过程中,咱们采纳规定辅助人工的形式,基于对象词的统计特色及 Pattern 共现的后果领导人工疾速实现构建。

3.3 具象需要层

3.3.1 具象需要开掘

具象需要层能够看成是用户在玩乐行业中的具体服务需要的汇合,每个具象玩乐需要是该层的一个节点,由玩乐对象叠加用户与对象之间的多元化的交互行为及对象形容信息失去,它通过短语的模式表白出用户对于玩乐服务供应的实质诉求。具体玩乐需要开掘的流程流程能够分为两个步骤:

  1. 候选短语生成:围绕玩乐对象词,生成大量蕴含玩乐对象的短语,作为具象玩乐需要候选集。
  2. 短语品质判断:建设一个语义判断模型从候选集中提取实在的具象玩乐需要。

候选短语生成

在步骤 1 中,首先咱们以需要对象词为外围,采纳与玩乐对象开掘雷同的语料,进行候选短语的生成。罕用的短语开掘算法如 AutoPhrase[6],是以 Ngram 来进行短语组合,而这种模式对于有需要对象的短语显得过于冗余,所以咱们思考基于句法结构来进行短语开掘。

为了使生成短语合乎句法的要求,咱们以预设的句法关系为模板进行开掘。在大规模语料中为了更高效地开掘句法关系,咱们基于更轻便的 ELECTRA[7]预训练模型获取句子各成分的 Embedding 后,再利用 BiAffine[8]预测其句法关系。通过依存句法分析,咱们在各个类目标语料中挖掘出蕴含相应的玩乐对象且合乎句法关系的短语。此外,需要对象层中对象的属性也会被用作对象形容进行短语生成。最终所有开掘的短语,通过词频等统计特色粗筛后将作为具象玩乐需要的候选集,开掘示例如图 7(a)所示。

短语品质判断

在步骤 2 中,通过步骤 1 获取的候选集短语尽管合乎预设的句法关系,然而从语义上依然存在大量与用户理论需要不符的表述,通过抽检剖析咱们发现符合要求的短语有余 10%。如何从海量的候选短语中挑选出反映实在的用户具象玩乐需要的短语成为亟需解决的问题。

AutoPhrase 通过基于短语统计特色的判断模型进行短语打分,然而仅通过统计特色难以辨认语义品质低的短语,为此咱们进一步基于统计和语义特色联结建模,构建一个 Wide&Deep[9]构造的判断模型,对候选汇合中的短语是否为具象玩乐需要进行判断,咱们心愿判断模型能过滤掉大量的低质短语,从而为经营节俭大量的人力老本。判断模型的整体构造如图 7(b)所示,其中:

  • Wide 局部,提取候选短语的全局和上下文的统计特色,通过全连贯层进行非线性映射后输入。
  • Deep 局部,提取候选短语的深度语义特色,通过 BERT 实现相应特色的提取后输入。

上述 Wide 和 Deep 局部输入的特色相连接后进行交融,优势互补,通过全连贯层和 softmax 层来实现最终的短语判断。在实际过程中,除了间接应用曾经积攒的短语标签作为正样本外,咱们还通过预设一些常识性的 Pattern 从候选集中结构正样本,例如参观[动物]、触摸[动物],并对候选集采样结构负样本,实现初版模型的训练,之后联合被动学习,通过多轮迭代,模型最终达到 92% 的召回率和 85% 的准确率。通过品质判断后保留的短语则会交由经营人工审核提炼后成为最终的具象玩乐需要。

3.3.2 具象需要的供应关联

在具象需要层中,因为具象玩乐需要是由玩乐对象失去的,所以两者之间人造地建设了对应关系。而对于具象玩乐需要之间的上下位和同义关系,则能够基于其对象之间的关系及其句法关系,在人工审核的环节来辅助人工实现构建。除此之外,更重要的是须要将具象玩乐需要与实体供应(商户和商品)及虚构供应(内容,例如 UGC)进行关联。

咱们将这个问题形象为一个语义匹配的问题,通过具象玩乐需要与其对应的类目标供应的文本信息进行匹配来实现,其中,商户应用商户名文本信息,商品应用商品名和商品详情文本信息,UGC 应用其本身文本信息。因为 UGC 和商品属于商户的一部分,所以具象玩乐需要与 UGC/ 商品的关系也会退出其与商户关系的构建中。整体匹配流程如下图 8 所示,咱们首先进行具象玩乐需要与 UGC/ 商品的匹配,在此基础上再联合商户名文本的匹配后果,一起通过规定聚合后关联到商户。

因为具象玩乐需要数量泛滥,同时供应的文本信息通常蕴含多个子句,出于效率和成果的均衡思考,咱们将匹配过程分为了召回和排序两个阶段。

在召回阶段,咱们粗筛出和具象玩乐需要可能有潜在关联的子句。对于具象玩乐需要,咱们基于构建的同义关系,扩大具象需要的同义标签,并将其与子句文本进行粗粒度 Pattern 匹配,对于匹配中的子句则将进入到排序阶段进行精细化的关联关系计算。

在排序阶段,咱们构建基于 BERT 句间关系分类的语义匹配模型,通过在 BERT 后减少全连贯层和 softmax 层来实现分类。模型通过对召回阶段失去的粗筛样本进行预测,辨认两者在语义上的匹配关系(关联 / 不关联)。最终供应关联关系的均匀召回率和准确率别离达到 90% 和 95%。

3.4 场景因素层

3.4.1 场景因素拆解

场景因素层蕴含了组成用户场景化需要的场景因素。如文初提及,要形容一个场景,须要交代特定的人物、工夫、空间、目标等因素。例如,对于“国庆节陪 3 岁宝宝去哪儿玩?”这个场景化需要,咱们可做如下拆解:工夫 - 国庆节,人物 - 3 岁宝宝,目标 - 亲情陪伴(陪宝宝玩)。所以咱们依照上述形式,对场景因素进行拆解,以期对场景因素的开掘和梳理尽可能的全面与零碎。

3.4.2 场景因素开掘

实现了场景因素拆解后,下一步就是要别离在每个拆解的类别中进行场景因素的开掘。场景因素作为具象需要的场景化的信息,往往来自于用户的直观感触,所以开掘的语料咱们抉择与具象玩乐需要关联的 UGC 的上下文语料。与需要对象开掘的办法相似,咱们将每个类别的已提炼总结的场景因素作为种子词,通过相干因素裁减和序列标注的形式实现场景因素的开掘。

确定场景因素后,接下来的要害是实现场景因素与具象玩乐需要的关系构建,即对于每个场景因素,找出其适宜的具象玩乐需要,如秋季适宜参观樱花、孩子适宜亲热动物。咱们通过对 UGC 文本剖析后发现,UGC 中用户说到某一具象玩乐需要的同时,往往也会交代一些相干的场景因素信息,所以咱们持续抉择与具象玩乐需要关联的 UGC 的上下文语料,作为关系构建的数据起源。

最后咱们采纳基于 Pattern 的办法,通过演绎可用于判断场景因素和具象玩乐需要关系的 Pattern,从语料中间接抽取蕴含两者的文本。但因为用户表白的多样性,不仅准确率无奈保障,同时无限的 Pattern 也影响了召回,因而咱们进一步尝试应用基于模型判断的办法晋升泛化性,欠缺关系的构建。

因为咱们应用的语料中的具象玩乐需要是已知的,如果将场景因素看成是具象玩乐需要的属性,那么问题就能够看成是一个属性级(Aspect-Based)的分类问题。参考属性级情感分类的做法[10],咱们通过预设句子模板的形式,联合场景因素和具象玩乐需要结构出辅助句子,将属性级分类转换为一个类 QA 的句对分类问题。例如,对于曾经关联了“喂羊驼”这一具象玩乐需要的某个语料:“这个周六咱们到农家乐喂了羊驼”,其中一个辅助句子为“周末适宜喂羊驼”。

咱们采纳 BERT 句间关系分类模型来实现句对分类,如图 9 所示。辅助句子与语料文本通过 [SEP] 相连后输出模型进行判断,模型输入判断后果(适宜 / 不适宜)。最初咱们依据在所有语料上的关系提取后果,对每个场景因素和具象需要之间的关系进行投票计算评分起初确定两者的关系。

3.5 场景需要层

3.5.1 场景需要组装

在场景需要层,咱们会将场景因素层和具象需要层的信息进行组装,从而生成大量的场景需要。组装出的场景需要,既可能仅含场景因素,如“国庆节陪 3 岁宝宝去哪儿玩?”不含任何具象需要,又能够同时蕴含场景因素和具象需要,如“周末去郊外摘草莓”中,周末、郊外是场景因素,摘草莓是具象需要。

3.5.2 场景需要判断

对于组装失去的场景需要,最重要的是保障其合理性,例如“周末”和“亲子”就是正当的玩乐场景,而“闺蜜”和“亲子”则是矛盾的玩乐场景。为此,咱们首先须要计算场景因素之间的关系评分,从而领导场景需要的组装。场景因素只有依靠具象需要,搭配上适宜的玩法,参加组装的场景需要才有意义。因而,对于场景因素之间的正当关系构建,咱们尝试以场景因素和具象需要的关系得分作为根据,通过关系传递评估两个场景因素之间的相关性。

在 3.4.2 节中,咱们曾经量化了场景因素和具象需要之间的关系评分,一个最直观的想法是通过场景因素 - 具象需要 - 场景因素的关系传递来进行计算场景因素之间关系的计算。如图 10(a)所示,以具象需要“喂羊驼”为纽带,能够获取“亲子”和“闺蜜”两个场景因素的关系得分。

咱们首先构建场景因素和具象需要的关系评分矩阵,思考到玩法数量满足长尾散布的状况,对矩阵进行具象需要维度的列归一化解决,同时为了保障场景因素 - 场景因素矩阵的自相关系数为 1,对归一化后的场景因素 - 具象需要矩阵进行 L2 行范数归一化解决,因而该归一化矩阵与本身转置的矩阵乘失去的新矩阵即可作为场景因素 - 场景因素的关系评分矩阵。

通过上述办法能够很快失去场景因素之间的关系评分,然而该办法仅以场景因素 - 具象需要 - 场景因素的关系传递模式,计算场景因素在具象需要上的间接共指强弱,导致场景因素关系的笼罩有余。为此,咱们扩大为更长的节点关系链传递模式,这种节点之间的传递关系是遵从马尔可夫性质的,如图 10(b)所示。然而随着传递门路的增长,计算成本会呈指数级增长。所以咱们采纳强化学习 [11] 中的 One-Step 时序差分办法进行求解,以“累计回报的冀望最大化”的概念作为节点的价值,以场景因素节点汇合作为强化学习概念中的状态空间,具象需要节点汇合作为动作空间。

例如当咱们处在“亲子”场景因素这个状态下,能够通过抉择“喂羊驼”或者“角色扮演”来跳转到下一个状态“闺蜜”或“户外”。该状态跳转过程的决策函数,依据以后场景因素状态关联的所有具象需要中随机抽取一个具象需要节点作为决策行为,抽取概率与得分正相干;状态转移概率则为在该具象需要节点决策下,随机跳转到与之相关联的场景因素,跳转概率与得分正相干。

同时,对于特定的互斥关系,咱们依据理论的业务利用需要制订处分矩阵实现多样化的场景因素关系评分模型。这样咱们将节点关系传递模型转化为了马尔可夫决策模型,联合贝尔曼最优原理推导出的价值迭代表达式和节点对关系得分预测公式,如图 10(c)所示。依据图示的公式,在放弃策略不变的前提下采纳自举迭代的思维计算节点的价值,并进一步计算场景因素之间的关系评分,既可能保障更充沛的利用已有的关系网络信息,进步关系笼罩,又能通过处分矩阵的束缚关系升高互斥关系的影响,灵便适应不同业务的需要。

最初基于场景因素之间的关系评分,咱们从组装的场景需要汇合中抉择评分高的场景需要,并依据预设的模板生成最终的场景需要表白,例如“周末和敌人放松”、“和闺蜜一起玩”、“国庆节带孩子户外烧烤好去处”。这些场景需要通过其蕴含的场景因素 / 具象玩乐需要,能够链接到相应的具象玩乐需要,进而关联相干的供应,从而给用户提供场景化玩乐的解决方案。

四、利用实际

本地生存综合性需要图谱,涵盖了用户的场景需要和具象需要,一方面更前置地参加用户决策,在“起心动念”、“思考”、“抉择评估”等多个阶段影响用户,升高其决策老本,另一方面,提供更多样化的供应抉择,高效地进行供需匹配。利用形式上,利用于搜寻、举荐等各类业务状态。

通过近一年的建设,以后综合性需要图谱蕴含数十万外围具象需要和场景需要节点,以及数千万的关系,并在美团的亲子、休闲娱乐、医美、教育培训等多个业务进行了初步的利用实际,上面举例介绍具体的利用形式和利用成果。

4.1 亲子

亲子原频道页用户需要和供应之间匹配效率低下,其中 ICON 依照亲子传统类目划分,无奈满足用户不同类型的需要(图 11(a)左),而底部猜喜的供应状态繁多,且体现用户需要的优质供应有余,决策信息有余(图 11(b)左),因而对亲子频道页进行改版。为了贴合亲子的业务特色,咱们将亲子玩乐相干的需要节点和关系,利用于频道改版后的多个流量位,为其提供标签和供应数据的撑持。

其中,对于 ICON,基于高频的场景和具象需要,跨类目生成需要 ICON,如“亲热动物”、“带娃泡汤”等(图 11(a)中)及相应二级页(图 11(a)右),这些 ICON 蕴含了本来多个类目中的类似需要,在用户“思考”阶段为其提供决策信息。

对于底部举荐,咱们围绕亲子玩乐的具象需要进行供应优化,将其关联的内容作为优质供应进行举荐,并为每个供应提取蕴含相应具象需要的文本,作为举荐理由外露,这些句子从用户理论需要的角度展现信息,极大地吸引了用户(图 11(b)右)。此外,还进一步依据浏览和交易行为,以供应为媒介建设具象需要与用户的关联关系,利用于个性化举荐的召回和排序的优化。改版后的亲子频道页,满足了用户多样化的举荐需要,极大地改善了用户体验。

4.2 休闲娱乐

在休闲娱乐频道页,咱们围绕场景需要和具象需要进行了一系列利用。一方面,基于玩乐的场景需要组织新的场景 ICON,如满足用户户外玩耍的“踏青赏花”、满足用户在室内潮流玩乐的“室内潮玩”、满足喜爱早晨玩乐用户的“夜生活”、满足和敌人共事团聚玩乐的“团建团聚”,这些 ICON 从用户场景化的玩乐登程,突破了传统类目标限度,让用户和供应的匹配更加晦涩,每个 ICON 的二级页面则会展现每个场景的具象玩法需要及关联的商户和内容。

另一方面,在频道页场景导航模块中,尝试利用场景需要来进一步展现场景化的玩乐信息,包含“一人乐”、“家庭暖”、“过生日”等十多个玩乐场景主题,并针对这些场景的具象需要关联的商户进行举荐。这些场景化的利用(图 12(a)),在“起心动念”阶段即作用于用户,晋升了用户的决策效率。

此外,局部具象需要通过改写能够间接用于相应类目标列表页商户的快筛,例如实景剧本杀 / 桌面剧本杀,换装 / 汉服体验 / 撸宠必去 / 航行模仿等(图 12(b)左和中),而咱们在行业体系层中类目标细分后果,亦能够成为商户的快筛,例如洗浴类目标细分(图 12(b)右),这些快筛的利用,更加不便了用户选店。

五、总结瞻望

在本地生存服务中,如何一直进步供应和用户之间的匹配效率,是摆在咱们背后的一道难题。咱们尝试以用户关注对象为切入点,通过深挖用户需要并以其为纽带来关联供应和用户。为了全方位开掘和了解用户需要,咱们致力摸索并尝试构建本地生存综合性需要图谱,以行业体系层、需要对象层、具象需要层、场景因素层、场景需要层的程序逐层构建,并为各种类型的供应建设关联关系。

目前,综合性需要图谱的后果可利用于搜寻、举荐等各类业务状态,并已在美团多个业务场景中获得实际成绩。不过,咱们还处在摸索的初级阶段,接下来还有很长的迭代之路要走,在此咱们提出一些后续的思考和瞻望:

  • 更广的行业笼罩:一方面加深对已有的玩乐、医美和教育行业的建设,开掘更多的节点和关系,更好的了解用户需要;一方面向丽人、结婚等更多的行业进行横向笼罩;此外还将进一步扩大到用户决策的全链路,构建服务体验图谱,笼罩履约服务环节,剖析其中的用户需要和反馈,更好地赋能商家晋升用户体验。
  • 更多的数据引入:以后图谱的构建次要是以平台的用户和商户的文本语料为主,下一步将利用图像等更多模态的数据,并尝试引入内部的常识,对以后的节点和关系进行欠缺和补充。
  • 更深的图谱利用:现阶段图谱在搜寻和举荐上的实际次要集中在标签及其关联供应的间接利用,后续思考进一步深入图谱的利用,充分利用场景需要和场景因素的信息,为举荐侧更准的用户用意辨认提供撑持,从而晋升供应和用户的匹配效率,施展出常识图谱更大的价值。

参考文献

  • [1] Maslow A H. A theory of human motivation[J]. Psychological review, 1943, 50(4): 370.
  • [2] Luo X, Liu L, Yang Y, et al. AliCoCo: Alibaba e-commerce cognitive concept net[C]. Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 313-327.
  • [3] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
  • [4] Le Q, Mikolov T. Distributed representations of sentences and documents[C]. International conference on machine learning. PMLR, 2014: 1188-1196.
  • [5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. arXiv preprint arXiv:1706.03762, 2017.
  • [6] Shang J, Liu J, Jiang M, et al. Automated phrase mining from massive text corpora[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837.
  • [7] Clark K, Luong M T, Le Q V, et al. Electra: Pre-training text encoders as discriminators rather than generators[J]. arXiv preprint arXiv:2003.10555, 2020.
  • [8] Dozat T, Manning C D. Deep biaffine attention for neural dependency parsing[J]. arXiv preprint arXiv:1611.01734, 2016.
  • [9] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]. Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
  • [10] Sun C, Huang L, Qiu X. Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence[J]. arXiv preprint arXiv:1903.09588, 2019.
  • [11] Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

作者简介

李翔、陈焕、志伟、晓阳、艳婷、旭乐、曹臻等,均来自美团到店平台技术部到综业务数据团队。

招聘信息

美团到店平台技术部 - 到综业务数据团队,长期招聘算法(自然语言解决 / 举荐算法)、数据仓库、数据迷信、零碎开发等岗位同学,坐标上海。欢送感兴趣的同学发送简历至:mailto:licong.yu@meituan.com。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 mailto:tech@meituan.com 申请受权。

正文完
 0