共计 12554 个字符,预计需要花费 32 分钟才能阅读完成。
常识性概念图谱,是围绕常识性概念建设的实体以及实体之间的关系,同时偏重美团的场景构建的一类常识图谱。本文介绍了美团常识性概念图谱构建的 Schema,图谱建设中遇到的挑战以及建设过程中的算法实际,最初介绍了一些目前常识性概念图谱在业务上的利用。
一、引言
在自然语言解决中,咱们常常思考,怎么样能力做好自然语言的了解工作。对咱们人类来说,了解某一个自然语言的文本信息,通常都是通过以后的信息,关联本人大脑中存储的关联信息,最终了解信息。例如“他不喜爱吃苹果,然而喜爱吃冰淇淋”,人在了解的时候关联出大脑中的认知信息:苹果,甜的,口感有点脆;冰淇淋,比苹果甜,口感软糯、冰凉,夏天能解暑;小孩更喜爱吃甜食和冰淇淋。所以联合这样的常识,会推理出更喜爱冰淇淋的若干起因。然而当初很多自然语言了解的工作还是聚焦在信息的层面,当初的了解工作相似于一个贝叶斯概率,从已知的训练文本中寻找符合条件的最大化文本信息。
在自然语言解决中做到像人一样去了解文本是自然语言解决的终极目标,所以当初越来越多的钻研上,引入了一些额定的常识,帮忙机器做好自然语言文本的了解工作。单纯的文本信息只是内部客观事实的表述,常识则是在文本信息根底之上对外部客观事实的演绎和总结,所以在自然语言解决中退出辅助的常识信息,让自然语言了解的更好。
建设常识体系则是一种间接的形式,可能帮忙自然语言了解得更精确。常识图谱就是围绕这个思维提出,冀望通过给机器显性的常识,让机器可能像人一样进行推理了解。所以在 2012 年 Google 正式提出了常识图谱(Knowledge Graph)的概念,它的初衷是为了优化搜索引擎返回的后果,加强用户的搜寻品质及体验。
二、常识性概念图谱介绍
常识性概念图谱就是建设概念与概念之间的关系,帮忙自然语言文本的了解。同时咱们的常识性概念图谱偏重美团场景,帮忙晋升美团场景中的搜寻、举荐、Feeds 流等的成果。
依照了解的需要,次要是三个维度的理解能力:
- 是什么 ,概念是什么,建设外围概念是什么的关联体系。例如“培修洗衣机”,“培修”是什么,“洗衣机”是什么。
- 什么样 ,外围概念某一方面的属性,对外围概念某一方面的细化。“带露台的餐厅”、“亲子游乐园”、“水果千层蛋糕”中“带露台”、“亲子”、“水果千层”这些都是外围概念某一个方面的属性,所以须要建设外围概念对应属性以及属性值之间的关联。
- 给什么 ,解决搜寻概念和承接概念之间的 Gap,例如“浏览”、“逛街”、“遛娃”等没有明确对应的供应概念,所以建设搜寻和供应概念之间的关联网络,解决这一类问题。
总结下来,涵盖“是什么”的概念 Taxonomy 体系结构,“什么样”的概念属性关系,“给什么”的概念承接关系。同时 POI(Point of Interesting)、SPU(Standard Product Unit)、团单作为美团场景中的实例,须要和图谱中的概念建设连贯。
从建设指标登程,拆解整体常识性概念图谱建设工作,拆分为三类节点和四类关系,具体内容如下。
2.1 图谱三类节点
Taxonomy 节点 :在概念图谱中,了解一个概念须要正当的常识体系,预约义好的 Taxonomy 常识体系作为了解的根底,在预约义的体系中分为两类节点:第一类在美团场景中能够作为外围品类呈现的,例如,食材、我的项目、场合;另一类是作为对外围品类限定形式呈现的,例如,色彩、形式、格调。这两类的节点的定义都能帮忙搜寻、举荐等的了解。目前预约义的 Taxonomy 节点如下图所示:
原子概念节点 :组成图谱最小语义单元节点,有独立语义的最小粒度词语,例如网红、狗咖、脸部、补水等。定义的原子概念,全副须要挂靠到定义的 Taxonomy 节点之上。
复合概念节点 :由原子概念以及对应属性组合而成的概念节点,例如脸部补水、面部补水等。复合概念须要和其对应的外围词概念建设上下位关系。
2.2 图谱四类关系
同义 / 上下位关系 :语义上的同义 / 上下位关系,例如脸部补水 -syn- 面部补水等。定义的 Taxonomy 体系也是一种上下位的关系,所以归并到同义 / 上下位关系里。
概念属性关系 :是典型的 CPV(Concept-Property-Value)关系,从各个属性维度来形容和定义概念,例如火锅 - 口味 - 不辣,火锅 - 规格 - 单人等,示例如下:
概念属性关系蕴含两类。
预约义概念属性:目前咱们预约义典型的概念属性如下:
开放型概念属性:除了咱们本人定义的公共的概念属性外,咱们还从文本中开掘一些特定的属性词,补充一些特定的属性词。例如,姿态、主题、舒适度、口碑等。
概念承接关系 :这类关系次要建设用户搜寻概念和美团承接概念之间的链接,例如踏春 - 场合 - 植物园,减压 - 我的项目 - 拳击等。
概念承接关系以「事件」为外围,定义了「场合」、「物品」、「人群」、「工夫」、「效用」等可能满足用户需要的一类供应概念。以事件“美白”为例,“美白”作为用户的需要,能够有不同的供应概念可能满足,例如美容院、水光针等。目前,定义的几类承接关系如下图所示:
POI/SPU- 概念关系 :POI 作为美团场景中的实例,实例 - 概念的关系作为常识图谱中最初的一站,经常是比拟能施展常识图谱在业务上价值的中央。在搜寻、举荐等业务场景,最终的目标是可能展现出合乎用户需要的 POI,所以建设 POI/SPU- 概念的关系是整个美团场景常识性概念图谱重要的一环,也是比拟有价值的数据。
三、常识性概念图谱构建
图谱构建整体框架如下图所示:
3.1 概念开掘
常识性概念图谱的各种关系都是围绕概念构建,这些概念的开掘是常识性概念图谱建设的第一环。依照原子概念和复合概念两种类型,别离采取相应的办法进行开掘。
3.1.1 原子概念开掘
原子概念候选来自于 Query、UGC(User Generated Content)、团单等文本分词后的最小片段,原子概念的判断规范是须要满足流行性、有意义、完整性三个个性的要求。
- 流行性 ,一个概念应是某个或某些语料内风行度较高的词,该个性次要通过频率类特色度量,如“桌本杀”这个词搜寻量很低且 UGC 语料中频率也很低,不满足流行性要求。
- 有意义 ,一个概念应是一个有意义的词,该个性次要通过语义特色度量,如“阿猫”、“阿狗”通常只表一个单纯的名称而无其余理论含意。
- 完整性 ,一个概念应是一个残缺的词,该个性次要通过独立检索占比(该词作为 Query 的搜寻量 / 蕴含该词的 Query 的总搜寻量)掂量,如“儿童设”是一个谬误的分词候选,在 UGC 中频率较高,但独立检索占比低。
基于原子概念以上的个性,联合人工标注以及规定主动结构的训练数据训练 XGBoost 分类模型对原子概念是否正当进行判断。
3.1.2 复合概念开掘
复合概念候选来自于原子概念的组合,因为波及组合,复合概念的判断比原子概念判断更为简单。复合概念要求在保障残缺语义的同时,在美团站内也要有肯定的认知。依据问题的类型,采纳 Wide&Deep 的模型构造,Deep 侧负责语义的判断,Wide 侧引入站内的信息。
该模型构造有以下两个特点,对复合概念的合理性进行更精确的判断:
- Wide&Deep 模型构造 :将离散特色与深度模型联合起来判断复合概念是否正当。
- Graph Embedding 特色 :引入词组搭配间的关联信息,如“食品”能够与“人群”、“烹饪形式”、“品质”等进行搭配。
3.2 概念上下位关系开掘
在获取概念之后,还须要了解一个概念“是什么”,一方面通过人工定义的 Taxonomy 常识体系中的上下位关系进行了解,另一方面通过概念间的上下位关系进行了解。
3.2.1 概念 -Taxonomy 间上下位关系
概念 -Taxonomy 间上下位关系是通过人工定义的常识体系了解一个概念是什么,因为 Taxonomy 类型是人工定义好的类型,能够把这个问题转化成一个分类问题。同时,一个概念在 Taxonomy 体系中可能会有多个类型,如“青柠鱼”既是一种“动物”,也属于“食材”的领域,所以这里最终把这个问题作为一个 Entity Typing 的工作来解决,将概念及其对应上下文作为模型输出,并将不同 Taxonomy 类别放在同一空间中进行判断,具体的模型构造如下图所示:
3.2.2 概念 - 概念间上下位关系
常识体系通过人工定义的类型来了解一个概念是什么,但人工定义的类型始终是无限的,如果上位词不在人工定义的类型中,这样的上下位关系则没方法了解。如能够通过概念 -Taxonomy 关系了解“西洋乐器”、“乐器”、“二胡”都是一种“物品”,但没方法获取到“西洋乐器”和“乐器”、“二胡”和“乐器”之间的上下位关系。基于以上的问题,对于概念 - 概念间存在的上下位关系,目前采取如下两种办法进行开掘:
基于词法规定的办法 :次要解决原子概念和复合概念间的上下位关系,利用候选关系对在词法上的蕴含关系(如西洋乐器 - 乐器)开掘上下位关系。
基于上下文判断的办法 :词法规定能够解决在词法上存在蕴含关系的上下位关系对的判断。对于不存在词法上的蕴含关系的上下位关系对,如“二胡 - 乐器”,首先须要进行上下位关系发现,抽取出“二胡 - 乐器”这样的关系候选,再进行上下位关系判断,判断“二胡 - 乐器”是一个正当的上下位关系对。思考到人在解释一个对象时会对这个对象的类型进行相干介绍,如在对“二胡”这个概念进行解释时会提到“二胡是一种传统乐器”,从这样的解释性文本中,既能够将“二胡 - 乐器”这样的关系候选对抽取进去,也能同时实现这个关系候选对是否正当的判断。这里在上下位关系开掘上分为候选关系形容抽取以及上下位关系分类两局部:
- 候选关系形容抽取 :两个概念从属于雷同的 Taxonomy 类型是一个候选概念对是上下位关系对的必要条件,如“二胡”和“乐器”都属于 Taxonomy 体系中定义的“物品”,依据概念 -Taxonomy 上下位关系的后果,对于待开掘上下位关系的概念,找到跟它 Taxonomy 类型统一的候选概念组成候选关系对,而后在文本中依据候选关系对的共现筛选出用作上下位关系分类的候选关系形容句。
- 上下位关系分类 :在获取到候选关系形容句后,须要联合上下文对上下位关系是否正当进行判断,这里将两个概念在文中的起始地位和终止地位用非凡标记标记进去,并以两个概念在文中起始地位标记处的向量拼接起来作为两者关系的示意,依据这个示意对上下位关系进行分类,向量示意应用 BERT 输入的后果,具体的模型构造如下图所示:
在训练数据结构上,因为上下位关系表述的句子十分稠密,大量共现的句子并没有明确的示意出候选关系对是否具备上下位关系,利用已有上下位关系采取近程监督形式进行训练数据构建不可行,所以间接应用人工标注的训练集对模型进行训练。因为人工标注的数量比拟无限,量级在千级别,这里联合 Google 的半监督学习算法 UDA(Unsupervised Data Augmentation)对模型成果进行晋升,最终 Precision 能够达到 90%+,具体指标见表 1:
3.3 概念属性关系开掘
概念含有的属性能够依照属性是否通用划分为公共属性和凋谢属性。公共属性是由人工定义的、大多数概念都含有的属性,例如价位、格调、品质等。凋谢属性指某些特定的概念才含有的属性,例如,“植发”、“美睫”和“剧本杀”别离含有凋谢属性“密度”、“翘度”和“逻辑”。凋谢属性的数量远远多于公共属性。针对这两种属性关系,咱们别离采纳以下两种形式进行开掘。
3.3.1 基于复合概念开掘公共属性关系
因为公共属性的通用性,公共属性关系(CPV)中的 Value 通常和 Concept 以复合概念的模式组合呈现,例如,平价商场、日式操持、红色电影高清。咱们将关系开掘工作转化为依存剖析和细粒度 NER 工作(可参考《美团搜寻中 NER 技术的摸索与实际》一文),依存剖析辨认出复合概念中的外围实体和润饰成分,细粒度 NER 判断出具体属性值。例如,给定复合概念「红色电影高清」,依存剖析辨认出「电影」这个外围概念,「红色」、「高清」是「电影」的属性,细粒度 NER 预测出属性值别离为「格调(Style)」、「品质评估(高清)」。
依存剖析和细粒度 NER 有能够相互利用的信息,例如“毕业公仔”,「工夫(Time)」和「产品(Product))」的实体类型,与「公仔」是外围词的依存信息,能够相互促进训练,因而将两个工作联结学习。然而因为两个工作之间的关联水平并不明确,存在较大噪声,应用 Meta-LSTM,将 Feature-Level 的联结学习优化为 Function-Level 的联结学习,将硬共享变为动静共享,升高两个工作之间噪声影响。
模型的整体架构如下所示:
目前,概念润饰关系整体准确率在 85% 左右。
3.3.2 基于凋谢属性词开掘特定属性关系
凋谢属性词和属性值的开掘
凋谢属性关系须要开掘不同概念特有的属性和属性值,它的难点在于凋谢属性和凋谢属性值的辨认。通过观察数据发现,一些通用的属性值(例如:好、坏、高、低、多、少),通常和属性搭配呈现(例如:环境好、温度高、人流量大)。所以咱们采取一种基于模板的 Bootstrapping 办法主动从用户评论中开掘属性和属性值,开掘流程如下:
在开掘了凋谢属性词和属性值之后,凋谢属性关系的开掘拆分为「概念 - 属性」二元组的开掘和「概念 - 属性 - 属性值」三元组的开掘。
概念 - 属性的开掘
「概念 - 属性」二元组的开掘,即判断概念 Concept 是否含有属性 Property。开掘步骤如下:
- 依据概念和属性在 UGC 中的共现特色,利用 TFIDF 变种算法开掘概念对应的典型属性作为候选。
- 将候选概念属性结构为简略的天然表述句,利用通顺度语言模型判断句子的通顺度,保留通顺度高的概念属性。
概念 - 属性 - 属性值的开掘
在失去「概念 - 属性」二元组后,开掘对应属性值的步骤如下:
- 种子开掘 。基于共现特色和语言模型从 UGC 中开掘种子三元组。
- 模板开掘 。利用种子三元组从 UGC 中构建适合的模板(例如,“水温是否适合,是抉择游泳馆的重要规范。”)。
- 关系生成 。利用种子三元组填充模板,训练掩码语言模型用于关系生成。
目前,凋谢畛域的概念属性关系准确率在 80% 左右。
3.4 概念承接关系开掘
概念承接关系是建设用户搜寻概念和美团承接概念之间的关联。例如,当用户搜寻“踏青”时,真正的用意是心愿寻找“适宜踏青的中央”,因而平台通过“郊野公园”、“植物园”等概念进行承接。关系的开掘须要从 0 到 1 进行,所以整个概念承接关系开掘依据不同阶段的开掘重点设计了不同的开掘算法,能够分为三个阶段:①初期的种子开掘;②中期的深度判断模型开掘;③前期的关系补全。具体介绍如下。
3.4.1 基于共现特色开掘种子数据
为了解决关系抽取工作中的冷启动问题,业界通常采纳 Bootstrapping 的办法,通过人工设定的大量种子和模板,主动从语料中裁减数据。然而,Bootstrapping 办法不仅受限于模板的品质,而且利用于美团的场景中有着人造缺点。美团语料的次要起源是用户评论,而用户评论的表述非常口语化及多样化,很难设计通用而且无效的模板。因而,咱们摈弃基于模板的办法,而是依据实体间的共现特色以及类目特色,构建了一个三元比照学习网络,主动从非结构化的文本中开掘实体关系之间潜在的相关性信息。
具体来说,咱们察看到不同商户类目下用户评论中实体的散布差别较大。例如,美食类目下的 UGC 常常波及到“聚餐”、“点菜”、“餐厅”;健身类目下的 UGC 常常波及到“减肥”、“私教”、“健身房”;而“装修”、“大厅”等通用实体在各个类目下都会呈现。因而,咱们构建了三元比照学习网络,使得同类目下的用户评论示意凑近,不同类目标用户评论示意远离。与 Word2Vec 等预训练词向量零碎相似,通过该比照学习策略失去的词向量层人造蕴含丰盛的关系信息。在预测时,对于任意的用户搜寻概念,能够通过计算其与所有承接概念之间的语义类似度,辅以搜寻业务上的统计特色,失去一批高质量的种子数据。
3.4.2 基于种子数据训练深度模型
预训练语言模型近两年来在 NLP 畛域获得了很大的停顿,基于大型的预训练模型微调上游工作,是 NLP 畛域十分风行的做法。因而,在关系开掘中期,咱们采纳基于 BERT 的关系判断模型(参考《美团 BERT 的摸索和实际》一文),利用 BERT 预训练时学到的大量语言自身的常识来帮忙关系抽取工作。
模型构造如下图所示。首先,依据实体间的共现特色失去候选实体对,召回蕴含候选实体对的用户评论;而后,沿用 MTB 论文中的实体标记办法,在两个实体的开始地位和完结地位别离插入非凡的标记符号,通过 BERT 建模之后,将两个实体开始地位的特殊符号拼接起来作为关系示意;最初,将关系示意输出 Softmax 层判断实体间是否含有关系。
3.4.3 基于已有的图谱构造进行关系补全
通过上述两个阶段,曾经从非结构化的文本信息中构建出了一个初具规模的概念承接关系的图谱。然而因为语义模型的局限性,以后图谱中存在大量的三元组缺失。为了进一步丰盛概念图谱,补全缺失的关系信息,咱们利用常识图谱链接预测中的 TransE 算法以及图神经网络等技术,对已有的概念图谱进行补全。
为了充分利用已知图谱的构造信息,咱们采纳基于关系的图注意力神经网络(RGAT,Relational Graph Attention Network)来建模图构造信息。RGAT 利用关系注意力机制,克服了传统 GCN、GAT 无奈建模边类型的缺点,更实用于建模概念图谱此类异构网络。在利用 RGAT 失去实体浓密嵌入之后,咱们应用 TransE 作为损失函数。TransE 将三元组(h,r,t)中的 r 视为从 h 到 t 的翻译向量,并约定 h +r≈t。该办法被宽泛实用于常识图谱补全工作当中,显示出极强的鲁棒性和可拓展性。
具体细节如下图所示,RGAT 中每层结点的特色由街坊结点特色的均值以及邻边特色的均值加权拼接而成,通过关系注意力机制,不同的结点和边具备不同的权重系数。在失去最初一层的结点和边特色后,咱们利用 TransE 作为训练指标,对训练集中的每对三元组(h,r,t),最小化 ||h+r=t||。在预测时,对于每个头实体和每种关系,图谱所有结点作为候选尾实体与其计算间隔,失去最终的尾实体。
目前概念承接关系整体准确率 90% 左右。
3.5 POI/SPU- 概念关系建设
建设图谱概念和美团实例之间的关联,会利用到 POI/SPU 名称、类目、用户评论等多个维度的信息。建设关联的难点在于如何从多样化的信息中获取与图谱概念相干的信息。因而,咱们通过同义词召回实例下所有与概念语义相干的子句,而后利用判断模型判断概念与子句的关联水平。具体流程如下:
- 同义词聚类 。对于待打标的概念,依据图谱同义词数据,获取概念的多种表述。
- 候选子句生成 。依据同义词聚类的后果,从商户名称、团单名称、用户评论等多个起源中召回候选子句。
- 判断模型 。利用概念 - 文本关联判断模型(如下图所示)判断概念和子句是否匹配。
- 打标后果 。调整阈值,失去最终的判断后果。
四、利用实际
4.1 到综品类词图谱建设
美团到综业务涵盖常识畛域较广,蕴含亲子、教育、医美、休闲娱乐等,同时每个畛域都蕴含更多小的子畛域,所以针对不同的畛域建设畛域内的常识图谱,可能辅助做好搜寻召回、筛选、举荐等业务。
在常识性概念图谱中除了常识性概念数据,同时也蕴含美团场景数据,以及根底算法能力的积淀,因而能够借助常识性图谱能力,帮忙建设到综品类词的图谱数据。
借助常识性图谱,补充欠缺的品类词数据,构建正当的品类词图谱,帮忙通过搜寻改写,POI 打标等形式晋升搜寻召回。目前在教育领域,图谱规模从起初的 1000+ 节点扩大到 2000+,同时同义词从千级别扩大到 2 万 +,获得了不错的成果。
品类词图谱建设流程如下图所示:
4.2 点评搜寻疏导
点评搜寻 SUG 举荐,在疏导用户认知的同时帮忙缩小用户实现搜寻的工夫,晋升搜寻效率。所以在 SUG 举荐上须要聚焦两个方面的指标:①帮忙丰盛用户的认知,从对点评的 POI、类目搜寻减少天然文本搜寻的认知;②精细化用户搜寻需要,当用户在搜寻一些比拟泛的品类词时,帮忙细化用户的搜寻需要。
在常识性概念图谱中,建设了很丰盛的概念以及对应属性及其属性值的关系,通过一个绝对比拟泛的 Query,能够生成对应细化的 Query。例如蛋糕,能够通过口味这个属性,产出草莓蛋糕、芝士蛋糕,通过规格这个属性,产出 6 寸蛋糕、袖珍蛋糕等等。
搜寻疏导词 Query 产出示例如下图所示:
4.3 到综医美内容打标
在医美内容展现上,用户通常会对某一特定的医美服务内容感兴趣,所以在产品状态上会提供一些不同的服务标签,帮忙用户筛选准确的医美内容,精准触达用户需要。然而在标签和医美内容进行关联时,关联谬误较多,用户筛选后常常看到不合乎本人需要的内容。晋升打标的准确率可能帮忙用户更聚焦本人的需要。
借助图谱的概念 -POI 打标能力和概念 -UGC 的打标关系,晋升标签 - 内容的准确率。通过图谱能力打标,在准确率和召回率上均有显著晋升。
- 准确率 :通过概念 - 内容打标算法,相比于关键词匹配,准确率从 51% 晋升到 91%。
- 召回率 :通过概念同义开掘,召回率从 77% 晋升到 91%。
五、总结与瞻望
咱们对常识性概念图谱建设工作以及在美团场景中的应用状况进行了具体的介绍。在整个常识性概念图谱中,依照业务须要蕴含三类节点和四类的关系,别离介绍了概念开掘算法、不同品种的关系开掘算法。
目前,咱们常识性概念图谱有 200 万 + 的概念,300 万 + 的概念之间的关系,蕴含上下位、同义、属性、承接等关系,POI- 概念的关系不蕴含在内。目前,整体关系准确率在 90% 左右,并且还在一直优化算法,裁减关系的同时晋升准确率。后续咱们的常识性概念图谱还会持续欠缺,心愿可能做到精而全。
参考资料
- [1] Onoe Y, Durrett G. Interpretable entity representations through large-scale typing[J]. arXiv preprint arXiv:2005.00147, 2020.
- [2] Bosselut A, Rashkin H, Sap M, et al. Comet: Commonsense transformers for automatic knowledge graph construction[J]. arXiv preprint arXiv:1906.05317, 2019.
- [3] Soares L B, FitzGerald N, Ling J, et al. Matching the blanks: Distributional similarity for relation learning[J]. arXiv preprint arXiv:1906.03158, 2019.
- [4] Peng H, Gao T, Han X, et al. Learning from context or names? an empirical study on neural relation extraction[J]. arXiv preprint arXiv:2010.01923, 2020.
- [5] Jiang, Zhengbao, et al. “How can we know what language models know?.” Transactions of the Association for Computational Linguistics 8 (2020): 423-438.
- [6] Li X L, Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation[J]. arXiv preprint arXiv:2101.00190, 2021.
- [7] Malaviya, Chaitanya, et al. “Commonsense knowledge base completion with structural and semantic context.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 03. 2020.
- [8] 李涵昱, 钱力, 周鹏飞. “ 面向商品评论文本的情感剖析与开掘.” 情报迷信 35.1 (2017): 51-55.
- [9] 闫波, 张也, 宿红毅 等. 一种基于用户评论的商品属性聚类办法.
- [10] Wang, Chengyu, Xiaofeng He, and Aoying Zhou. “Open relation extraction for chinese noun phrases.” IEEE Transactions on Knowledge and Data Engineering (2019).
- [11] Li, Feng-Lin, et al. “AliMeKG: Domain Knowledge Graph Construction and Application in E-commerce.” Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020.
- [12] Yang, Yaosheng, et al. “Distantly supervised ner with partial annotation learning and reinforcement learning.” Proceedings of the 27th International Conference on Computational Linguistics. 2018.
- [13] Luo X, Liu L, Yang Y, et al. AliCoCo: Alibaba e-commerce cognitive concept net[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 313-327.
- [14] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
- [15] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
- [16] Liu J, Shang J, Wang C, et al. Mining quality phrases from massive text corpora[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. 2015: 1729-1744.
- [17] Shen J, Wu Z, Lei D, et al. Hiexpan: Task-guided taxonomy construction by hierarchical tree expansion[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 2180-2189.
- [18] Huang J, Xie Y, Meng Y, et al. Corel: Seed-guided topical taxonomy construction by concept learning and relation transferring[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1928-1936.
- [19] Liu B, Guo W, Niu D, et al. A user-centered concept mining system for query and document understanding at tencent[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1831-1841.
- [20] Choi E, Levy O, Choi Y, et al. Ultra-fine entity typing[J]. arXiv preprint arXiv:1807.04905, 2018.
- [21] Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation for consistency training[J]. arXiv preprint arXiv:1904.12848, 2019.
- [22] Mao X, Wang W, Xu H, et al. Relational Reflection Entity Alignment[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 1095-1104.
- [23] Chen J, Qiu X, Liu P, et al. Meta multi-task learning for sequence modeling[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).
作者简介
宗宇、豪杰、慧敏、福宝、徐俊、谢睿、武威等,均来自美团搜寻与 NLP 部 -NLP 核心。
招聘信息
美团搜寻与 NLP 部 /NLP 核心是负责美团人工智能技术研发的外围团队,使命是打造世界一流的自然语言解决核心技术和服务能力,依靠 NLP(自然语言解决)、Deep Learning(深度学习)、Knowledge Graph(常识图谱)等技术,解决美团海量文本数据,为美团各项业务提供智能的文本语义了解服务。
NLP 核心长期招聘自然语言解决算法专家 / 机器学习算法专家,感兴趣的同学能够将简历发送至 wangzongyu02@meituan.com。
| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。
浏览美团技术团队更多技术文章合集
前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试
| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。
| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。