关于深度学习:面向推荐的汽车知识图谱构建

81次阅读

共计 11123 个字符,预计需要花费 28 分钟才能阅读完成。

一、背景

1、引言

常识图谱的概念,最早由 Google 在 2012 年提出,旨在实现更智能的搜索引擎,并在 2013 年之后开始在学术界和工业级遍及。目前,随着人工智能技术的高速倒退,常识图谱已广泛应用于搜寻、举荐、广告、风控、智能调度、语音辨认、机器人等多个畛域。

2、倒退现状

常识图谱作为人工智能的核心技术驱动力,能缓解深度学习依赖海量训练数据、大规模算力的问题,它可能宽泛适配不同的上游工作,且具备良好的解释性,因而,寰球大型互联网公司都在踊跃部署本企业的常识图谱。
例如 2013 年 Facebook 公布 Open Graph,利用于社交网络智能搜寻;2014 年百度推出的常识图谱,次要利用于搜寻、助理、及 toB 商业场景;2015 年阿里推出的商品常识图谱,在前端导购、平台治理和智能问答等业务上起到关键作用;腾讯于 17 年推出的腾讯云常识图谱,无效助力于金融搜寻、实体危险预测等场景;美团于 2018 年推出的美团大脑常识图谱,曾经在智能搜寻举荐、智能商户经营等多个业务中落地。

3、指标及收益

目前畛域图谱次要集中在电商、医疗、金融等商业畛域,而对于汽车常识的语义网络及常识图谱构建短少系统性的领导办法。本文以汽车畛域常识为例,围绕车系、车型、经销商、厂商、品牌等实体及互相关系,提供一种从零搭建畛域图谱的思路,并对搭建常识图谱中的步骤及办法进行了具体阐明,以及介绍了基于本图谱的几个典型落地利用。
其中,数据源采纳汽车之家网站,汽车之家是由导购、资讯、评测、口碑等多个板块组成的汽车服务类平台,在看、买、用等维度积攒了大量的汽车数据,通过构建常识图谱把以汽车为外围的内容进行组织和开掘,提供丰盛的常识信息,结构化精准刻画趣味,反对举荐用户冷启、召回、排序、展现等多个维度,给业务晋升带来成果。

二、图谱构建

1、构建的挑战

常识图谱是真实世界的语义示意,,其根本组成单位是【实体 - 关系 - 实体】,【实体 - 属性 - 属性值】的三元组(Triplet),实体之间通过关系互相联结,从而形成语义网络。图谱构建中会面临较大的挑战,但构建之后,可在数据分析、举荐计算、可解释性等多个场景展现出丰盛的利用价值。
构建挑战:

  • schema 难定义:目前尚无对立成熟的本体构建流程,且特定畛域本体定义通常需专家参加;
  • 数据类型异构:通常状况下,一个常识图谱构建中面对的数据源不会是繁多类型,蕴含结构化、半结构化,及非结构化数据,面对构造各异的数据,常识转模及开掘的难度较高;
  • 依赖专业知识:畛域常识图谱通常依赖较强的专业知识,例如车型对应的培修办法,波及机械、电工、资料、力学等多个畛域常识,且此类关系对于准确度的要求较高,须要保障常识足够正确,因而也须要较好的专家和算法相结合的形式来进行高效的图谱构建;
  • 数据品质无保障:开掘或抽取信息须要常识交融或人工校验,能力作为常识助力上游利用。
  • 收益:
  • 常识图谱对立常识示意:通过整合多源异构数据,造成对立视图;
  • 语义信息丰盛:通过关系推理能够发现新关系边,取得更丰盛的语义信息;
  • 可解释性强:显式的推理门路比照深度学习后果具备更强的解释性;
  • 高质量且能一直积攒:依据业务场景设计正当的常识存储计划,实现常识更新和累积。

    2、图谱架构设计

    技术架构次要分为构建层、存储层及应用层三大层,架构图如下:

  • 构建层:包含 schema 定义,结构化数据转模,非结构化数据挖掘,以及常识交融;
  • 存储层:包含常识的存储和索引,常识更新,元数据管理,以及反对根本的常识查问;
  • 服务层:包含智能推理、结构化查问等业务相干的上游应用层。

    3、具体构建步骤及流程

    根据架构图,具体构建流程可分为四步:本体设计、常识获取、常识入库,以及应用服务设计及应用。
    3.1 本体构建
    本体(Ontology)是公认的概念汇合,本体的构建是指根据本体的定义,构建出常识图谱的本体构造和常识框架。
    基于本体构建图谱的起因次要有以下几点:

  • 明确专业术语、关系及其畛域公理,当一条数据必须满足 Schema 事后定义好的实体对象和类型后,才容许被更新到常识图谱中。
  • 将畛域常识与操作性常识拆散,通过 Schema 能够宏观理解图谱架构及相干定义,无须再从三元组中演绎整顿。
  • 实现肯定水平的畛域常识复用。在构建本体之前,能够先调研是否有相干本体曾经被构建进去了,这样能够基于已有本体进行改良和扩大,达到事倍功半的成果。
  • 基于本体的定义,能够防止图谱与利用脱节,或者批改图谱 schema 比从新构建老本还要高的状况。例如将“宝马 x3”、“2022 款宝马 x3”都作为汽车类实体来贮存,在利用时都可能造成实例关系凌乱、可用性差的问题,这种状况能够在设本体计阶段,通过将“汽车类实体”进行“车系”、“车型”子类细分的办法来防止。
    依照常识的覆盖面来看,常识图谱能够划分为通用常识图谱和畛域常识图谱,目前通用常识图谱已有较多案例,例如 Google 的 Knowledge Graph、微软的 Satori 和 Probase 等,畛域图谱则为金融、电商等具体行业图谱。通用图谱更重视广度,强调交融更多的实体数量,但对精确度的要求不高,很难借助本体库对公理、规定及约束条件进行推理和应用;而畛域图谱的常识覆盖范围较小,但常识深度更深,往往是在某一业余畛域上的构建。
    思考对准确率的要求,畛域本体构建多偏向于手工构建的形式,例如代表性的七步法、IDEF5 办法等[1],该类办法的核心思想是,基于已有结构化数据,进行本体剖析,将合乎利用目标和范畴的本体进行演绎及构建,再对本体进行优化和验证,从而获取初版本体定义。若想获取更大领域的畛域本体,则能够从非结构化语料中补充,思考手工构建过程较大,本文以汽车畛域为例,提供一种半自动本体构建的形式,具体步骤如下:
  • 首先收集大量汽车非结构化语料(例如车系征询、新车导购文章等),作为初始个体概念集,利用统计办法或无监督模型(TF-IDF、BERT 等)获取字特色和词特色;
  • 其次利用 BIRCH 聚类算法对概念间档次划分,初步构建起概念间层级关系,并对聚类后果进行人工概念校验和演绎,获取本体的等价、上下位概念;
  • 最初应用卷积神经网络联合近程监督的办法,抽取本体属性的实体关系,并辅以人工辨认本体中的类及属性的概念,构建起汽车畛域本体。
    上述办法可无效利用 BERT 等深度学习的技术,更好地捕获语料间的外部关系,应用聚类分档次对本体各模块进行构建,辅以人工干预,可能疾速、精确的实现初步本体构建。下图为半自动化本体构建示意图:

    利用 Protégé本体构建工具[2],能够进行本体概念类、关系、属性和实例的构建,下图为本体构建可视化示例图:

    本文将汽车畛域的顶层本体概念划分为三类,实体、事件及标签体系:
    1)实体类代表特定意义的概念类实体,包含词汇实体和汽车类实体,其中汽车类实体又包含组织机构和汽车概念等子实体类型;
    2)标签体系代表各个维度的标签体系,包含内容分类、概念标签、趣味标签等以物料维度刻画的标签;
    3)事件类代表一个或多个角色的客观事实,不同类型事件间具备演变关系。
    Protégé能够导出不同类型的 Schema 配置文件,其中 owl.xml 构造配置文件如下图所示。该配置文件可间接在 MYSQL、JanusGraph 中加载应用,实现自动化的创立 Schema。

    3.2 常识获取

    常识图谱的数据起源通常包含三类数据结构,别离为结构化数据、半结构化数据、非结构化数据。面向不同类型的数据源,常识抽取波及的关键技术和须要解决的技术难点有所不同。

    3.2.1 结构化常识转模

    结构化数据是图谱最间接的常识起源,根本通过初步转换就能够应用,相较其余类型数据老本最低,所以个别图谱数据优先思考结构化数据。结构化数据可能波及多个数据库起源,通常须要应用 ETL 办法转模,ETL 即 Extract(抽取)、Transform(转换)、Load(装载),抽取是将数据从各种原始的业务零碎中读取进去,这是所有工作的前提;转换是依照事后设计好的规定将抽取的数据进行转换,使原本异构的数据格式能够对立起来;装载是将转换完的数据按计划增量或全副导入到数据仓库中。
    通过上述 ETL 流程可将不同源数据落到两头表,从而不便后续的常识入库。下图为车系实体属性、关系示意例图:

    车系与品牌关系表:

    3.2.2 非结构化常识抽取 - 三元组抽取

    除了结构化数据,非结构化数据中也存在着海量的常识(三元组)信息。一般来说企业的非结构化数据量要远大于结构化数据,开掘非结构化常识可能极大拓展和丰盛常识图谱。
    三元组抽取算法的挑战
    问题 1:单个畛域内,⽂档内容和格局多样,须要⼤量的标注数据,老本⾼
    问题 2:畛域之间迁徙的成果不够好,跨畛域的可规模化拓展的代价⼤
    模型根本都是针对特定⾏业特定场景,换⼀个场景,成果会呈现显著降落。
    解决思路,Pre-train + Finetune 的范式,预训练:重量级底座让模型“⻅多识⼴”充沛利⽤⼤规模多⾏业的⽆标⽂档,训练⼀个统⼀的预训练底座,加强模型对各类⽂档的示意和了解能⼒。
    微调:轻量级⽂档结构化算法。在预训练根底上,构建轻量级的⾯向⽂档结构化的算法,升高
    标注老本。
    针对⽂档的预训练⽅法
    现有对于⽂档的预训练模型,如果文本较短的类型,Bert 能够齐全编码整篇⽂档;⽽咱们理论的⽂档通常⽐较⻓,须要抽取的属性值有很多是超过 1024 个字的,Bert 进⾏编码会造成属性值截断。
    针对长文本预训练方法长处和有余
    Sparse Attention 的⽅法通过优化 Self-Attention,将 O(n2) 的计算优化⾄ O(n),⼤⼤提⾼了输⼊⽂本⻓度。尽管一般模型的⽂本⻓度从 512 晋升到 4096,然而仍旧不能齐全解决截断⽂
    本的碎⽚化问题。百度提出了 ERNIE-DOC[3]应用了 Recurrence Transformer 办法,实践上能够建模⽆限⻓的⽂本。因为建模要输⼊所有的⽂本信息,耗时⾮常⾼。
    上述两种基于⻓⽂本的预训练⽅法,都没有思考⽂档个性,如空间 (Spartial)、视觉(Visual) 等信息。并且基于⽂本设计的 PretrainTask,整体是针对纯⽂本进⾏的设计,⽽没有针对⽂档的逻辑结构设计。
    针对上述有余这里介绍一种⻓⽂档预训练模型 DocBert[4],DocBert 模型设计:
    使⽤⼤规模(百万级)⽆标注⽂档数据进⾏预训练,基于⽂档的⽂本语义 (Text)、版⾯信息
    (Layout)、视觉特色(Visual) 构建⾃监督学习工作,使模型更好地了解⽂档语义和构造信息。
    1.Layout-Aware MLM:在 Mask 语⾔模型中思考⽂本的地位、字体⼤⼩信息,实现⽂档布局感知的语义了解。
    2.Text-Image Alignment:交融⽂档视觉特色,重建图像中被 Mask 的⽂字,帮忙模型学习⽂本、版⾯、图像不同模态间的对⻬关系。
    3.Title Permutation:以⾃监督的⽅式构建题目重建工作,加强模型对⽂档逻辑构造的了解能⼒。
    4.Sparse Transformer Layers:⽤ Sparse Attention 的⽅法,加强模型对⻓⽂档的解决能⼒。

    3.2.3 开掘概念,趣味词标签,关联到车系、实体

    除了结构化和非结构化文本中获取三元组,汽车之家还开掘物料所蕴含的分类、概念标签和趣味关键词标签,并建设物料和车实体之间的关联,为汽车常识图谱带来新的常识。上面从分类、概念标签、趣味词标签来介绍汽车之家所做的内容了解局部工作以及思考。
    分类体系作为内容刻画根底,对物料进行粗粒度的划分。建设的对立的内容体系更多的是基于人工定义的形式,通过 AI 模型进行划分。在分类办法上咱们咱们采纳了被动学习,对于比拟难分的数据进行标注,同时采纳数据加强,反抗训练,以及关键词交融形式进步分类的成果。

    概念标签粒度介于分类和趣味词标签之间,比分类粒度更细,同时比趣味词对于趣味点刻画更加残缺,咱们建设了车视线、人视线、内容视线三个维度,丰盛了标签维度,细化了标签粒度。丰盛且具体的物料标签,更加不便搜寻举荐基于标签的模型优化,且可用于标签外展起到吸引用户及二次引流等作用。概念标签的开掘,联合在 query 等重要数据上采纳机器开掘形式,并对概括性进行剖析,通过人工 review,拿到概念标签汇合,采纳多标签模型分类。
    趣味词标签是最细粒度的标签,映射为用户趣味,依据不同用户趣味偏好进能够更好的进行行个性化举荐。关键词的开掘采纳多种趣味词开掘相结合的形式,包含 Keybert 提取要害子串,并联合 TextRank、positionRank、singlerank、TopicRank、MultipartiteRank 等 + 句法分析多种办法,产生趣味词候选。

    开掘进去的词,类似度比拟高,须要对同义词进行辨认,须要晋升人工的效率,因而咱们也通过聚类进行自动化语义类似辨认。用于聚类的特色有 word2vec,bert embding 等其余人工特色。而后应用聚类办法,最初通过人工改正咱们离线产生了一批高质量的关键词。
    对于不同粒度的标签还是在物料层面的,咱们须要把标签和车建设起关联,首先咱们别离计算出题目 \ 文章的所属标签,而后辨认出题目 \ 文章内的实体,失去若干标签 - 实体伪标签,最初依据大量的语料,共现概率高的标签就会标记为该实体的标签。通过以上三个工作,咱们在取得了丰盛且海量的标签。对车系、实体关联上这些标签,会极大丰富咱们的汽车图谱,建设了媒体和用户的关注车标签。

    3.2.4 人效晋升:

    随同着更大规模的训练样本,如何取得更好的模型品质,如何解决标注老本高,标注周期长成为亟待解决的问题。首先咱们能够应用半监督学习,利用海量未标注数据进行预训练。而后采纳被动学习形式,最大化标注数据的价值,迭代抉择高信息量样本进行标注。最初能够利用近程监督,施展已有常识的价值,察觉工作之间的相关性。例如在有了图谱和题目后,能够用近程监督的办法基于图谱结构 NER 训练数据。

3.3 常识入库

常识图谱中的常识是通过 RDF 构造来进行示意的,其根本单元是事实。每个事实是一个三元组 (S, P, O),在理论零碎中,依照存储形式的不同,常识图谱的存储能够分为基于 RDF 表构造的存储和基于属性图构造的存储。图库更多是采纳属性图构造的存储,常见的存储系统有 Neo4j、JanusGraph、OritentDB、InfoGrid 等。
图数据库抉择
通过 JanusGraph 与 Neo4J、ArangoDB、OrientDB 这几种支流图数据库的比照,咱们最终抉择 JanusGraph 作为我的项目的图数据库,之所以抉择 JanusGraph,次要有以下起因:

  • 基于 Apache 2 许可协定开放源码,开放性好。
  • 反对应用 Hadoop 框架进行全局图剖析和批量图解决。
  • 反对很大的并发事务处理和图操作解决。通过增加机器横向扩大 JanusGraph 的事务 解决能力,能够在毫秒级别相应大图的简单查问。
  • 原生反对 Apache TinkerPop 形容的以后风行的属性图数据模型。
  • 原生反对图遍历语言 Gremlin。
  • 下图是支流图数据库比照

    Janusgraph 介绍
    JanusGraph[5] 是一个图形数据库引擎。其自身专一于紧凑图序列化、丰盛图数据建模、高效的查问执行。图库 schema 形成能够用上面一个公式来示意:
    janusgraph schema = vertex label + edge label + property keys
    这里值得注意的是 property key 通常用于 graph index。

为了更好的图查问性能 janusgraph 建设了索引,索引分为 Graph Index,Vertex-centric Indexes。Graph Index 蕴含组合索引 (Composite Index) 和混合索引 (Mixed Index).
组合索引仅限相等查找。(组合索引不须要配置内部索引后端,通过主存储后端反对 (当然也能够配置 hbase,Cassandra,Berkeley))
举例:
mgmt.buildIndex(‘byNameAndAgeComposite’, Vertex.class).addKey(name).addKey(age).buildCompositeIndex() #构建一个组合索引“name-age”
g.V().has(‘age’, 30).has(‘name’, ‘ 小明 ’)# 查找 名字为小明年龄 30 的节点
混合索引须要 ES 作为后端索引以反对除相等以外的多条件查问(也反对相等查问,但相等查问,组合索引更快)。依据是否须要分词分为 full-text search,和 string search
JanusGraph 数据存储模型
理解 Janusgraph 存储数据的形式,有助于咱们更好的利用该图库。JanusGraph 以邻接列表格局存储图形,这意味着图形存储为顶点及其邻接列表的汇合。顶点的邻接列表蕴含顶点的所有入射边(和属性)。

JanusGraph 将每个邻接列表作为一行存储在底层存储后端中。(64 位)顶点 ID(JanusGraph 惟一调配给每个顶点)是指向蕴含顶点邻接列表的行的键。每个边和属性都存储为行中的一个独自的单元格,容许无效的插入和删除。因而,特定存储后端中每行容许的最大单元数也是 JanusGraph 能够针对该后端反对的顶点的最大度数。
如果存储后端反对 key-order,则邻接表将按顶点 id 排序,JanusGraph 能够调配顶点 id,以便对图进行无效分区。调配 id 使得常常独特拜访的顶点具备相对差别小的 id。

3.4 图谱查问服务

Janusgraph 进行图搜寻用的是 gremlin 语言,咱们提供了对立的图谱查问服务,内部应用不必关怀 gremlin 语言的具体实现,采纳通用的接口进行查问。咱们分为三个接口:条件搜寻接口,以节点为核心向外查问,和节点间门路查问接口。上面是几个 gremlin 实现的例子:

  • 条件搜寻:查问 10 万左右,销量最高的车:
    g.V().has(‘price’,gt(8)).has(‘price’,lt(12)).order().by(‘sales’,desc).valueMap().limit(1)
    输入:
    ==>{name=[xuanyi], price=[10], sales=[45767]}
    轩逸销量最高,为 45767
  • 以节点为核心向外查问:查问以小明为核心,2 度的节点
    g.V(xiaoming).repeat(out()).times(2).valueMap()
  • 节点间门路查问:荐给小明举荐两篇文章,这两篇文章别离介绍的是卡罗拉和轩逸,查问小明 和 这两篇文章的门路:
    g.V(xiaoming).repeat(out().simplePath()).until(or(has(“car”, ‘name’, ‘kaluola’),has(“car”, ‘name’, ‘xuanyi’))).path().by(“name”)
    输入
    ==>path[xiaoming, around 10w, kaluola]
    ==>path[xiaoming, around 10w, xuanyi]
    发现小明和这两篇文章之间有个节点“10 万左右”

三、常识图谱在举荐的利用

常识图谱中存在大量的非欧式数据,基于 KG 的举荐利用无效利用非欧式数据晋升举荐零碎准确度,进而让举荐零碎能达到传统零碎所无奈达到的成果。基于 KG 的举荐能够分成以三类,基于 KG 表征技术(KGE)、基于门路的办法、图神经网络。本章将从 KG 在举荐零碎中冷启、理由、排序三方面的利用和论文进行介绍。

3.1 常识图谱在举荐冷启动的利用

常识图谱可能从 user-item 交互中建模 KG 中暗藏的高阶关系, 很好地解决了因用户调用无限数量的行为而导致的数据稠密性,进而能够利用在解决冷启动问题。这一问题业界也有相干钻研。
Sang 等 [6] 提出了一种双通道神经交互办法,称为常识图加强的残差递归神经协同过滤(KGNCF-RRN),该办法利用 KG 上下文的长期关系依赖性和用户项交互进行举荐。(1)对于 KG 上下文交互通道,提出了残差递归网络(RRN)来结构基于上下文的门路嵌入,将残差学习融入传统的递归神经网络(RNN)中,以无效地编码 KG 的长期关系依赖。而后将自关注网络应用于门路嵌入,以捕捉各种用户交互行为的多义。(2)对于用户我的项目交互通道,用户和我的项目嵌入被输出到新设计的二维交互图中。(3)最初,在双通道神经交互矩阵之上,应用卷积神经网络来学习用户和我的项目之间的简单相关性。该办法能捕获丰盛的语义信息,还能捕获用户与我的项目之间简单的隐含关系,用于举荐。
Du Y 等 [7] 提出了一种新的基于元学习框架的冷启问题解决方案 MetaKG,包含 collaborative-aware meta learner 和 knowledge-aware meta learner,捕获用户的偏好和实体冷启动常识。collaborative-aware meta learner 学习工作旨在聚合每个用户的偏好常识示意。相同,knowledge-aware meta learner 学习工作要在全局泛化不同的用户偏好常识示意。在两个 learner 的领导下,MetaKG 能够无效地捕捉到高阶的协作关系关系和语义示意,能够轻松适应冷启动场景。此外,作者还设计了一种自适应工作,能够自适应地抉择 KG 信息进行学习,以避免模型被噪声信息烦扰。MetaKG 架构如下图所示。

3.2 常识图谱在举荐理由生成的利用

举荐理由能进步举荐零碎的可解释性,让用户了解生成举荐后果的计算过程,同时也能够解释 item 受欢迎的起因。用户通过举荐理由理解举荐后果的产生原理,能够加强用户对系统举荐后果的信念,并且在举荐失误的状况下对谬误后果更加宽容。
最早可解释举荐是以模板为主,模板的益处是保障了可读性和高准确率。然而须要人工整理模板,并且泛华性不强,给人一种反复的感觉。起初倒退不须要预设的 free-form 模式,并且加以常识图谱,以其中的一条门路作为解释,配合标注还有一些联合 KG 门路的生成式的办法,模型中抉择的每个点或边都是一个推理过程,能够向用户展现。最近 Chen Z [8]等人提出一种增量多任务学习框架 ECR,能够实现举荐预测、解释生成和用户反馈集成之间的严密合作。它由两大部分组成。第一局部,增量穿插常识建模,学习举荐工作和解释工作中转移的穿插常识,并阐明如何应用穿插常识通过应用增量学习进行更新。第二局部,增量多任务预测,论述如何基于穿插常识生成解释,以及如何依据穿插常识和用户反馈预测举荐分数。

3.3 常识图谱在举荐排序的利用

KG 能够通过给 item 用不同的属性进行链接,建设 user-item 之间 interaction,将 uesr-item graph 和 KG 联合成一张大图,能够捕捉 item 间的高阶分割。传统的举荐办法是将问题建模为一个监督学习工作,这种形式会疏忽 item 之间的内在联系 (例如凯美瑞和雅阁的竞品关系),并且无奈从 user 行为中获取协同信号。上面介绍两篇 KG 利用在举荐排序的论文。
Wang[9] 等人设计了 KGAT 算法,首先利用 GNN 迭代对 embedding 进行流传、更新,从而可能在疾速捕获高阶分割;其次,在 aggregation 时应用 attention 机制,流传过程中学习到每个 neighbor 的 weight,反馈高阶分割的重要水平;最初,通过 N 阶流传更新失去 user-item 的 N 个隐式示意,不同 layer 示意不同阶数的连贯信息。KGAT 能够捕获更丰盛、不特定的高阶分割。

Zhang[20]等人提出 RippleNet 模型,其要害思维是趣味流传:RippleNet 将用户的历史趣味作为 KG 中的种子汇合(seed set),而后沿着 KG 的连贯向外扩大用户趣味,造成用户在 KG 上的趣味散布。RippleNet 最大的劣势在于它能够主动地开掘从用户历史点击过的物品到候选物品的可能门路,不须要任何人工设计元门路或元图。

RippleNet 将用户 U 和我的项目 V 作为输出,并输入用户 U 单击我的项目 V 的预测概率。对于用户 U,将其历史趣味 V_{u}作为种子,在图中能够看到最后的终点是两个,之后一直向四周扩散。给定 itemV 和用户 U 的 1 跳 ripple 汇合 V_{u_{}^{1}}中的每个三元组 \left(h_{i},r_{i},t_{i} \right),通过比拟 V 与三元组中的节点 h_{i}和关系 r_{i}调配相干概率。

在失去相干概率后,将 V_{u_{}^{1}}中三元组的尾部乘以相应的相干概率进行加权求和,失去用户 U 的历史趣味对于 V 的一阶响应,用户趣味由 V_{u}转移到 o_{u}^{1},能够计算失去 o_{u}^{2}、o_{u}^{3}…o_{u}^{n},进而计算失去 U 对于 item V 的特色能够被计算为交融他的所有阶数响应。

四、总结

综上,咱们次要围绕举荐,介绍了图谱构建具体流程,对其中的艰难和挑战做出了剖析。同时也综述了很多重要的工作,以及给出了具体的解决方案,思路以及倡议。最初介绍了包含常识图谱的利用,特地在举荐畛域中冷起、可解释性、召回排序介绍了常识图谱的作用与应用。


援用
[1] Kim S,Oh S G.Extracting and Applying Evaluation Criteria for Ontology Quality Assessment[J].Library Hi Tech,2019.
[2] Protege: https://protegewiki.stanford.edu
[3] Ding S , Shang J , Wang S , et al. ERNIE-DOC: The Retrospective Long-Document Modeling Transformer[J]. 2020.
[4] DocBert,[1] Adhikari A , Ram A , Tang R , et al. DocBERT: BERT for Document Classification[J]. 2019.
[5] JanusGraph,https://docs.janusgraph.org/
[6] Sang L, Xu M, Qian S, et al. Knowledge graph enhanced neural collaborative filtering with residual recurrent network[J]. Neurocomputing, 2021, 454: 417-429.
[7] Du Y , Zhu X , Chen L , et al. MetaKG: Meta-learning on Knowledge Graph for Cold-start Recommendation[J]. arXiv e-prints, 2022.
[8] Chen Z , Wang X , Xie X , et al. Towards Explainable Conversational Recommendation[C]// Twenty-Ninth International Joint Conference on Artificial Intelligence and Seventeenth Pacific Rim International Conference on Artificial Intelligence {IJCAI-PRICAI-20. 2020.
[9] Wang X , He X , Cao Y , et al. KGAT: Knowledge Graph Attention Network for Recommendation[J]. ACM, 2019.
[10] Wang H , Zhang F , Wang J , et al. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems[J]. ACM, 2018.

正文完
 0