乐趣区

关于知识图谱:大厂技术实现-爱奇艺文娱知识图谱的构建与应用实践-自然语言处理系列

常识图谱是一种用图模型来形容常识和建模世界万物之间关联关系的技术办法。本文钻研的是爱奇艺奇搜常识图谱的构建流程与利用场景,理解这一娱乐行业常识图谱是如何帮忙用户准确找到想要的内容、答复用户问题、以及了解用户搜寻用意的。

一图看懂全文

获取『自然语言解决』行业解决方案

『举荐与计算广告』系列包含爱奇艺、美团、小米、百度等公司的业务剖析和技术解读。我的项目实现代码、我的项目数据集、论文合辑、文章合辑等,已整顿为大厂行业解决方案。扫码返回 公众号(AI 算法研究所) 后盾回复关键字『自然语言解决』获取。

相干代码实现参考

ShowMeAI 社区的技术专家小伙伴们也对常识图谱的典型算法做了实现。对『常识图谱构建与落地实际』细节感兴趣的话,请返回咱们的GitHub 我的项目(https://github.com/ShowMeAI-Hub)查看实现代码。感激 ShowMeAI 社区参加此我的项目的所有技术专家小伙伴, 也欢送大家 PR 和 Star!

举荐浏览 | 点击查看『自然语言解决』系列教程(http://www.showmeai.tech/tutorials/knowledge-graph)

  • 大厂技术实现 | 爱奇艺娱乐常识图谱的构建与利用实际

2012 年 5 月,Google 公布了常识图谱(Knowledge Graph),以晋升搜索引擎返回的答案品质和用户查问的效率。有了常识图谱作为辅助,搜索引擎可能洞察用户查问背地的语义信息,返回更为精准、结构化的信息,更大可能地满足用户的查问需要。

目前,随着智能信息服务利用的一直倒退,常识图谱已广泛应用于智能搜寻、智能问答、个性化举荐、聊天机器人、大数据风控、证券投资、智能医疗、自适应教育等畛域。常识图谱做 AI 技术的重要垂直分支,其在技术畛域的热度也逐年回升。

本篇是『常识图谱构建与落地实际』的实际篇,咱们与来自爱奇艺的 NLP 工程师奇异果,一起钻研学习爱奇艺搜寻团队 2015 年开始搭建的 奇搜常识图谱库 (https://so.iqiyi.com/),理解奇搜常识图谱的构建过程,及其在爱奇艺搜寻、NLP 服务中的具体利用。

一、常识图谱介绍

实质上,常识图谱是一种揭示实体之间关系的语义网络,对事实世界的事物及其互相关系进行形式化地形容。

A knowledge graph consists of a set of interconnected typed entities and their attributes.

——《Exploiting Linked Data and Knowledge Graphs in Large Organisations

常识图谱是由一些相互连接的实体和他们的属性形成的。换句话说,常识图谱由一系列的(实体,关系,实体)三元组形成,用以表白事实世界中的诸多场景。

  • 实体(Entity)指的是事实世界中的事物,是图里的节点。
  • 关系(Relation)指的是不同实体之间的某种分割,是图里的“边”。

图示为一个社交网络常识图谱:实体有『人』『物品』『修建』『城市』等。『人与人之间的关系』能够是敌人或粉丝,『人与物品的关系』能够是创作或喜爱。

二、奇搜常识图谱构建办法与流程

爱奇艺搜寻(奇搜,https://so.iqiyi.com/)是国内最大的视频搜索引擎之一,涵盖全网海量视频资源, 为用户提供优质的全网视频 & 娱乐畛域的搜寻服务。

奇搜团队致力欠缺对视频内容和用户用意的了解,并在过程中构建了以视频畛域为主的常识图谱库。

以后,奇搜常识图谱的构建流程次要分为几个步骤:

  • 常识示意与建模
  • 常识获取
  • 常识交融
  • 常识存储
  • 常识利用(常识查问与推理)

2.1 常识示意与建模

咱们在确认常识的建模示意形式之后,再构建常识图谱。目前次要的常识建模形式有两种,爱奇艺奇搜常识图谱的构建采纳的是 自顶向下 的建模形式。

(1)自顶向下的数据建模办法。先为常识图谱设计数据模式(Schema),再根据设计好的数据模式进行有针对性的数据抽取;

(2)自底向上的数据建模办法。先进行数据的收集和整顿,再依据数据内容总结、演绎其特点,提炼框架,逐步形成确定的数据模式。

2.1.1 RDF 三元组

RDF(Resource Description Framework),即资源形容框架,实际上是一种数据模型,用来链接资源的各种形容。

  • Resource:页面、图片、视频等任何具备 URI 标识符。
  • Description:属性、特色和资源之间的关系。
  • Framework:模型、语言和这些形容的语法。

RDF 由一系列三元组(triple)模型组成,即每一份常识能够被合成为 (Subject(主),Predicate(谓),Object(宾))。

  • 主语 (Subject):申明被形容的 对象
  • 谓语 (Predicate):这个对象的 属性
  • 宾语 (Object):这个属性的

所以,RDF 三元组能够被形容成 (对象,属性,值),即上文提到的 (节点,边,节点) 这样的图。

2.1.2 RDFS (RDF Schema)

一个三元组就是一个关系。在 RDF 里能够申明一些规定,从一些关系推导出另一些关系。这些规定称为“Schema”,所以有了 RDFS(RDF Schema)。规定能够用一些词汇示意,如 Class、subClassOf、type、Property、subPropertyOf、Domain、Rnage 等。

『爱奇艺是一家人工智能公司』和『一家人工智能公司是一家高科技公司』,能够推导出『爱奇艺是一家高科技公司』。

2.1.3 奇搜常识图谱 Schema

奇搜基于 RDF/RDFS 定义了图谱的实体类型、关系(属性)类型、以及实体自身的 Schema 定义。每一层定义在 Schema 的示意语法上都是统一的。

  • Rules 层(规定层)。一些根底概念的定义(包含 RDF/RDFS 已有的定义,以及基于 RDF / RDFS 定义的、供实体类型 / 属性定义应用的规定定义),该层规定的定义个别在确定后是不可变的。
  • Ontology 层(本体定义层)。包含可实例化的实体类型(Class,可继承)和属性(Property,可继承)的定义,如 Thing,Person,wife,name 等。
  • Entities 层(实体层)。保留在实体库中的具体实体。

为了帮忙定义和应用图谱 Schema(次要上图中的本体定义层),爱奇艺搜寻团队开发了一套 Schema 零碎来负责管理和解析奇搜常识图谱的 Schema 定义:

最终定义的实体类型的继承关系片段示例如下图:

2.2 常识获取

常识图谱的构建是后续利用的根底,而且构建的前提是须要把数据从不同的数据源中抽取进去。常识获取是构建常识图谱的前提条件,也是主动构建常识图谱的影响外围因素。

数据是常识图谱的根基,间接关系到常识图谱构建的效率和品质。比方,从结构化的数据中构建常识图谱比从非结构化的数据中构建,效率和准确率要高;数据越简单,乐音越大,构建老本就越高。

目前奇搜常识图谱的数据起源除去 人工创立的数据 外,次要有 站内数据 垂直网站数据 百度百科数据 三种数据起源。

2.2.1 实体分类

实体分类次要用于解决百度百科的数据。因为百度百科的数据没有类别信息,须要先对词条进行实体类型的辨认。具体实现是为每种实体类型训练一个实体分类器,准确率可掂量,并且互不影响,能够疾速拓展。

实体分类器模型示意图,整体采纳启发式办法。

  • 构建基于规定池的分类器,生成训练数据,训练 DNN 模型(self-attention)文本分类模型;
  • DNN 分类器与规定分类器相互裁减迭代(一到两轮),最终线上应用规定分类器。
  • 生成过程中会用上百科词条中的形容文本、infobox 字段、超链接词条、词条标签等信息作为特色。

2.2.2 实体抽取

实体抽取,是指从数据中辨认和抽取实体的属性与关系信息。对不同类型、不同数据源的数据,别离开发属性 / 关系抽取脚本。

由易到难,次要包含以下三类抽取形式

(1)结构化数据抽取:大部分站内 / 垂直网站的信息,以及局部百度百科的信息,是结构化的数据,比拟易于抽取。源数据结构和实体类型定义(即指标数据结构)多种多样。为了进步开发效率,将结构化数据的抽取流程进行形象,并写成对立的框架,利用策略模式将抽取的具体规定用 groovy 脚本来实现。当扩大新的起源和指标实体类型时,只需实现新的抽取脚本。

(2)半结构化数据抽取:百度百科中存在很多表格、列表等格局不齐全规定的半结构化信息,抽取有肯定难度。比方,半结构化信息中存在一些品质较高的统计性的数据。对于这类数据,采纳基于有监督学习的包装器演绎办法进行抽取。

(3)非结构化数据挖掘:百度百科以及站内的形容等大量文本中,也存在有很多贵重的信息。对于这类数据的实体开掘,须要借助自然语言解决的伎俩(次要是实体辨认等服务)。

  • 一方面,通过实体链接服务把从文本中抽取失去的实体对象,链接到实体库中对应的正确实体对象,以开掘文本中关系。
  • 另一方面,利用 NER(name entity recognition/ 实体辨认)技术来辨认来开掘文本中的实体。

2.3 常识交融

常识交融次要解决 实体对齐(Object Alignment) 的问题。实现实体抽取后,存在实体 ID 不同但代表真实世界中同一对象的状况。常识交融即是将这些实体合并成一个具备全局惟一标识的实体对象,增加到常识图谱中。

下图是实体对齐的流程图

所有起源的实体数据都会进入原始实体库,并对原始表中的数据建设索引。当一个原始实体 rawEntity 进入最终实体库之前,要在原始实体库中寻找是否有其它原始实体和 rawEntity 实际上是同一个实体。

  • 首先,在索引中依据名字、别名等字段查问出若干个可能是雷同实体的候选列表,这个步骤的目标是缩小接下来流程的计算量。
  • 而后,通过实体判断模型,依据模型得分辨认出待合并对齐的原始实体。
  • 最初,通过属性交融模型,将各原始实体的属性字段进行交融,生成最终的实体。

这个流程中的合并判断模型实际上是通过机器学习训练生成的二分类器

2.4 常识存储

线上应用的图数据库引擎抉择了 JanusGraph。JanusGraph 须要内部的存储系统与内部索引零碎的反对。所以,爱奇艺搜寻团队借助爱奇艺云平台的 Hbase 和 ES 集群,搭建了本人的 JanusGraph 分布式图数据库引擎,反对在线游走查问服务。

三、奇搜图谱的业务利用

3.1 问答式搜寻服务

基于图数据库引擎提供的查问服务,以及 NLP 技术对用户 query 的用意了解,提供了多种类型的问答式搜寻后果服务。包含:

  • 明星、剧集的属性类的查问:如生日、剧的播出工夫等。
  • 实体的关系类的查问:明星的关系、剧集与明星 / 角色的关系、剧集间的关系、以及各种关系的组合等等。

3.1.1 智能问答

◉ 吴京学校

3.1.3 关系查问

◉《甄嬛传》演员表

3.1.3 剧集周边

◉《请答复 1988》主题曲

3.1.4 关系组合

◉ 刘培强的演员还演过

3.2 根底数据服务

奇搜常识图谱的实体库作为根底数据,被用于 NLP 团队提供的 分词和实体辨认、用意辨认 等服务,也在明星图谱等业务场景下间接展现。

3.2.1 分词实体辨认

◉ 于和伟在《沉睡年代》里饰演陈独秀

3.2.2 明星图谱展现

◉ 吴京

3.3 标签开掘与标签体系欠缺

常识图谱的数据,能够帮忙建设和欠缺标签体系,以及开掘视频数据上的标签;同时,标签体系也能够反过来丰盛常识图谱。

3.3.1 标签开掘

利用推理等技术,对常识图谱进行开掘。推理性能个别通过可扩大的规定引擎来实现:

  • 属性的推理:如依据出生年月推理出年龄、星座等。
  • 关系的推理 :如依据已有的『 妻子关系 』推理出反向『 丈夫关系 』,依据『 儿子的儿子 』链式关系推理出『 孙子』关系等。

3.3.2 标签体系欠缺

视频标签体系欠缺能够采纳同样的办法:视频上的标签与图谱实体进行映射之后,利用和下面一样的推理规定(这里次要用到实体的上下位词、属于、蕴含等关系)来进行标签拓展。其余的拓展办法还包含 Graph Embedding 等技术(扩大同类型的关联性强的实体)。

上面是一些标签开掘的线上利用实例:

◉ 广场舞:广场舞实体、舞队实体、舞曲实体、视频实体

◉ 科幻电影:科幻电影实体、类型实体、明星实体、视频实体

四、总结

上文介绍了奇搜常识图谱的构建以及在搜寻中利用。

传统的视频搜寻,通过为整段视频增加文字标签,并将其与用户搜寻的信息进行匹配,来实现搜寻过程,其搜寻原理与传统文字搜寻雷同。

基于爱奇艺的外围视频业务,奇搜常识图谱全新的娱乐搜寻性能,能够帮忙用户找到想要的内容、答复用户的问题、以及了解用户的搜寻用意,给用户带来更佳的搜寻体验。随着视频内容了解和视频常识图谱库的不断完善,将来用户观看视频将像应用文字一样轻松便捷,对于视频搜寻、互动的设想空间也在一直清晰。

五、常识图谱构建与利用代码参考

获取『自然语言解决』行业解决方案

『举荐与计算广告』系列包含爱奇艺、美团、小米、百度等公司的业务剖析和技术解读。我的项目实现代码、我的项目数据集、论文合辑、文章合辑等,已整顿为大厂行业解决方案。返回 公众号(AI 算法研究所) 后盾回复关键字『自然语言解决』获取。

相干代码实现参考

ShowMeAI 社区的技术专家小伙伴们也对常识图谱的典型算法做了实现。对『常识图谱构建与落地实际』细节感兴趣的话,请返回咱们的GitHub 我的项目(https://github.com/ShowMeAI-Hub)查看实现代码。感激 ShowMeAI 社区参加此我的项目的所有技术专家小伙伴, 也欢送大家 PR 和 Star!

举荐浏览 | 点击查看『自然语言解决』系列教程(http://www.showmeai.tech/tutorials/knowledge-graph)


作者:韩信子 @ShowMeAI,奇异果 @爱奇艺
地址:http://www.showmeai.tech/article-detail/iqiyi-knowledge-graph
申明:版权所有,转载请分割平台与作者并注明出处

退出移动版