乐趣区

关于知识图谱:华为云专家讲述知识图谱构建流程及方法

摘要:随着 AI 技术的倒退和遍及,当今社会曾经进入了智能化时代。与以往不同的是,在这一波浪潮中,企业不仅是向数字化转型,更是向知识化转型。那么,如何助力企业破解智能化常识开掘和治理难题,实现知识化转型?

华为云自然语言解决技术专家郑毅在《企业级常识计算平台的技术解读和案例实际》分享中,讲述了华为云常识计算平台及相干技术、常识图谱构建流程及办法,以及常识计算行业案例。本文次要讲述“常识图谱构建流程及办法”,让咱们先睹为快。

一、什么是常识图谱?

常识图谱是由实体、关系和属性组成的一种数据结构。以下图为例,“刘德华“是一个人物类型的实体,“刘德华”有本人的身高、国籍等信息,这些信息便称之为实体的属性。

同样,“无间道”是一个电影类型的实体。咱们晓得“刘德华”是“无间道”这部电影的主演,所以“刘德华”与“无间道”之间有“主演”关系。通过实体、关系、属性,就可能把咱们人能够了解的常识无效地组织起来。常识图谱的构建与利用波及数据库、自然语言解决(NLP)和语义网络等技术。

图 1 常识图谱示例

通用常识图谱 or 行业常识图谱?

依照常识图谱的用处,常识图谱可分为通用常识图谱和行业常识图谱。通用常识图谱偏重构建常识性的常识,并用于搜索引擎和举荐零碎等。行业常识图谱(也可称企业常识图谱)次要面向企业业务,通过构建不同行业、企业的常识图谱,对企业外部提供知识化服务。华为云常识图谱服务可用于以上两类常识图谱的构建、治理和服务,更偏重面向企业常识图谱。

二、如何构建常识图谱?

常识图谱构建次要分为自顶向下 (top-down) 与自底向上 (bottom-up) 两种构建形式。自顶向下构建形式须要先定义好本体(Ontology 或称为 Schema),再基于输出数据实现信息抽取到图谱构建的过程。该办法更实用于专业知识方面图谱的构建,比方企业常识图谱,面向畛域业余用户应用。自底向上构建形式则是从凋谢的 Open Linked Data 中抽取置信度高的常识,或从非结构化文本中抽取常识,实现常识图谱的构建。该形式更实用于常识性的常识,比方人名、机构名等通用常识图谱的构建。本文偏重介绍自顶向下构建形式的相干流程和技术,并用于构建企业常识图谱。

目前业界暂无常识图谱云服务,也没有统一标准的自顶向下构建流程。以后业界支流的常识图谱构建形式是基于企业外部数据、公开数据,图谱服务商以解决方案模式帮忙客户定制构建常识图谱。这样的形式无疑老本十分高并且效率很低,通常须要很长的周期能力实现。同时,企业没有参与感,图谱构建也可能存在很大偏差,难以用于理论业务中。

站在用户角度,咱们通过形象常识图谱构建流程及相干技术,推出华为云常识图谱云服务(图 2),为不同行业、不同企业提供疾速构建常识图谱能力的平台,赋能大中小型企业构建属于本人的常识图谱。

图 2 华为云常识图谱云服务

华为云常识图谱云服务提供流水线式图谱构建能力,将图谱构建形象为如下根本流程:本体构建、数据源配置、信息抽取、常识映射以及常识交融。

图 3 常识图谱构建根本流程

进一步通过将每一个流程模块形象成插件模式,并通过组合配置生成图谱构建工作。面向不同的行业和畛域,只须要批改插件配置即可实现企业常识图谱的构建。同时,基于流水线设计,常识图谱云服务能够在只批改数据源的前提下实现常识图谱的更新操作,十分实用于须要频繁更新的常识图谱。

2.1 如何构建常识图谱的本体?

常识图谱构建的第一步须要实现图谱本体(Ontology)的设计和构建。本体是图谱的模型,是对形成图谱的数据的一种模式束缚。对于企业常识图谱的构建,个别是由垂直畛域的行业专家和常识图谱专家单干实现。

本体的构建和设计对于常识图谱的构建至关重要。能够通过梳理畛域常识、术语词典、专家的人工教训等作为本体构建的根底,联合常识图谱的利用场景来欠缺图谱的构建,最终取得实体类别、类别之间的关系、实体蕴含的属性定义。华为云常识图谱云服务提供图形化本体设计工具,能够通过拖拽编辑灵便实现企业常识图谱本体的构建。

图 4 华为云常识图谱云服务 - 本体设计界面

2.2 如何配置数据源?须要做哪些筹备

在配置数据源之前,须要将不同类型、不同格局的数据进行初步的整顿。比方:针对本地非电子化文档,须要先进行扫描电子化,联合 OCR 等技术将扫描件转换成文本文档。再比方:针对本地电子化文档,须要将本地文档按文档类型、格局进行归档解析整顿成标准的格局,或者针对网络资源,须要依据网站特点,开发相应的爬虫,对数据进行爬取,并存储到本地数据库等等。还有一些第三方资源,须要获取相应的数据拜访接口,并通过接口获取相应数据。

整顿好的数据上传到华为云 OBS 对象存储服务后,常识图谱云服务就能够进行数据源的配置,包含指定格局的针对结构化数据和非结构化文本的配置等。

2.3 什么是信息抽取?怎么抽取?

信息抽取的目标是依据不同的数据源、不同的数据格式,实现实体、属性、关系这种常识的抽取。这是常识图谱构建流程中十分要害的一环,信息抽取的品质决定了常识图谱的品质。实体之间的关系以及实体的属性值,都能够用三元组(主语、谓词、宾语)来示意,所以信息抽取又能够简略叫做三元组抽取。

华为云常识图谱云服务反对结构化 Key-Value 格局和非结构化文本的三元组抽取。针对结构化数据,能够通过配置预置函数的组合,实现字段的解决。与之对应的,针对非结构化文本,云服务提供算法模型抽取能力,反对业界前沿的基于机器浏览了解(Machine Reading Comprehension,MRC)的三元组抽取办法,通过应用多轮对话的思维进行三元组抽取,先抽取主语(Subject),而后依据抽取后果和候选谓词对应的模板结构问句抽取宾语(Object),最终组成(主语,谓词,宾语)三元组。该框架模型成果能够达到以后业界最好程度(state-of-the-art)。华为云常识图谱服务反对基于该算法的模型训练、预测以及治理性能,同时以插件模式实现流水线中信息抽取局部。

图 5 基于机器浏览了解(MRC)的三元组抽取办法

信息抽取中模型训练推理性能是基于华为云 -ModelArts AI 计算平台实现的,该平台提供高效的 AI 计算、模型训练、推理及部署能力,同时为了不便训练三元组抽取模型,额定提供三元组标注工具,用户能够基于该工具疾速取得训练数据,实现信息抽取以及常识图谱构建工作。

图 6 三元组标注工具示例

2.4 常识交融是如何实现的?

所谓常识交融,就是对多个数据源进行常识抽取后的大量三元组数据进行对齐合并。举个例子:百度百科有明星刘德华,互动百科有明星刘德华,咱们构建的常识图谱不能有两个明星刘德华吧?这时候就须要把他们辨认进去放在一起,而后合并成一个实体,这就是实体的对齐以及常识的交融。

这其中要害的问题是怎么高效的实现实体对齐,技术路线根本能够分为两类:基于实体属性类似度的框架、基于联结表征的深度学习框架。思考到基于联结表征的深度学习框架依赖大量标注数据,并且模型与行业及数据强相干,无奈提供很好的通用化能力,因而,华为云常识图谱服务以后反对基于实体属性类似度的框架,能够通过定义类似度度量及组合,实现实体对齐以及常识交融。

除此之外,华为云常识图谱云服务还提供图谱可视化服务,能够直观地察看剖析实体及关系。

图 7 病毒蛋白常识图谱可视化示例

三、常识图谱须要怎么的存储形式?

通过常识图谱构建,咱们当初曾经有了大量的三元组常识。那么要怎么来存储这些三元组常识呢?

最间接的形式是应用表格局的存储形式,如关系型数据表,三元组以三列数据或多列数据的模式存储。这种办法在图谱规模比拟小的时候是可行的,然而如果图谱规模变大了,是否仍然可行呢?举个例子,倘若咱们有了娱乐明星 + 电影这样一个娱乐图谱,其中包含了大量的明星人物、电影以及他们之间的关系。如果想查问“刘德华和梁朝伟独特演过的电影中,年龄最大的导演是谁?“,就须要对关系型数据库中常识图谱后果表做 2 - 3 次自连贯操作,如果三元组的数量是千万、亿、十亿规模的话,不言而喻,这样的查问效率极低,根本不可行。

华为云常识图谱服务采纳的是业界支流的图数据库形式存储常识图谱,间接把数据或常识图谱以图的模式存储,能够十分高效地实现多跳关系、属性的查问。具体的,咱们应用华为云图引擎服务,包含图存储、图计算一体的架构设计,不仅能够提供高效的查问性能,同时也能够提供多种预置的图深度学习算法,应用起来十分不便,欢送大家前来试用。

图 8 华为云图引擎服务产品劣势

四、华为云常识计算案例介绍

中国石油基于华为云常识计算服务的常识建模、油气图谱构建、图谱存储、自然语言解决、机器学习等能力构建了业界首个油气常识计算平台。以油气勘探开发数据为根底,通过常识计算技术的利用,为油气勘探开发增储上产、降本增效提供智能辅助和决策。

图 9 油气常识计算的价值和意义

华为常识计算解决方案提供丰盛的常识利用,从解决企业痛点、晋升企业效率、提供知识化服务的角度全面赋能企业,体现了常识计算在各行业中的智能化价值,让各行业的企业能够疾速、低成本、高效率地治理,通过利用企业常识、实现知识化转型,开释知识化带来的红利,全面晋升企业在智能化时代的竞争力。

点击关注,第一工夫理解华为云陈腐技术~

退出移动版