乐趣区

关于知识图谱:讲坛实录知识图谱的探索与应用

01

常识图谱到底是什么?

语义网络是一种以网络格局表白人类常识结构的模式,是一种用实体及其语义关系来表白常识的有向图。而常识图谱是一种基于图的数据结构,是一种用图模型来形容常识和建模世界万物之间关联关系的大规模语义网络。

常识图谱以半结构化的模式形容主观世界中概念、实体及其关系。在常识图谱里,咱们通常用“实体”来表白图里的节点、用“关系”来表白图里的“边”。

常识图谱有模式层和数据层,左边这张图是模式层,形容的是实体类型(概念)之间的形象关系;右边这张图则是数据层。

人工智能分为三个阶段,从运算智能到感知智能,再到认知智能。

在上述三个阶段中,咱们正逐渐迈入第三个阶段,以后钻研的重心正在由感知智能畛域逐步过渡到认知智能畛域。

认知智能是人类特有的,建设在思考之上的智能。而思考建设在常识之上。AI 要从感知智能迈向认知智能,实质上常识是根底,有了常识根底,AI 能力造成推理机制。而常识图谱富含实体、属性、概念和事件,并从关系的角度将这些信息有机整合在一起。要害的是,它可能基于肯定的常识推理为 AI 的可解释性带来全新的一个视角。因而,常识图谱是认知智能底层的一种必要撑持。

02

常识图谱构建的根本流程有哪些?

常识图谱的根本构建流程有数据归集、常识抽取、常识交融、常识加工及常识利用。

数据归集:数据源不对立,对半结构化与非结构化数据须要进行数据抽取。针对构建常识图谱,咱们也须要设计底层的这种存储形式。

信息抽取:须要从各种类型的数据外面去提取实体、属性、实体之间的互相关系,在这个根底上造成一些成体系化常识。

其中,实体抽取会用到命名实体辨认技术,抽取时从数据集里自动识别命名实体。关系抽取次要是取得语义信息,以此获取实体之间的关联关系。而后应用面向凋谢域和面向关闭畛域的这种抽取办法来进行一个整体的联合,通过关系将实体之间分割起来,进而造成结构化的网状知识结构。属性抽取须要从不同信息源或者数据源里采集特定实体的属性信息。事件抽取个别从题目或者动作里抽取。

常识交融:获取新的常识后对常识进行整合,消除矛盾与歧义。实体对齐是将实体的各种名称进行对立对齐。指代消解是将文中的指代词与所指实体进行整合。

常识加工:知识库构建也称之为本体构建。通过实体并列的关系进行类似度计算,对关系进行抽取,进行实体的生成等等,最终造成一种概念或框架。品质评估是对常识的可信度进行量化,通过舍弃可信度低的常识来保障整个知识库的品质。常识推理次要是解决常识图谱之间关系值缺失一类的问题,通过基于逻辑的推理、基于图的推理、基于深度学习的推理来解决。常识更新包含模式层(知识库)的更新和数据层(数据存储)的更新。

常识存储:解决实现的常识须要存储,有两种存储形式。一种是通过资源形容框架 RDF 进行存储。还有一种是应用图数据库(咱们公司的 StellarDB)。当初罕用图数据库存储,因为常识图谱的网络可能波及到上亿的节点,有时甚至几十亿,传统的数据库难以胜任。而图数据库的存储、查问效率十分高。关联查问效率会比传统数据存储的形式要高得多。

03

常识图谱次要依赖什么技术?

在常识图谱落地过程中,最重要的是要教会计算机常识推理的过程,而其中就须要用到图计算这种重要的技术支持。

图计算算法次要包含遍历算法 (全盘拜访每一个节点)、社区发现 (用于计算社交网络中人际关系)、PageRank(源自搜索引擎,用于网页链接排序),以及最短门路算法 (解决图构造中距离问题),在常识图谱中次要利用遍历算法进行常识推理,以发现实体间暗藏的关系。

常识图谱实用于一些多元的、高维的、关系简单的场景。例如股票投研情报分析、公安情报分析、反欺诈情报分析、智能搜寻等。

04

Sophon KG 为企业级常识图谱落地带来便当

Sophon KG 是一站式常识图谱构建和剖析利用平台。为图谱模式定义(蕴含蓝图定义和本体定义)、常识抽取(从文本标注、模型训练到事件 - 实体 - 关系抽取)、常识交融(实体链接、实体合并)、常识存储和检索(对接星环自研的分布式图数据库 StellarDB、可扩大的分布式全文搜索引擎 Scope 和时空序列数据库 Spacture 等)、常识推理(基于 OWL 进行本体推理和基于图计算关联性推理)做全链路的撑持和治理。

Sophon KG 不仅反对零代码交互式图谱查问,还反对语义搜寻和举荐、基于图算法的模式发现(常识推理)、智能问答、情感剖析、时空剖析等性能,从而帮忙了解大数据,取得对大数据的洞察,提供决策反对。

Sophon KG 的产品架构如下:

05

Sophon KG 有哪些弱小性能?

1、零代码的图谱构建能力

2、交互式的图谱构建

3、交互式的查问,反对定向剖析、门路发现

4、弱小的图谱剖析能力,反对图谱比照、可视化统计、时序剖析

5、智能搜寻,反对单个实体和批量实体的疾速查问

6、文本标注组件 KG Anno,反对实体、关系和文本分类 3 种标注工作

7、全图摸索,提供 3D 大图展现

06

常识图谱的典型应用场景有哪些?

金融反洗钱场景

通过关联查问、可视化图剖析、图开掘、机器学习和规定引擎;反对关联关系数据的疾速检索、查找和浏览;开掘暗藏关系并模型化业务教训,帮忙金融机构的建设一个可继续、经济可行的反洗钱合规框架。

金融反欺诈场景

针对大量数据,通过筛选剖析单干关系、团体关系、投资关系、社团分类关系以及资产与负债等状况,辨认危险客户和危险团体,升高人力老本耗费并大幅晋升反欺诈能力。

金融风险传导场景

以公司为信用主体追踪其发行的债券标的,联合公司信批等内部舆情,发现并量化重大危险事件,并通过信用主体的参控股关系、投资关系、分子公司关系、担保关系、董监高关系等,实现债务信用传导,影响企业现金流变动,最终来判断信用主体兑付状况。

07

常识图谱的将来会走向何方?

常识图谱利用正经验暴发期,已由原先的语义常识图谱一直向行业细分常识图谱倒退,拓展出平安常识图谱、金融常识图谱等行业常识图谱,及风控、投研、营销等场景化的常识图谱。

据 Gartner 公布的 2020 年数据与剖析畛域的十大技术趋势示意,到 2022 年,常识图谱技术实现 100% 的快速增长,到 2023 年,常识图谱技术将促成寰球 30% 的企业机构决策过程的疾速情景化。置信将来,常识图谱将与深度学习等 AI 前沿技术相结合,除金融、营销等场景外,也对自然灾害和其余危机的辨认、预测和布局施展关键作用。

退出移动版