关于图数据库:中科大脑知识图谱平台建设及业务实践

48次阅读

共计 3178 个字符,预计需要花费 8 分钟才能阅读完成。

本文首发于 Nebula Graph Community 公众号

“为了反对城市简单场景下各类需要,中科大脑常识图谱团队设计开发了一套蕴含本体可视化设计、数据映射、数据抽取、数据写入、图数据摸索的一体化平台,而本文则具体介绍了他们的业务背景、技术选型、平台建设等内容。”

01 背景介绍

中科大脑作为一家城市级的数字资产运营商,一方面要对各种类型的数据进行高效存储,另一方面面临如何将各类数据充分利用的问题,传统 NoSQL、SQL 不能齐全满足数据的存储和利用,以图数据库为根底的常识图谱肯定水平上能够解决这些问题,常识图谱组件(KBU)是脑库城市大脑产品的核心部件。

中科大脑外部对常识图谱的需要,总体来说有以下 3 方面:

  1. 政务常识图谱,将政策法规、证件资料、事项流程、组织架构等信息纳入常识图谱。目前建设了面向公安户政、电子政务畛域事项办理常识图谱,针对不同的职能部门建设有不同的常识图谱,晋升了服务效率和品质。
  2. 资产设施治理图谱,对城市中大量公共设施、不动产、物联网设施等建设常识图谱,造成联动治理与运维。
  3. 事理常识图谱,对城市重大事件、突发事件、集中投诉事件等建设事理图谱,包含事件的工夫、地点、主体及热度等,发现事件间的关联关系和演变法则,提供决策反对。
    实际中,不同板块的常识图谱间并非齐全孤立,而是依据利用需要进行交融,充分发挥图谱的关系链接个性,将城市本体因素买通,实现联动,解决数据的关联存储和开掘。

02 图数据库选型

在数据高度结构化、一致性强场景下,个别抉择应用传统的关系型数据库;在数据具备宏大潜在关联场景下,图数据存储及基于此的常识图谱技术将会是正当的抉择。
调研中发现,与关系数据库或其余 NoSQL 数据库相比,图数据库的数据模型也更加简略,更具表现力。图数据库在社交网络、金融风控、个性化举荐、网络安全等畛域利用宽泛。
咱们在图数据库选型方面次要思考点:
1)功能齐全、性能弱小;2) 我的项目开源,反对灵便的二次开发;3)安全可靠,国产优先;

中科大脑早起进行了一些性能和性能比照,也参考美团、腾讯相干测评,从测试后果看 Nebula Graph 在数据导入、实时写入及多跳查问方面性能均优于竞品。此外,Nebula Graph 社区沉闷,对相干 issue 的响应速度快,所以团队最终抉择了基于 Nebula Graph 作为图数据库平台根底。

03 常识图谱构建平台

常识图谱构建包含业务规定制订、本体构建、常识抽取、常识交融、数据存储等流程,往往须要业务专家、工程、算法、项目管理等人员参加配合。有机整合以上环节和分工,将大大减少常识图谱落地速度,目前尚未有开源产品满足此需要。为了反对城市简单场景下各类需要,咱们设计开发了一套蕴含本体可视化设计、数据映射、数据抽取(结构化、非结构化)、数据写入、图数据摸索的一体化平台,平台构造如图。

  • 项目管理

常识图谱平台将不同畛域常识图谱作为我的项目单元,每个我的项目独立进行常识全流程构建与治理。我的项目中包含本体设计、数据映射、数据抽取,依照流程一步步进行(step-by-step),不同的阶段做到“术”、“业”专攻。平台实现了企业外部常识图谱构建的标准化和部门合作,缩小了不同阶段人员间的沟通老本、数据安全性问题,大大提高了效率。

  • 本体设计

常识图谱的建设不齐全是技术工作,在本体设计阶段,业务工作可能占据一半以上工作。业务专家往往又不理解常识 schema 设计,通常的流程是业务专家以非标准形式标记常识,带来了较多的返工,不同专家之间和专家与技术之间存在合作问题。针对这些痛点,构建平台借鉴开源我的项目实现本体的在线设计,反对多种格局(OWL、RDF、RDFS)的文件导入、导出,兼容性较好,经测试 OpenKG 中 90% 以上资源可间接接入。可视化的构建形式真正实现了以图构图。

  • 数据抽取

本体构建实现,对结构化数据,反对对 EXCEL、CSV 等关系型数据与本体建设映射,实现图数据的写入。对非结构化数据的图谱抽取,平台内置了模型服务进行三元组抽取。内置模型分为两种,第一种是基于开源数据集,如百度 DuIE 2.0,满足通用数据抽取,另一种从本身业务登程,设计模型。咱们设计了针对市民热线的事件及要害信息抽取模型,从图谱角度开掘市民热线不同函件间的关联关系,对事件抽取设计了联结抽取模型,联结抽取模型较管线式模型(pipeline)在时效和准确率上有较大晋升。

  • 图摸索

结构化数据导入和非构造数据化抽取后果将被写入到 Nebula Graph 数据库,图摸索能够不便地实现对写入常识的查问显示,同时能够通过常识搜寻框间接对点和边信息进行搜寻。构建者更加简略地实现了常识检索、摸索和聚合。产品性能要点:

  1. 常识展示,为了能对图谱有直观查阅,在图谱摸索阶段,退出了主动展现子图性能,相似 Neo4j 中 MATCH (n) RETURN n LIMIT 25),次要是通过简略算法发现图谱中心点,再由度数来管制从中心点登程的子图大小,同时避免了展现爆炸。
  2. 常识搜寻,反对点和边进行含糊匹配,更好地实现常识发现和举荐;
  3. 常识计算,内置轻量级图算法,能够对节点出入度、核心度、族群、类似节点类等进行计算。

为了满足本身产品利用,咱们基于 Nebula Graph、Elasticsearch、NetworkX 等底层接口,开发了一系列 API 利用接口,将来咱们 API 接口实现也将积极参与到开源中。

04 业务落地

  • 智能问答

围绕公安户政常识建设了畛域常识图谱,设计常识图谱问答(KBQA)零碎,反对多实体多跳(Multi-hop)匹配和推理。基于脑库常识图谱组件和脑库时空构建组件将空间和非空间数据联合,实现空间推理,市民可能会征询,“能够办理出国签证的机构都在哪儿?”通过常识图谱语义问答和 GIS 的联合,将地位和相应的属性精准返回,实现常识和地图的可拜访及互操作,为城市服务提供便捷。

  • 常识领导与决策

城市常识图谱笼罩设施(Device)、承载物(Thing)、治理(Manage)、事件(Event)、畛域(Field)和规定(Rule)等概念,根本形成了城市各畛域常识底座,用于解决城市服务和城市治理问题。例如当产生占用消防车道事件,消防通道传感器(Device)的性能(Function)记录相干信息,服务(Service)将记录占用者信息并给予报警,将占用车车牌等信息反馈给案件管理者,管理者再依据地址区域(Area)、规章(Rule)等信息对违章停车事件疾速干涉解决。相干构建和利用钻研办法被 CCKS2021 收录。

  • 常识流程举荐

在城市大脑个性化举荐中,以‘我’为核心整合服务资源并进行个性化定制,通过常识图谱剖析用户行为习惯和环境信息,应用图嵌入、图路径分析、社区发现算法等办法,智能推送用户关注度高、关联性强的信息,被动提供服务。
对于市民,在案件办理时,主动收到个性化举荐,如类似案例办理教训、可选门路、办件脚印及相干资讯等;对于城市治理者,在案件派发和类似案件举荐中,采纳常识图谱和业余畛域常识图谱相结合对历史信息和案件行为剖析。利用常识交融、子图空间、常识推理等办法,对于案件的派发和举荐提供更准确的剖析和分类,并推理出相应的派发法计划和类似关系,进步了城市大脑的智慧服务水平和效率。

05 单干 & 将来

目前公司脑库与图数据库 Nebula Graph 实现了互操作性测试认证,技术人员积极参与开源社区我的项目,通过了常识图谱专家级认证(NGCP)。将来咱们继续反对国产数据库,为社区踊跃奉献代码。

平台方面在构建阶段,将内置图嵌入、图学习、GNN 等图算法、优化大规模图算法性能,实现构建与利用一体化平台,为数字资产的深层次开掘和智能化利用赋能。

以上为中科大脑常识图谱开发小组带来的常识图谱平台建设和业务实际方面的分享。


交换图数据库技术?退出 Nebula 交换群请先填写下你的 Nebula 名片,Nebula 小助手会拉你进群~~

正文完
 0