关于知识图谱:企业如何通过图数据库及知识图谱形成业务壁垒

43次阅读

共计 3303 个字符,预计需要花费 9 分钟才能阅读完成。

随着业务数据量级猛增、业务数据类型更加多样化、业务复杂程度的激增,传统的关系型数据库早已无奈反映企业业务状况的全貌,对于剖析对象之间的关系洞察也透出了能力瓶颈。在这样的大背景下,企业对图数据库的需要应运而生。

区别于传统的关系型数据库,图数据库以实体为点,点与点的关联关系为边,对数据进行存储。企业开始应用原生图存储的模式存储多样化的数据,是心愿可能应用图的计算模式来对实体间盘根错节的关系疾速造成深刻洞察,从而积淀成企业智慧,进一步晋升业务的智能化程度,升高现有昂扬的人力老本,解决以往的人力决策难以跟上业务数据倒退的问题。

以大数据能力为松软底座

图数据库 +TDH 计算引擎实现优异的性能体现

目前市面上的开源图数据库较实用于个人用户,对于企业用户而言,图数据个别来源于已有的大数据系统,随着数据量的增长和业务模型逐步简单,开源图数据库既无奈接受大规模图存储和计算,也无奈融入大数据生态,徒增零碎复杂程度。

基于此痛点,星环科技自主研发了分布式图数据库 StellarDB,以分布式的计算引擎为能源,可帮忙用户实现任意数据规模的图计算,且计算能力随节点数线性扩大,能够撑持万亿级别图规模存储。除了反对大规模的数据集外,StellarDB 还具备深度的图剖析能力,反对 10 层以上的深度简单图遍历。

星环图数据库 StellarDB 为大数据平台提供了良好的兼容服务,能够疾速接入已有的大数据平台。

图 1 星环科技分布式图数据库 StellarDB

StellarDB 的查问性能和图算法能力曾经达到行业领先水平。本次测试采纳了公开数据集 twitter-2010,其点边规模别离为四千万和十四亿。比照图数据库别离为:StellarDB 3.0.12,Neo4j 4.3.3,ArangoDB 3.7.11,以及 JanusGraph 0.5.2。本次比拟的内容包含:数据导入测试、多度查问测试、多度最短门路测试,以及图算法测试。

最终后果如图 2 所示,横坐标示意耗时的倍数,以 StellarDB 的运行时长为基准,设定为 1,柱越长代表查问或导入工作耗时越久,无柱状示意超过 2h 无后果返回或呈现 OOM 报错。

咱们首先来看数据导入速度,StellarDB 在面对十亿边数据量集的导入速度在 15 分钟左右,其余开源数据库的导入工夫在近半小时级至半天级不等。咱们接下来对 2 度及 3 度查问进行比拟,能够看到在 4 次查问工作当中,StellarDB 均有较好的性能体现:2 度街坊查问的性能别离为其余产品的 5 -20 倍不等;2 度最短门路查问甚至达到 1~40 倍不等;3 度最短门路查问达到 1.4 倍;而在 3 层街坊查问工作中,StellarDB 能在亚分钟级查问出 4.3 亿条后果,而 ArangoDB 在 4 项查问工作中均超时。在图算法方面,StellarDB 的 PageRank 后果返回速度也超其余返回后果速度 2 倍以上。

可见,面对国外厂商 Neo4j 善于的小数据量短查问场景,StellarDB 在大图 2 度街坊查问中体现出了 5 倍的较大劣势,并疾速查问出 Neo4j 无奈返回的 3 度街坊查问。可见 StellarDB 对于海量的大图数据集有显著的性能劣势,且随着层数的增大,对多度及最短门路的查问劣势更加显著,而其余图数据库往往会产生报错、无奈返回后果等状况。

图 2 StellarDB 性能测试耗时比照图

在应用便捷性方面,StellarDB 内置了近 20 种常见的图算法,可满足用户各类图剖析需要,并且反对 2D/3D 的全景剖析及展示,利用可视化技术帮忙用户疾速获取数据基于关联性的深度洞察。同时,StellarDB 能够满足实时图查问和离线算法剖析的需要,无需学习特定的编程语言,只需基于支流的 openCypher 图形查询语言,即可实现简单的查问工作。在某些金融场景,用户甚至无需输出图形查询语言,应用自然语言即可进行疾速检索。

老本方面,StellarDB 采纳了多种数据编码和压缩策略,无效升高海量图数据对于存储资源的需要。相较于开源图数据库,StellarDB 可应用更少的节点实现更快的查问。跑在更少的服务器资源上,可极大升高用户的洽购、运维、空间及能耗老本及开销,以满足企业“碳达峰”、“碳中和”的需要。

企业级性能方面,StellarDB 具备残缺的企业级性能,为企业客户设计了多维度的权限管制模型,反对图级别、标签级别、属性级别三层权限设置;提供了数据加密和配置掩码规定,保障敏感数据的安全性;提供增量和全量数据备份,以及在线跨集群数据恢复,帮助客户保障集群数据完整性;提供平安认证和访问控制,反对 Kerberos 和 LDAP 登陆和受权。

产品资质方面,StellarDB 具备自主知识产权,且已取得图数据库根底能力专项测评证书,可与国产的操作系统和硬件平台兼容。

辅以 KG 等 AI 驱动的利用开发工具

实现金融风控全链路撑持

基于图数据库,用户能够在下层开发通用或行业常识图谱,将企业的业务规定、决策智慧积淀下来,并赋能搜索引擎、举荐零碎、实时危险预警等利用零碎,实现团体的数字化转型。

以金融监管机构为例,可实现团体派别常识图谱、产业链常识图谱、担保链常识图谱、反洗钱常识图谱等的构建;以银行为例,星环科技能够帮忙用户构建企业治理关系图谱、小微企业危险事件图谱、社交画像常识图谱、供应链常识图谱,从而实现贷后资金穿透治理和危险传递预估;投资图谱方面,星环科技可帮忙证券、基金、期货企业构建智能投研常识图谱、FOF 投研常识图谱、大宗商品常识图谱等,可实现舆情事件的实时接入、危险事件的实时预警及危险传导的可视化。

除以上利用外,图数据库及常识图谱技术也大量利用于可疑团伙发现、产品或服务的精准举荐、社交网络分析、疫情溯源与防控等畛域。

图 3 星环科技 Sophon KG 的企业常识图谱界面

星环科技提供用户

从点到线再到面的平面智能剖析能力

星环科技为用户串联起了从底层的关系型数据库、大数据平台到中层的图数据库,再到下层常识图谱利用的全栈产品,实现了从最底层独立的“点”剖析到关系的“线”剖析再到事件的“面”剖析,最终造成行业全面的“体”剖析的全栈智能剖析赋能。从点到面再到体的一站式剖析工具提供,能够搭建严密相扣的工作流链路,对于用户而言,可能大量节俭开发成本和根底算力,显著晋升剖析性能。

开展来讲:

(1)“点”:传统数据分析是利用关系型数据库或不含图数据库的 OLAP 大数据平台,针对单个实体或属性进行统计分析或机器学习建模,它只能解决单个或多个独立“点”的信息。

(2)“线”:而当用户想基于点和点之间的关系进行多层关联关系剖析时,关系型数据库会遇到多表 join 的挑战而无奈返回后果。此时应用分布式的图数据库即可在疾速返回海量的大图剖析后果,实现对“线”的剖析。

(3)“面”:当盘根错节的线造成一个网络时,咱们须要应用属性图、图建模的技术来对简单网络进行剖析,如提取网络中的特色或模式,并固化这些模式和常识,泛化至业务零碎当中,造成企业的常识资产。

(4)“体”:最初,当遇到多层次、多维度的网络时,有异构图剖析能力的常识图谱能够帮忙企业造成语义网络,比方说将企业上下游、舆情信息等多源异构的网络进行整体剖析,造成对某一标的的价格走势预判,最终实现对“体”的剖析。

图 4 星环科技从“点”到“面”的平面智能剖析能力

星环科技从点至面的平面智能剖析计划,其底层除反对 TDH 极速大数据平台外,利用联邦计算技术可集成多个异构数据源、跨平台的数据领有方,做到在不间接进行数据交换的前提下,取得整体数据的计算结果。此外,基于多模型的大数据技术架构,可通过 8 种独立的存储引擎反对业界支流的 10 种存储模型,对于用户来说,可对关系型数据、文本数据、天文空间数据、图数据、时序数据等进行对立的存储、查问计算和交融剖析。

咱们置信,图数据库作为 Gartner 公布的 2021 数据分析十大技术之一,将以极大的潜能开掘海量数据的有限价值,并辅以常识图谱等 AI 驱动的开发工具,从图计算及图模式摸索中一直积淀新的业务规定,实时赋能下层业务。随着图计算和解决技术的一直遍及,企业能通过把握从“点”到“线”至“面”的平面智能剖析能力,一直积攒常识和业务深层法则,最终形成企业松软的业务壁垒。

正文完
 0