关于数据库:基于图数据库构建知识图谱平台应用实践

5次阅读

共计 2676 个字符,预计需要花费 7 分钟才能阅读完成。

▏摘要中信证券基于分布式图数据库 StellarDB,代替国外开源图数据库产品,打造全新的企业级常识图谱平台,利用于同一客户团体画像、科创板关联发现、危险事件报告、寰球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等利用场景。▏问题过来,中信证券基于 Neo4j 社区版构建各类图数据库利用,但社区版存在不反对多实例需要、计算资源限度及不满足高可用、不足对立治理需要等问题。▏口头• 2021 年为了满足企业级利用,中信证券基于星环科技分布式图数据库 StellarDB 和常识图谱平台 SophonKG,打造了全新的企业级常识图谱平台,常识图谱平台的图存储技术为自研 KV 存储,存储设计依照属性图模型设计,满足 TB 级存储需要;2023 年 5 月,中信证券实现常识图谱平台的扩容,并基于 StellarDB 5.0 进行架构降级;• 基于常识图谱平台,中信证券构建了同一客户团体画像、科创板关联发现、危险事件报告、寰球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等十余个利用。▏后果• 中信证券常识图谱平台实现了一站式运维治理、调度治理和权限治理等,满足高可用要求要求,性能晋升数倍,在金控报送方面节省时间老本约 30%。分享专家:陈辉华,中信证券高级副总裁作者:沙丘社区分析师团队案例企业

中信证券股份有限公司成立于 1995 年 10 月,2003 年在上海证券交易所挂牌上市交易,2011 年在香港联结交易所挂牌上市交易,是中国第一家 A + H 股上市的证券公司,率属于中国中信集团有限公司。中信证券目前领有 7 家次要一级控股子公司,分支机构遍布寰球 13 个国家,中国境内分支机构和网点 400 余家。中信证券规模劣势显著,是国内首家资产规模冲破万亿元的证券公司。次要财务指标间断十余年放弃行业第一,各项业务放弃市场领先地位,多年来取得亚洲货币、英国金融时报、福布斯、沪深证券交易所等境内外机构颁发的各类奖项。我的项目背景

2018 年,中信证券基于 Neo4j 社区版构建各类图数据库利用,但社区版存在不反对多实例需要、计算资源限度及不满足高可用、不足对立治理需要等问题。

2021 年,随着利用激增,为了满足企业级的建设须要,中信证券基于星环科技分布式图数据库 StellarDB 和常识图谱平台 SophonKG,打造了全新的企业级常识图谱平台,常识图谱平台的图存储技术为自研 KV 存储,存储设计依照属性图模型设计,满足 TB 级存储需要。在图数据库服务的顶层,还提供了丰盛的接口,如 Java、Python、RESTful API 等,不便自定义开发,重构了企业图谱及团体客户画像、危险事件报告、科创版关联发现以及联机剖析等十余个利用。2023 年 6 月,中信证券实现了常识图谱平台的扩容,并基于 StellarDB 5.0 进行了架构降级。解决方案为搭建图谱独特的 HTAP 架构,实现对立图存储服务和多套计算引擎资源物理隔离,满足图计算和图查问工作的不同资源须要;在集群中部署 1 套图存储服务和 3 套 Quark 计算引擎服务,多个 Quark 之间能够共享元信息。构建一种基于图构造数据的端到端全流程图机器学习框架,其底层与图数据库严密对接,以实现高效的数据读写和查问过滤等预处理工作的下推。解决方案

基于星环科技分布式图数据库 StellarDB 和常识图谱平台 SophonKG,中信证券常识图谱平台实现计划如下:星环科技分布式图数据库 StellarDB 提供大数据处理能力和通用组件能力,反对平台内一站式运维治理;常识图谱平台为星环科技知识图谱平台 SophonKG,提供图谱构建、图谱交融、图谱查问、可视化以及图谱计算、图谱分享等能力。

常识图谱平台业务性能特点如下:第一,多模查问和存储。应用对立的 Quark 计算引擎,SQL 联合图语言 Cypher 的多模查询语言,能够实现多模查问;反对 hive、文本文件、图模型等多模态存储。第二,多场景利用。常识图谱平台撑持 10 余个上游利用;SophonKG 提供自助剖析平台,反对业务自助摸索图谱;提供图机器学习能力,利用于 ETF 举荐和场外配资等场景。第三,高性能。星环科技在计算引擎侧引入 local+cluster 混合计算模式策略,自若应答实时和离线剖析;原生分布式图数据库,领有解决百亿级图数据的能力;搭建 HTAP 架构,AP 算法工作和 TP 查问工作拆散。第四,高可用。采纳多节点 HA 形式,提供高可用服务;应用 Raft 协定,提供秒级正本切换服务;通过 Kubenetes 实现故障主动复原;依据 DAG 执行打算,重试失落 / 出错工作。

常识图谱平台的利用场景如下:(1)同一客户团体画像中信证券采纳 Louvain 社区发现算法,开掘团体簇,最初在各自团体簇内企业,沿关系向上获取归属团体,联合风控提出的个性化需要,例如银行不再上穿、集体团体认定等,数据库提供丰盛的 Cypher 简单逻辑的解决能力。

(2)科创板关联发现策略投资者持有科创版股票不容许做融券卖出,中信证券通过最短路径分析(不限定方向不定长查问,去掉任职关系),查看两者的利益关联关系。

(3)危险事件报告基于统计维度(持仓、衍生品标的、客户)和业务条线(自有资金业务、资管业务、经纪业务、投行业务、托管业务),中信证券框定 11 种角色。通过舆情平台监控危险事件,当产生危险事件时,通过客户谱系找到成员企业及其持仓,主动通过邮件输入报告发送给业务方及领导进行实时监控。

(4)寰球企业关联图谱将境外企业输入与境内企业交融,外围节点是企业、员工、关系人、产品、营收、行业、金融产品,共包含 19 种关系、3 亿实体、4 亿关系。

(5)产业链图谱将第三方产业链数据加载到图谱中,为公司客户经理提供产业链服务,直观展现已开发、已服务、待开发的客户,帮忙客户经理开掘商机。

(6)投研图谱从部委的政策源登程,通过 NLP 技术提取每条政策的外围观点和行业板块等,同时联合新闻舆情源的信息,对二者进行匹配和召回,计算政策影响因子值,通过产业链流传算法失去流传系数,联合图流传算法找到个股因子,回测成果绝对收益达到 25%。

(7)反洗钱与稽核图谱通过对连通子图的开掘,合规人员能够从高风险人员登程,找出潜在可疑团伙。

(8)元数据图谱多跳(8+)的数据血统 neo4j 社区版查问不出后果,基于 StellarDB 弱小的多跳计算能力和改良的 expand 算法,实现 15 跳内的数据血统(溯源和影响性剖析)。

价值与成果

中信证券常识图谱平台实现了一站式运维治理、调度治理和权限治理等,满足高可用要求要求,性能也晋升了数倍,在金控报送方面节省时间老本约 30%,目前成绩在公司内广泛应用。

正文完
 0