关于数据库:化繁为简数字化推动企业数据库升级焕新-爱分析报告

67次阅读

共计 18523 个字符,预计需要花费 47 分钟才能阅读完成。

 

报告编委

黄勇 
爱剖析合伙人 & 首席分析师
洪逸群
爱剖析高级分析师

张良筠
爱剖析分析师

内部专家(按姓氏拼音排序)
李远志
柏睿数据 副总裁

谢寅
镜舟科技 资深解决方案架构师

许哲
中信建投证券 数据组 VP

姚延栋
YMatrix 创始人&CEO

张晨
创邻科技 CEO

特地鸣谢(按拼音排序)

报告摘要
随着近几年整个产业数字化过程的深刻,数据库的利用场景变得更多、更简单,导致数据库须要应答相比以往急剧增长的数据规模,解决更加多样的数据类型,以及具备更加简单的场景化能力。
因而,近年来,高性能、非关系型数据反对、简化应用和运维,场景化解决方案等能力成为企业应用数据库的要害考量因素,多种新一代的数据库也逐步在企业中落地。
剖析型数据库开释业务数据潜在价值
剖析型数据库作为数据基础设施的外围,须要提供高效的数据查问和计算服务撑持业务运行。然而企业现有的大数据引擎逐步暴露出了即席查问不够麻利、大数据量高并发响应慢、固定报表运算效率低下的性能缺点。此外,多数据源存储系统的扩散独立使得数据联通查问剖析遇到困难。
针对现有数据分析引擎的性能缺点和多数据源无奈联通的问题,剖析型数据库着重晋升了即席查问、大规模数据高并发查问、固定报表运算效率,并且提供联邦的性能反对跨多数据源进行查问和剖析,突破了企业数据孤岛,开释业务数据价值。
图数据库助力开掘数据关联关系
在进行业务数据分析时,辨认数据间的关联并对其特点进行钻研是一项重要的工作,例如在社交网络、金融风控、营销等场景都须要从海量数据中发掘出单体之间的暗藏关系。但因为传统的关系型数据库对关联关系的查问能力无限,以及相干剖析工具和解决方案的缺失,关联关系的开掘成为企业面临的难题。
图剖析解决方案为了应答企业在数据关系摸索上的难题,利用图数据库的存储和关系计算能力,反对用户应用图算法对海量数据进行开掘并对其关系特点进行剖析。此外,常识图谱平台具备图谱构建和常识推理计算能力,将图的关联关系转化为常识,实现业务洞察。
超交融数据库撑持企业多元化业务疾速倒退
中大型企业在简单多样的业务场景中积淀了海量数据,而且因为业务继续扩张增长的趋势,企业须要不断加强数字化基座的能力来匹配海量数据规模和业务倒退速度。然而企业现有的的数据库承载数据类型无限并且性能体现有余,难以满足企业对数据库服务的需要。
为了解决在业务疾速倒退过程中遇到的承载数据类型限度和性能体现欠佳的问题,超交融数据库部署了针对不同数据类型的专有引擎,技术架构的繁难化不会为企业减少过多的运维治理老本。同时,超交融数据库具备与常见的专用数据库或大数据引擎等同或更好的性能体现。
目录

  1. 报告综述
  2. 剖析型数据库
  3. 图数据库
  4. 超交融数据库
  5. 结语
    1.   报告综述

作为承载各类数据存储和解决需要的基础设施,数据库在企业数字化转型的过程中起到了要害的撑持作用。但随着近几年产业数字化过程的深刻,数据库的利用场景比以往更多、更简单,导致数据库须要应答以下几点要害变动和挑战。
首先,企业内的数据规模在急剧增长。无论是企业寻求通过数字化转型实现数据驱动业务决策,还是一些新兴行业企业业务的疾速扩张,都让企业的数据量从原先的几十 TB,迅速增长至几百 TB,甚至是 PB 级。然而传统的数据库在性能方面,很难应答如此大规模数据量的查问剖析。
其次,企业须要存储和解决的数据类型变得更多样。关系型数据占主导地位的时代曾经过来,当初,企业在很多新兴利用场景中为了进步数据存储和剖析效率,采纳了新的数据模型。例如,营销、风控中用于关联关系剖析的图数据,制造业中用于记录生产过程的时序数据,以及文档、健值、GIS 等各种数据模型。如何解决多种类型数据,成为企业在数据库层面须要首先解决的问题。
最初,企业越来越须要数据库具备场景化的解决方案。通常,企业曾经建有肯定的数据基础设施,且不同行业企业的数据利用场景往往有一些特殊要求,为了缩小数据迁徙和加载,并减速数据分析,企业须要数据库具备相应场景化的性能和解决方案。例如,在大数据量固定报表场景,企业须要数据库具备预计算能力;在企业有多套业务零碎须要联结剖析的场景,企业须要数据库具备联邦查问能力;在工业企业须要一直收集数据做预测性保护的场景,企业须要数据库具备库内机器学习的能力。
图 1:数据库利用面临的三大挑战

面对这些变动和挑战,数据库业内始终在降级或推出新的数据库产品,以满足企业的需要。为了晋升数据库性能,企业能够采纳基于分布式、内存存储,以及多种技术优化的新一代数据库;为了解决多种类型数据,企业能够抉择各种专用数据库,如图数据库、时序数据库、搜索引擎等,而当企业部署了多套数据库系统,运维难度大,且又须要做联结剖析时,在内核层交融多类型数据处理能力的超交融数据库,则是最佳抉择;为了实现场景解决方案,具备预计算、联邦查问、库内机器学习等其中一种或多种能力的数据库,逐步成为企业重点关注的因素。
为了帮忙企业更好地了解如何利用适合的数据库解决企业面临的这些广泛问题,本报告选取了剖析型数据库、图数据库和超交融数据库市场的 4 个典型的数据库利用案例,对每个案例中的企业需要、解决方案和落地成果进行详细分析,并总结提炼案例背地体现的共性价值。
2.   剖析型数据库
2.1 剖析型数据库多方位优化性能,高效提供数据服务
在数字化转型的驱动下,各行业均呈现出数据量爆发式增长、数据利用场景多样化拓展的趋势。面对海量数据,如何从中发掘出无效信息来反对决策,成为企业业务运行和实现转型增长的要害。剖析型数据库作为数据基础设施的外围,不仅要为各零碎输送数据查问和剖析的能力,而且要保障本身服务的高效性来满足及时用数的需要。
然而,在业务场景一直拓展、数据规模持续增长的压力下,企业传统应用的查问剖析引擎性能体现严重不足,无奈反对实时业务决策,具体表现在:

     即席查问不够麻利。在企业进行决策时,数据分析作为理解业务运行状况的重要伎俩之一,须要通过多表关联、自由组合查问条件的形式对多维度指标进行上卷和下钻探查。然而传统的剖析引擎在大数据量、简单查问的场景下逐步无奈实用,会呈现响应慢,甚至无奈获取查问后果的问题,不可能很好地反对数据聚合计算、明细查问等需要;
     大数据量、高并发申请响应慢。随着数据查问和剖析的需要逐步向业务端推动,业务人员也经常须要进行日常查问操作来撑持实时决策。然而大型企业通常业务人员泛滥,未免带来同工夫下多点并发查问的申请,对数据库造成性能压力,引起响应延时的问题;
     固定报表运算效率低下。除了自助剖析之外,企业还须要通过固定报表理解要害指标的动静和趋势。固定报表通常由多个 SQL 组成,波及数据量大且计算维度多,容易造成数据库计算效率低下的问题。

针对现有数据库在性能上的欠缺,剖析型数据库厂商着重晋升了即席查问、大规模数据高并发执行、固定报表等方面的性能来满足企业用数需要。具体从以下方面着手解决问题:
图 2: 优化剖析型数据库性能减速服务响应

     优化在大数据量、多表关联简单计算的能力。剖析型数据库通过具备高效数据存取的全内存架构、查问索引优化、多表连贯优化等伎俩晋升数据吞吐量和查问计算效率,缩小业务决策的进展等待时间;
     晋升数据吞吐量、工作执行并发度。为了满足大数据量、高并发的数据查问申请,剖析型数据库通常采纳分布式部署,利用大规模并行执行架构的劣势,配合平衡调配节点负载等伎俩晋升数据吞吐量,使数 据库具备多任务并发能力;
     引入预计算减速固定查问。在固定报表的场景下,剖析型数据库能够引入预计算能力,利用构建物化视图的形式复用常见查问,减速简单 SQL 计算能力。

2.2 高效联通多数据系统,联邦查问跨源提供数据查问
随着数据起源的拓展,以及数据存储系统绝对独立,企业难以将多数据源进行买通,造成数据联通查问剖析艰难的问题。当剖析人员须要联合其余业务数据或站在全局视角进行决策时,会遇到零碎间数据流转不畅、数据加工繁琐、用数口径不统一等问题,难以保障决策的准确性。
此外,Hadoop 大数据解决方案须要大量数据搬迁,将多源数据整合成内表进行对立查问,企业在曾经具备成熟的大数据存储引擎的状况下通常进行大规模数据迁徙的老本会很高。
图 3:联邦性能跨多数据源查问

针对企业多数据源的状况,一些剖析型数据库提供联邦查问的性能,反对查问多源数据。表面联邦查问性能通过只保留表对应的元数据,并间接向所在数据源发动查问,避开了数据迁徙工作,并且实现了数据层面的整合剖析。
同时,表面联邦查问性能反对包含 MySQL、Elasticsearch、Hive、Iceberg 在内的多个第三方数据源,并且能够满足用户对不同维度、不同层面聚合或明细查问的多样需要。
 

案例 1:某国有商业银行构建实时交互式数据分析平台,高效助力普惠金融业务
在银行数字化转型的过程中,客户剖析和精细化治理至关重要。在普惠金融业务中,如何对下沉的海量客户建设数字普惠全景视图,实现经营情况及资产品质剖析、客户剖析、产品剖析、营销剖析等交互式数据分析能力,对于银行普惠金融业务的发展起到了要害撑持作用。
某国有大型商业银行充分利用征信、工商、征税、电力、司法、结算、供应链、政务、洽购平台、贷款信息等行内外数据,将危险指标融入客户多维画像信息,建设普惠金融营销、准入、信用评估、授信、定价、贷后监测预警、催收等分析模型,实现要害业务指标实时报送,提供交互式数据分析。该平台对底层数据基础设施的实时性、高并发、稳定性和可用性等能力都提出了更高的要求。具体而言,须要解决以下需要:
1)海量异构数据的实时查问。面对多样简单的客户画像数据,数据库作为撑持业务用户日常在线应用的零碎,须要可能执行行内超过 200 个以上标签动静组合以及 5 张表以上任意条件筛选和组合的简单查问,达到秒级响应工夫;
2)撑持高并发业务查问场景。该银行总共有 5 万多位客户经理提供日常对公和对私的业务服务,会未免呈现同工夫下的多点数据查问需要。因而,数据库要可能在高并发场景下及时响应来满足精准营销和信贷风控的业务须要;
3)可能稳固牢靠地对外提供数据服务,满足零碎可用性级别要求。金融行业对数据一致性、零碎的 RPO 和 RTO 指标、多数据中心等方面有严苛的要求,要保证数据不错不漏、故障无损疾速切换,提供多数据中心备灾措施等。
基于分布式全内存数据库 RapidsDB 构建数据分析平台
为了满足以上性能及业务需要,该银行将借助分布式内存计算技术晋升数据库剖析性能,作为重点考查方向。柏睿数据分布式全内存数据库 RapidsDB 在疾速部署、集群弹性、性能线性扩大、宽泛兼容、异构数据反对、海量数据计算等多方面取得行方的高度肯定,从而在行方同类数据库产品选型中怀才不遇。
柏睿数据成立于 2014 年,是一家以数据库为外围的“Data+AI〞数据智能根底软件公司,国内首家因冲破数据库核心技术而取得国家级专精特新“小伟人”名称的民营企业。柏睿数据作为国内把握全内存数据库引擎要害专利的企业,基于齐全自主研发的全内存分布式数据库产品体系和人工智能产品体系,打造软硬一体化智能数据处理平台,其产品在算力性能、智能化、安全性、标准化等要害技术指标上均业界当先,已为金融、政务、能源、通信、医疗等泛滥行业标杆客户提供原创性数字化转型技术产品服务。
图 4: 基于分布式全内存数据库 RapidsDB 构建的实时交互式数据分析平台

柏睿分布式全内存数据库 RapidsDB 在该行的普惠金融业务场景中代替了原有的“Oracle + ElasticSearch”简单技术栈,实现极速性能晋升,而且保障了金融级别的稳固牢靠和高可用性。
为了解决海量用户数据实时查问的性能问题,RapidsDB 采纳全内存架构避开了磁盘拜访 I /O,达到更快的查问速度;在多表关联场景下,柏睿通过动静查问优化、索引应用优化、join 连贯优化实现了多表关联场景中更强的性能体现,达到简单查问的即时响应能力。
为了撑持上万名业务经理高并发的查问需要。RapidsDB 采纳分布式架构,通过动静扩大应答工作执行量的增长,并且配合查问优化器平衡调配节点负载。同时,RapidsDB 通过数据结构无锁化实现了最大水平的并发能力。
针对金融级数据可靠性和可用性的要求,首先,RapidsDB 在内存存储之外还通过事务日志和定期快照一直地将数据备份到磁盘,实现数据库内存与长久化存储,如 Flash、SSD、HD 等,协同工作来确保数据无失落危险。其次,在集群外部可用性方面,数据节点通过成对的配置在彼此之间共享数据正本,保持数据实时同步。主备节点均可对外提供服务,如果呈现任何叶的故障,RapidsDB 将主动切换正本分区。在节点呈现故障的状况下,RapidsDB 通过将适当的正本分区降级为主分区来转移节点故障,以便数据库放弃在线。在满足集群内高可用的根底上,RapidsDB 还实现了跨机房数据和零碎服务的高可用,反对“同城双核心”、“两地三核心”、“三地五核心”等金融级别的灾备计划,在零碎自身产生故障、应用层报错、网络谬误、人为谬误等情景下,数据库系统均能保障良好的高可用性。
基于 RapidsDB 数据库的数据分析平台落地后的价值与成果
第一,通过 RapidsDB 在大规模异构数据场景下的高性能体现,满足了该银行对多表关联简单查问的需要。实现了 1100 亿行数据、40TB 大数据量下的实时查问,反对前端 SQL 条件灵便组合、最多 15 个表 join 的多表简单查问。
第二,RapidsDB 撑持了全银行 5 万名客户经理的日常查问服务,具备典型状况下上百个并发查问和极其状况下 4000 多个并发查问的能力,可能充沛应答业务多点并发的读取申请,达到均匀 3.6 秒的响应工夫。
第三,RapidsDB 可能稳固牢靠地运行,提供 99.999% 高可用的数据服务,满足金融行业对数据库的严苛要求,无效撑持了该银行普惠金融业务的疾速倒退。
我的项目经验总结
该银行的数据分析平台胜利上线以来,柏睿数据 RapidsDB 分布式全内存数据库展示了杰出的性能和稳定性来撑持该银行普惠金融业务的转型降级。该项目标胜利落地为同类型业务或者类似规模的企业提供了以下剖析型数据库的应用倡议:
1)在相似普惠金融领有海量多元化数据积淀,并且要求高实时性查问的业务场景中,全内存数据库因为运行时不须要将数据同步到物理磁盘,从而防止了磁盘 I / O 限度对系统性能的影响并且缩小了系统维护的工作量,所以被该类型业务场景所青眼。因而,对于数据存取效率要求较高的零碎,全内存数据库能够比次要利用磁盘存取的数据库施展更大的性能作用。
2)在相似国有银行员工数量泛滥、外部组织架构简单的大型企业中,通常有大量业务人员同时进行日常查问操作来保障业务失常运行。因而,剖析型数据库须要具备分布式相干技术,通过动静扩大和均衡分配任务量反对多点并发的工作申请,保障同一时间下查问的及时响应。

 

案例 2:中信建投基于剖析型数据库构建对立查问服务平台,满足企业大规模用数需要
中信建投证券(简称“中信建投”)是经中国证监会批准设立的全国性大型综合证券公司,其在企业融资、收买合并、证券经纪、资产治理、股票及衍生品交易等畛域造成了本身特色和外围业务劣势,并搭建了钻研征询、信息技术、经营治理、风险管理、合规治理等业余高效的业务反对体系。目前,中信建投领有超过 1,000 万证券经纪业务客户,托管证券市值超过 5.5 万亿元,位居行业第 2 名。
近年来,在证券服务逐步互联网化,以及券商牌照红利逐步消退的行业背景下,中信建投一直加大对数字化的投入,尤其器重数据基础设施的建设,冀望在客户服务、经营治理等多方面由教训依赖向数据驱动转变,从而进步服务水平和决策效率。因而,在公司总部和各分支机构,包含经纪、资管、投行等业务部门,以及稽核、审计、财务、法务等职能部门,对自助剖析、多维分析、固定报表和 API 数据服务等模式的用数需要始终在一直增长。
为了推动整体数字化建设和数据治理工作,中信建投曾经在 2019 年搭建了基于 Hadoop 体系的数据湖,将大量历史数据迁徙到 Hadoop 上,用 Hive 对数据进行加工解决,所有的查问计算都通过 Presto 执行。然而,该计划在最近两年数据量快速增长、业务场景多样化倒退的趋势下逐步无奈实用。具体而言,中信建投目前在数据查问剖析中次要存在以下痛点和需要:
1) 数据加工链路简单。在数据分析的流程上,数据部门通常是首先用 presto 做即席查问,再通过 Hive 进行数据加工,最初将加工过后的数据下发到各部门的 Oracle 或 MySQL 事务型数据库,业务人员在事务数据库里对下发数据进行查问和剖析。整个过程须要在三套零碎之间进行数据交换,且三套零碎应用的 SQL 语法也不统一,须要不同人员进行开发保护,从而产生了多种问题:

数据开发和保护老本高;
数据口径可能不统一,导致数据利用后果不精确;
用数需要难以失去及时满足,通常要“T+1”能力给到数据报表。

2) 大数据量下性能有余,查问响应慢。中信建投目前大部分的数据都存储在 Hive 中,业务部门在进行自助剖析时通常波及的相干数据量较大,而 Presto 在大数据量、多表关联查问时会呈现响应比较慢,甚至无奈取得查问后果的问题,无奈满足单表及多表简单查问场景下响应的及时性。此外,Presto 因为资源隔离有余会呈现利用抢占资源的状况,不能很好反对高并发的查问申请。
3) 大量实时数据扩散在各个业务零碎,无奈进行联结剖析。因为中信建投外部存在十分多的业务零碎,各业务零碎互相独立且数据会不断更新,而这些实时数据无奈更新到 Hive 中,导致业务数据之间不能及时买通进行联结剖析。
4) 短少预计算能力减速固定查问。固定报表和 API 数据服务为各业务提供包含数据汇总后果、明细查问、数据接口在内的多项能力,而基于固定数据查问的可视化报表通常数据查问量大、计算维度较多,一个看板页面波及大概一两百个 SQL 语句,整体运算效率低下。针对这种状况,中信建投心愿通过预计算实现查问减速,并且要求开发工作轻量化且资源耗费较低。
引入 StarRocks 构建对立查问服务平台
通过综合比照数据库即席查问、实时剖析性能、预计算能力、数据联邦技术,并且联合中信建投曾经在 Hadoop 体系中有大量投入,不心愿做大规模数据搬迁的具体情况,将 Hive 表面查问反对、SQL 语法及函数的兼容性等方面纳入选型思考,中信建投最终抉择引入 StarRocks 来构建对立的查问服务平台,满足各部门的用数需要。
StarRocks 是数据分析新范式的开创者、新规范的领导者。面世三年来,StarRocks 始终专一打造世界顶级的新一代极速全场景 MPP 数据库,帮忙企业构建极速对立的湖仓新范式,是实现数字化转型和降本增效的要害基础设施。以后寰球超过 200 家市值 70 亿元以上的头部企业都在基于 StarRocks 构建新一代数据分析能力,包含腾讯、携程、安全银行、中原银行、中信建投、招商证券、众安保险、大润发、百草味、顺丰、京东物流、TCL、OPPO 等,并与寰球云计算领导者亚马逊云、阿里云、腾讯云等达成策略单干。我的项目在 GitHub 星数已超 3700 个,成为年度开源热力值增速第一的我的项目,市场渗透率跻身中国前十名。
图 5:中信建投对立数据查问服务平台

作为一款高性能全场景的剖析型数据库,StarRocks 应用 MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既反对从各类实时和离线的内部数据源高效导入数据,也反对间接剖析数据湖上各种格局的数据,对立的 SQL 交互将数据分析后果或物化视图预计算后果散发到各个数据利用,为中信建投实现了三套零碎应用性能的整合以及数据利用流程的简化。
具体而言,针对中信建投的痛点问题,StarRocks 具备如下劣势:
1)在性能方面,针对大规模数据下自助 BI 麻利高效的需要。StarRocks 向量化执行引擎,全面实现了 SIMD 指令,保障查问和向量化导入能够充分利用单机单核 CPU 的解决能力;StarRocks 自研的 Pipeline 协程引擎,使得 StarRocks 能够应答更高的并发查问,充分利用单机多核 CPU 的解决能力,与此同时能够更优雅的进行 CPU 工夫分片调度从而实现资源隔离的性能;StarRocks 采纳大规模并行处理(MPP)架构,能够充分利用多机多核的集群资源,保障查问性能能够线性扩大;并用基于老本的优化器 CBO、RuntimeFilter、提早物化、全局低基数字典等多种⼿段实现极致查问性能。
2)在内部表联邦查问方面,StarRocks 可通过创立内部表的⽅式,在 StarRocks 读取其余数据源,如 MySQL、Elasticsearch、Hive 等内部表中的数据,从⽽突破数据的隔离。以 Hive 表面性能为例,中信建投能够将其 Hive 中的离线数据导⼊ StarRocks 中进⾏⾼性能剖析查问。同时,StarRocks 也能够表演数据湖的⻆⾊,将离线数据与实时数据进⾏关联,买通不同数据存储间的壁垒,从⽽⽀撑业务剖析时在数据湖中进⾏数据探查和极致剖析的需要。
3)在预计算方面,为了实现固定报表的减速,StarRocks 引入预计算的伎俩,通过创立多表、表面物化视图的形式对明细数据进行上卷和下钻,复用常见查问无效优化了简单 SQL 计算效率,满足用户对固定维度聚合剖析以及原始明细数据任意维度剖析的多样需要。
中信建投对立查问服务平台落地后的成果与价值
第一,大数据查问性能失去显著晋升。采纳 StarRocks 外部表减速明细数据关联查问,实现了上亿级别数据量大表关联秒级响应,内表查问效率晋升 10 倍以上,表面查问效率晋升 1 倍以上,齐全满足大数据量下查问剖析及时响应的需要;
第二,预计算能力升高了固定报表加工成本。采纳 StarRocks 预计算能力能够将固定报表和 API 数据服务响应速度晋升 1 倍以上。多表物化视图、表面物化视图、QueryRewrite 等高阶性能,能够无效升高数据建模老本,使得“直面剖析,按需减速”成为可能。
第三,升高数据迁徙老本,晋升数据管理和应用效率。StarRocks 基于 Hive 表面做查问,缩小了元数据和底层数据的迁徙老本,并实现了实时数据联通剖析。同时,以 StarRocks 为对立数据服务入口,升高了整体数据查问和加工的复杂度,晋升了数据管理和应用效率。
我的项目经验总结
中信建投进行数字化转型过程中曾经部署了大部分的数据基础设施,然而已有的基于 Hadoop 构建数据湖的体系在近两年来暴露出泛滥问题,曾经无奈匹配业务的倒退速度。中信建投基于本身业务需要和已有技术架构状况抉择以 StarRocks 构建对立数据服务入口的实际,为同类型券商企业提供了以下教训倡议:
1) 剖析型数据库的选型须要充分考虑企业本身的用数需要,以及现有数据平台的技术架构,抉择合乎本身理论状况的数据库是取得较好的落地成果的要害。例如,中信建投大部分的数据都存储在 Hive 中,StarRocks 提供的类 Presto 的表面查问性能能够防止数据迁徙减少的额定老本,同时也很好地满足了公司的用数需要。
2) 随着企业数据库规模一直增长,以及剖析场景更加简单,剖析型数据库须要一直晋升数据查问剖析的性能,以及针对固定报表、自助 BI 等各种利用场景,提供场景化解决方案、生态工具,能力满足用户在数据查问剖析方面性能和性能的简单需要。

 

3.   图数据库
3.1 传统数据库关系查问能力有余,图数据库及相干解决方案减速业务洞察
在各行各业中都存在着诸多依赖个体属性及其之间关联信息的场景,例如社交网络、金融风控、营销等,须要对单体之间的关系进行辨认,并对其特点进行钻研。然而,要在海量的数据中,挖掘个体之间暗藏的分割,是项很简单工作,这为企业带来了新的挑战。具体而言,企业在关联关系的摸索上,存在以下难点或需要:

     传统的关系型数据库对数据关联关系查问的反对无限。对于一些简略的关联关系查问,企业通常能够采纳传统的关系型数据库解决,但关系型数据库在进行关联信息检索时须要执行多个表的连贯操作,在数据关系较简单时,会呈现操作繁琐,且性能严重不足,导致无奈查问后果的问题。因而,关系型数据库在理论利用中只能执行一二度简略关系的查问,而不具备简单关系查问的能力。
     企业短少相干剖析工具和解决方案来对关联数据进行开掘剖析。在具体利用场景中,关联关系的查问剖析,除了须要底层数据库引擎的撑持,通常还须要联合畛域常识,将关联关系转换为常识见解,帮忙业务决策。此外,对于一些简单的查问剖析,还须要一些 AI 算法来减速获取后果。

为了解决企业在数据关系摸索上的难题,针对数据关系进行高效存储和计算的图数据库取得了企业的青眼。作为典型的非结构化数据解决方案,图数据库将关联数据的实体作为顶点存储,关系作为边存储,冲破了数据简单关联存储查问造成的性能瓶颈。同时,常识图谱,以及图剖析算法也为图数据的开掘剖析起到关键作用。图数据库及相干的解决方案具体包含如下三方面的内容:
图 6:图剖析解决方案赋能数据关系洞察

     高性能图数据存储与解决引擎。图数据库以图模型存储数据,最大能高效地存储万亿点边的数据,无效承载了企业积淀的海量关系信息。借助优良的关系传导能力,图数据库可能实现高效的多跳查问,以此挖掘关系型数据库无奈发现的深度关系;
     图算法反对高效的数据关系开掘。借助图算法,用户可能实现海量数据挖掘和简单关系剖析,例如最短门路,社交网络核心性、社区检测、社群特色、相似性和分类等罕用的图算法,可能帮忙用户在纷繁复杂的数据中发现有价值的信息,辅助进行业务决策;
     常识图谱平台反对场景利用。为了赋能业务场景,企业在具备图数据库引擎的根底上,还须要构建常识图谱平台,将图的关联关系转化为常识,从而造成业务洞察。通常,常识图谱平台须要具备两大要害的能力:1)常识图谱构建,即利用图谱构建工具,实现常识抽取、常识示意和常识交融,从而构建常识图谱;2)常识推理计算,即通过推理计算引擎,联合行业常识,发现常识中的显性或隐性关系。

案例 3:民生银行基于图数据库构建常识图谱利用平台,通过图剖析盘活数据资产
作为头部股份制商业银行,民生银行始终动摇践行“民营企业的银行、麻利凋谢的银行、用心服务的银行”的策略定位,高度重视数字化转型,被动融入数字中国建设,着力在“生态银行”和“智慧银行”两大畛域实现冲破和晋升,致力于为客户提供业余特色的古代金融服务。
随着金融行业数智转型的过程放慢,银行业务数据量呈现爆炸式增长,对金融行业的数据处理能力提出了更高要求。同时,面向海量数据的充沛积淀,开掘数据资产的潜在价值,开释蕴藏在数据因素中的生产力变得至关重要。对于民生银行而言,全行业务场景泛滥,由此积攒了规模宏大的账户数据,也带来了丰盛的用户关系信息。在此基础上,如何抉择新的数据库进行技术革新,赋能业务实现数据驱动的决策,成为民生银行外部一项重要的倒退课题。具体而言,民生银行须要采纳新的数据技术解决以下难题:
1) 对大规模的业务数据进行高效的关联关系剖析与开掘。危险管制和营销作为银行两大重要业务倒退伎俩,须要对海量用户数据进行深度关联关系开掘,以辨认潜在危险、理解客户偏好。在传统的关系型数据库中,数据被存储在二维表中,应用关系模型检索须要执行多个表的连贯操作,在深度关系开掘能力与数据处理性能上体现严重不足;
2) 对行内数据拉通整合,进行对立的查问剖析。民生银行外部各个业务零碎较为多元,然而未在数据层面买通,各个业务之间绝对独立,并未建设关联关系。此外,业务人员短少对立的利用平台对多元化的业务进行全局联通剖析,数据管理扩散,无奈站在全局的视线剖析业务变动,进行实时决策;
3) 底层数据基础设施的研发难度和老本较大,须要在解决技术难题的根底上满足大型企业要求的高可用、多租户、权限治理等能力需要。此外,随着国家信创政策日益严格,金融业作为国家经济命脉,必须充沛实现要害数据基础设施的国产化,具备数据库系统的平安可控性,保障信息安全。
基于 Galaxybase 图数据库构建常识图谱利用平台,赋能银行业务降级
数字化转型需要驱动下,民生银行须要开掘数据关联关系,施展数字资产价值,更好地晋升风控、营销等外围业务能力。因而民生银行决定通过投标建设常识图谱利用平台,通过综合思考大规模的关联关系查问、多元化数据拉通整合、底层技术自主可控以及厂商技术当先性和实践经验等因素,最终创邻科技从泛滥图数据库厂商中怀才不遇。
创邻科技是国内当先的商业化高性能分布式图数据库供应商,在分布式数据存储、大数据并行处理、图开掘等畛域有业界当先的技术储备。创邻科技聚焦金融板块,目前已胜利服务五大行、头部股份制银行以及城商行、农商行等企业用户,外围产品 Galaxybase 国产高性能图平台已累计反对数万亿点边的大型金融图谱利用,性能国内当先。
图 7:基于 Galaxybase 图数据库构建的“万象”常识图谱利用平台

在创邻科技的帮忙下,民生银行以大数据、人工智能技术为根底,引入 Galaxybase 图数据库构建“万象”常识图谱利用平台,提供信息展现和交互式剖析,具备本体建模、图谱构建、图谱开掘、常识服务的一站式全流程利用能力,助力民生银行业务降级。具体而言,基于 Galaxybase 图数据库的“万象”常识图谱利用平台使民生银行具备了以下能力:
1)借助 Galaxybase 图数据库的图谱可视化和关系开掘能力,民生银行可能基于图谱对各类信息拉通聚合,进行关联关系开掘,提供信息展现和交互式剖析性能。以构建企业全息图谱为例,通过引入行外的全量工商、司法、知识产权等简单数据且对企业的多重关系进行剖析和开掘,可能实现关联信息的高效聚合,直观出现简单客户关系网络,简化业务剖析难度。
2)图技术的状态辨认和关系传导能力能够在反欺诈业务中施展重要作用,依靠 Galaxybase 图数据库所具备的实时数据处理与图构建能力,“万象”常识图谱平台能对信贷申请件数据进行实时组网,通过设施信息、地理位置信息、黑样本、转账等关联关系辨认定位欺诈团伙,并且联合传统欺诈特色和网络特色进行机器学习对申请条件评分,无效辨认欺诈申请,进行及时预警,实时拦挡欺诈危险,防止欺诈损失。
3)基于图神经网络的常识推理,“万象”常识图谱平台可能晋升银行的营销能力。通过对涵盖集体客户的银行客群建设经营剖析图谱,“万象”常识图谱平台能够基于用户关系链进行社群关系推理,利用种子账户所在社群触达全新用户并实现拉新,由社群触达的新成员,还可能以不同的速度、形式和幅度进行裂变流传,无效解决传统客户管理系统获客难的问题,达成“疾速实现账户增长,低成本轻松获客”的指标。
为了满足数据联通整合的需要,民生银行基于 Galaxybase 图数据库对行内外跨部门、跨产品、跨业务线中的实体及元数据信息进行了整合。同时,平台装备可视化图剖析平台,业务人员无需编程技能即可通过可视化图形配置界面构建常识图谱、部署图算法、执行计算并展现后果。
此外,Galaxybase 图数据库具备企业级个性,通过主备集群能力反对数据库高可用,并且提供企业级的运维治理和安全监控能力,反对点边类型和属性的细粒度权限治理。在信创方面,Galaxybase 图数据库为国产自研产品,可能满足金融行业对数据技术平安自主可控的要求。
“万象”常识图谱平台落地后的成果与价值
第一,突破数据孤岛,撑持海量数据的实时剖析与关联价值开掘。通过构建“万象”常识图谱利用平台,民生银行能对行内外跨部门、跨产品、跨业务线中的实体及元数据信息进行整合,构建多触点、全维度的可视化关联信息图谱,提供 360°全景可视化视图,破除数据孤岛。同时,“万象”常识图谱平台底层采纳的分布式架构反对动静在线扩容,新进的业务数据也可能实时入网,业务人员可能联合不同的场景利用常识图谱进行实时决策。
第二,图谱可视化技术为用户提供业务全流程数据关系展示。“万象”常识图谱平台可能为业务零碎输入图查问、关联和计算能力,同时为业务剖析人员提供全息图谱,晋升内外数据关联剖析能力;针对研发人员,则提供数据关联关系剖析平台,剖析开掘环境更加便当,可实现便捷的可视化建模。最初,“万象”常识图谱平台可能为业务积淀出一系列可视化数据产品,实现全流程业务能力降级。
第三,强劲的多跳查问性能帮忙银行实现实时深挖暗藏关联关系。依靠于 Galaxybase 原生分布式并行图数据库能够极快地解决简单的多跳关联关系,“万象”常识图谱利用平台可能对于银行的海量业务数据进行多跳查问,开掘查找数据间的异样关联关系,因而可能疾速对传统办法不能找到的危险进行预判和警报,完满符合银行的反洗钱、反欺诈、对公信贷等业务。
我的项目经验总结
在数字经济时代,为了实现数据价值的充沛开释,就须要将数据进行关联,从单纯的数据管理转变为数据关系的开掘、剖析和利用。民生银行引入创邻科技 Galaxybase 图平台建设常识图谱利用平台的实际,为同类型的业务场景提供了以下图数据库及相干利用的选型和应用教训:
1)关注图数据库底层技术撑持能力。银行业务数字化的疾速倒退肯定会造成行内数据量爆发式增长,银行企业在抉择图数据库时肯定要思考在超大数据规模下的底层数据库撑持能力,要可能在不升高查问和计算性能的状况下高效实现常识图谱的构建;同时,对于关联关系的深度开掘,银行企业须要关注图数据库的多跳查问性能,可能实时开掘简单关系是要害。
2)器重信创政策,推动底层国产化代替。对于金融机构而言,实现底层数据基础设施的国产化有助于保障整体系统安全稳固地运行,而且数据库及其配套利用须要一直迭代和适配来满足将来业务场景的拓展,倡议各银行在投标过程中将图数据库的国产技术和图利用解决方案综合实力纳入思考,旨在缩小后续更换底层数据库的潜在危险和老本。

4.   超交融数据库
4.1 企业多元化疾速倒退,超交融数据库在繁多技术栈上满足各业务需要
在数字化转型的驱动下,中大型企业在简单多样的业务场景下积淀了海量多源异构的数据,而且因为业务继续扩张增长的趋势,局部企业须要不断加强数字化建设的力度来匹配业务的倒退速度。在这种状况下,中大型企业现有的数据库解决方案在企业需要的增长下变得愈发难以为继。具体而言,业务的极速倒退和数字化带来数据规模收缩、数据类型多样化使得现有的数据库设施遇到了以下方面的难题:
图 8:大数据量、多数据类型带来的数据库应用问题

  1. 承载数据类型无限。业务场景的拓展带来了更加简单的数据类型,企业须要对异构的数据进行高效存储以便后续查问剖析,而传统的关系型数据对非结构化数据的承载能力无限。通过引入专用的非结构化数据库,企业尽管能够存储与之绝对应的非结构化数据,然而却造成数据库系统扩散独立的状况,难以对立保护治理,从而带来额定的运维老本。
  2. 海量数据查问遇到数据库性能的瓶颈。随着大型企业疾速倒退带来的数据规模收缩以及查问复杂度的晋升,原有数据库在响应速度上难以满足企业实时查问剖析的需要,从而导致业务运行进展或无奈进行数据决策。
    为了解决企业在业务疾速倒退过程中遇到的多数据类型和性能方面的难题,超交融数据库是在内核层面采纳模块化和插件化的架构,通过插拔不同类型的数据引擎,实现对不同模型数据进行解决能力的数据库。超交融数据库可能反对用户在一套零碎中对立解决关系、图、时序、文档等多种模型的数据,繁难的架构不会为企业减少过多的运维治理老本。同时,超交融数据库具备与常见的专用数据库或大数据引擎等同或更好的性能体现。具体而言,超交融数据库为企业带来了以下劣势:
    图 9:超交融数据库反对多类型数据,繁多架构简化运维
  1. 反对多种类型数据。超交融数据库在繁多架构上实现了多模态数据的融通治理,通过部署实用于不同数据类型的存储和计算引擎,超交融数据库实现了多种异构数据,例如结构化数据、时序数据、图数据等,的对立写入、存储和治理。
  2. 简化运维。超交融数据库采纳创新性架构,利用模块化的引擎来反对不同类型数据的存储和计算,防止了引入多种专用数据库造成零碎冗余的状况。此外,超交融数据库应用对立的利用拜访接口和优化器简化零碎架构,在无效撑持业务倒退的前提下,极大缩小了数据库的运维老本。
  3. 查问剖析性能晋升。超交融数据库相比常见的大数据引擎具备更强的性能体现,在单表查问、简单 SQL 运算等能力上均有显著的晋升。此外,超交融数据库还针对不同类型数据的解决需要进行优化,以取得比常见专用数据库更强的性能体现。总体而言,强劲的性能体现可能缩短数据库服务响应工夫,可能使业务运行更加晦涩,及时撑持实时决策。

案例 4:某新能源头部制作企业基于超交融数据库打造“数据湖仓平台”,撑持企业高速倒退
随同近年来新能源汽车在寰球范畴内的销量剧增,处于新能源汽车产业链重要地位的国内某头部制作企业也迎来了业务的疾速倒退。为了进步产能,并降本增效,该企业须要不断加强数字化建设,以撑持寰球产品溯源追踪、生产及售后经营剖析、设施预测性保护等多项业务。
然而,随着该企业业务规模的迅速扩张,其须要解决的数据规模急剧收缩,数据类型也比以往更加简单,导致该企业原先基于 MySQL、Greenplum 构建的数据库系统面临显著的性能和性能瓶颈,也给该企业的业务发展带来以下挑战:
1)原有数仓集群遭逢性能瓶颈,保护扩容简单,难以应答业务快速增长需要。
随着业务的疾速扩大,带来数据规模的快速增长,以及查问复杂度疾速晋升,原有集群的 CPU 使用率长期维持高位运行,导致计算和查问作业长时间排队,以致业务间歇性卡顿,局部大型报表的等待时间甚至超过 30 分钟,重大影响了业务的运行效率和应用体验。另一方面,原有数仓平台的扩容也须要随同较长时间的停机期待,同时不反对数据的分层存储管理,这使得对原有平台进行一直扩容,在工夫和老本上都不可继续。
2)智能制作亟待裁减简单时序解决及剖析能力。
该企业作为大型制造业团体,也在积极探索智能制作的转型翻新,而首要的是对宽广的生产配备进行数字化降级,这带来宽泛的 IoT 场景需要。在其整体数据结构中,除了由常见的 MES、ERP 零碎所产生的关系型数据,还有由数采单元面向设施、物料和流程采集到的时序、GIS 等类型数据,比方涵盖近百个指标的生产制作设施工况数据、已售出产品的运行数据以及历史培修数据等。目前架构中是通过 MySQL 和 Greenplum 来承载时序数据,但 MySQL 及 Greenplum 并不具备专门针对时序场景的强化个性及性能,数据承载力和查问能力都非常无限:
• 写入性能:无奈承载超大设施带来的海量数据写入负载;
• 写入性能:无奈反对动静、乱序、提早写入,以应答简单工况下的数据产生环境;
• 查问能力:点查问性能无限,没有窗口查问、库内机器学习等。
3)数据量倍数增张,总部核心集群负载压力大
目前,该企业团体在全国领有数十家分支生产基地,每个生产基地的产线零碎都须要高性能及牢靠稳固的数据管理系统。面向未来,预期整个团体将继续以倍数级裁减产能,产线数据量将翻倍增长,对数据管理的承载力、效率、老本和易用性都提出了更高标准。
目前所有数据间接进入总部,对总部集群造成很大负载压力。除了继续扩容外,在不减少太多运维复杂度的根底上,客户迫切希望建设一套总分联合的“总部(云)+ 工厂(边)”协同架构,在加强整体数据承载能力的同时,也优化各子公司的数据平台能力,实现对整体数据管理与治理能力的降级。
基于超交融数据库,实现一套零碎满足企业多种类型数据存储与解决需要
为了满足对大规模、多源异构数据的存储与解决需要,该企业须要引入新的数据基座来替换原先的 MySQL、Greenplum 数据库。在此过程中,该企业思考过 Hadoop 技术栈,但基于 Hadoop 技术栈满足业务需要,须要同时构建非常复杂的开发和运维体系,老本过高。
因为 YMatrix 超交融数据库具备高性能、反对多种数据类型、运维简略等劣势,便成为了该企业的的最终抉择。
YMatrix 成立于 2020 年,是一家创新型根底软件公司,致力于物联网时代新一代数据基础设施软件的研发,并提供相干产品、解决方案及一站式商业服务。公司在业界率先提出超交融数据库理念,并公布了 YMatrix 超交融数据库,基于独创的多微内核凋谢架构,在繁多数据库之上,实现多模态数据的融通治理,及全场景查问剖析的对立反对。YMatrix 超交融数据库可面向物联网利用、工业互联网、智能运维、智慧城市、智能家居、车联网等场景,提供架构简洁、功能丰富的数据基础设施,并已在多家行业头部公司胜利实现商业化落地。
图 10:某新能源头部制作企业基于超交融数据库打造的“数据湖仓平台”

YMatrix 超交融数据库在该企业内代替了原先的 MySQl、Greenplum 等数据库,在反对多种类型数据的存储、会集与治理的同时,通过全面的性能承接了各类业务需要。具体而言,YMatrix 超交融数据库的以下性能个性解决了该企业此前存在的各种问题:
1)反对多种数据。由 YMatrix 超交融数据库承建数据湖仓平台,对接产线 MES 零碎、ERP 零碎及给类型生产设施数采零碎等,将 TP 业务数据、时序数据、GIS 数据、JSON 文本数据,以及过来的历史数据等等多种数据,对立进行写入、存储、治理,反对数据乱序、提早写入,反对 ACID 以确保数据完整性;
2)提供对立的查问。YMatrix 超交融数据库通过规范 SQL 提供多类型数据查问,在数据湖内实现数据的跨类型联结剖析,而无需再并行建设专门的技术栈;
3)反对库内机器学习。YMatrix 超交融数据库反对库内机器学习建模,可代替 Flink + Spark,使算法建模及计算在 YMatrix 集群内实现,无需大规模的数据 ETL 过程,大幅简化零碎架构,且性能大幅晋升,算法剖析工作效率晋升 10 倍;
4)较高的查问性能。YMatrix 超交融数据库针对写入和剖析等重点畛域进行了多达 138 项深度的指令级的优化,可能在单表查问、多表关联剖析、时序数据查问等罕用场景上取得比支流专用数据库更高的性能。
5)简化运维。YMatrix 超交融数据库技术架构简化灵便,运维人员须要治理的技术栈变少,因而从本源上升高了其运维复杂度。同时,YMatrix 超交融数据库提供大量图形化及自动化的运维能力,包含:在线扩容、主动数据均衡、数据生命周期治理、运维监控等,帮忙用户升高操作门槛、取得更好的应用体验以及更加自动化的作业能力。
此外,为了升高总部核心集群负载压力,YMatrix 为该企业建设了边缘数仓,即在分支工厂部署独立数仓平台,承载工厂的 MES、ERP、PLM 等各零碎数据,实现这些生产数据在本级的数据归集,同时进行预处理查问剖析,筛选出合乎总部须要的数据后再上传总部集群。新构建的“总部(云)+ 工厂(边)”协同架构,在强化本地数据就近解决的能力之上,无效升高了团体集群的负载,为前期业务的长期稳固运行及良性扩大奠定架构根底。
超交融数据库落地后的价值与成果
第一,性能大幅晋升,为应答业务量大规模扩张奠定根底。在应用 YMatrix 超交融数据库后,该企业解决了原有集群性能有余、扩容服务器耗时长、报表查问期待过久等各项问题,查问耗时最高缩短 79%,为平台撑持的各项业务服务体验提供充分的性能反对。
第二,为数智化翻新提供新一代通用数据基座,并提供更敌对的应用体验,大幅升高运维复杂度。通过 YMatrix 超交融数据库,反对多模态数据的全场景查问剖析需要,可能服务企业级用户将来 5-10 年可能存在的需要,帮忙该企业防止了产品叠加或技术架构重复调整带来的技术危险和不必要老本。同时,YMatrix 超交融数据库通过数据超交融能力大幅精简了零碎架构,并供大量图形化及自动化的运维能力,从而升高了数据库的运维复杂度,让用户工作更加专一,作业更加高效。
第三,数据管理老本取得无效管制,同时升高总部集群的压力。YMatrix 超交融数据库在为⼤数据平台带来了上述优化与新性能的同时,在保障性能满⾜需要的前提下,使得该企业每年在资源上的老本开销缩小了⾄少 30%。同时,通过搭建更迷信经济的“总部(云)+ 工厂(边)”协同架构,缩小数据传输老本的同时,升高因组织构造宏大、产能继续壮大给总部集群带来的压力。
我的项目经验总结
以后,中国正在从“制作大国”向“制作强国”转型,与此同时,一批代表着策略新兴行业方向的制造业企业在市场需求以及政策推动下,正处在高速倒退过程中。为了实现这样的指标,数智化在其中将会起到要害撑持作用。咱们认为,上述新能源头部制作企业与 YMatrix 单干的案例,能够为同样处于疾速倒退阶段的制造业企业带来以下借鉴意义:
第一,数据基座的选型须要超前思考中长期的业务倒退需要。随着企业业务的疾速倒退,企业外部数据量必然迅速增长,数据类型也将变得更加简单。因为数据库等基础设施的迁徙是项老本十分昂扬的工作,企业在选型时须要充沛评估将来 5 -10 年的业务需要,抉择可能应答中长期数据存储和解决需要的数据基座。
第二,为防止传统计划简单的开发和运维,企业能够思考创新性的超交融数据库。只管市场上有一些大数据计划可能满足企业各类简单的数据存储和解决需要,如 Hadoop 技术栈,但面对企业简单的需要,其开发和运维也非常复杂。超交融数据库在简化零碎架构的同时,具备反对多种数据类型、性能高、运维简略等劣势,是处于疾速倒退阶段的企业十分现实的抉择。

5.   结语
从本报告所筛选的多个案例中,咱们能够看到,看似曾经十分成熟的数据库市场,在各个细分方向始终在适应企业一直变动的需要,往更强的性能、更丰盛的性能,更简化的应用和运维的方向进化,并且这个趋势还在连续当中。
而对于每个企业而言,当它们在对数据基础设施进行布局,对数据库升级换代时,须要联合企业外部状况衡量多方面的问题。既要对业务需要进行全局思考,抉择可能适应企业将来倒退的技术架构,也要联合企业现阶段数据根底,满足在性能、性能、运维等各方面要求的同时,抉择老本更低、应用更简略的数据库计划。

正文完
 0