关于数据库:从流程驱动到数据驱动-银行业数据平台架构的演进

第十五届中国零碎架构师大会(SACC2022)近日在线上举办，本次大会以“激发架构性能点亮业务生机”为主题，星散国内CTO、研发总监、高级零碎架构师、开发工程师和IT经理等技术专家，共议IT零碎架构倒退的新技术、新趋势、新特点。

在会上，酷克数据首席解决方案架构师牛云飞发表了题为《从剖析视角的变动看银行业数据平台架构演进》的主题演讲。他提出，随着数字化转型的继续推动，越来越多的银行正在从流程驱动型向数据驱动型演进。在这一过程中，数据逐渐成为银行外围资产，其衍生价值越来越大。

随着数据衍生价值的增大，银行对数据分析的需要也从面向过来的形容型剖析，逐步演变成面向过来、将来和当初的全视角、智能化剖析。同时，银行业的数据平台正从繁多架构的传统数仓平台，演进为湖仓一体、存算拆散的一体化数据平台，以HashData、SnowFlake为代表的云原生剖析型数据库，正成为银行业数据平台建设的首选技术路线。

银行业数据分析演进过程
金融行业，尤其是银行业是对数据库依赖度极高、又对数据库要求最为严苛的行业。随着互联网及挪动互联网技术的衰亡，网上银行、手机银行、电子领取等新业态呈现，高并发、海量数据、超高峰值等挑战接踵而至，导致数据资源存储、计算和利用等需要大幅晋升。

牛云飞在演讲中分享了银行业数据平台演进过程，阐述数据平台如何通过架构演进，帮忙银行最大限度开释数据资源价值。他指出，银行对数据分析的需要，能够分为三个阶段。

在数据分析1.0阶段，银行积攒了大量业务数据，心愿通过数据理解一段周期内的企业经营状况。因而，这一阶段银行以看到过来的形容型剖析为主。

在数据分析2.0阶段，银行不仅仅要对曾经产生的业务进行评估，还须要对业务进行前瞻性预测。因而，这一阶段银行在形容型剖析的根底上，又会大力开展面向未来的预测型剖析：须要建设数据迷信团队，针对海量数据进行摸索、钻研，从数据中洞察业务趋势。

随着云计算技术的遍及，企业数据分析正进入3.0阶段。在这一阶段，银行心愿进步数据分析的时效性，买通前后端，将剖析发现的业务洞察嵌入业务流程，自动化、智能化驱动业务。因而，银行逐渐发展“决定当初的经营型剖析”，在发展业务流程或流动过程中，间接调用数据产品或服务，利用数据分析成绩，驱动业务向心愿的方向倒退。

银行须要撑持全视角的数据分析
牛云飞认为，数据驱动型银行应具备全视角数据分析能力，传统BI平台已无奈满足全视角剖析需要，银行须要建设一体化的数据平台。一体化数据平台要具备三项根底能力：多状态数据管理能力、多样化剖析计算能力和多维度的弹性伸缩能力。

牛云飞示意，一体化数据平台应该可能兼容结构化、半结构化、非结构化等不同状态、不同时效性的数据，进行多样化的计算和剖析，并依据业务需要变动进行弹性伸缩。

在实现上述能力的根底上，银行能够通过一体化数据平台满足外部业务客户、司法审计用户、金融监管用户的业务需要。在银行业数据分析需要转变过程中，银行也从本身的金融科技倒退角度看到了新技术在性能、弹性和老本治理上的劣势，越来越多的银行开始利用分布式技术，建设全行级的一体化数据平台，整合全域数据，造成面向整个银行对立的数据视图，撑持全视角数据分析。
一体化数据平台建设思路
“银行一体化数据平台的建设不是欲速不达的”，牛云飞说，它的倒退同样经验了长期的演进过程。

在数据分析1.0阶段，银行次要采纳传统的数仓平台，次要针对银行外部的结构化数据，撑持报表、查问、多维分析、数据散发等形容型剖析，辅助日常决策。这一阶段采纳的技术路线以传统MPP数据库（以一体机为主）加Oracle为主。

最后，传统的剖析型数据库广泛采纳共享磁盘并行处理架构（基于SAN存储），节点规模通常不大，并且随着扩容，零碎性能晋升幅度会越来越小，存在网络资源竞争强烈、扩展性差等缺点。这种架构次要面向业务条线或部门的剖析利用、数据集市等场景。

为了满足搭建银行全行数据平台的需要，基于齐全无共享的MPP架构逐步成为构建面向全行对立数据视图的一种支流技术路线。这种架构的产品以一体机为主，老本绝对较高。随着数据规模的扩充，对企业造成的老本压力也越来越大。同时，这种架构因为采纳存储计算紧耦合的设计，无奈满足高并发、混合工作负载等方面的需要。

近些年，随着银行信息化建设的推动，传统数仓平台利用面临挑战着诸多挑战：

业务场景繁多：数据平台撑持的剖析次要针对曾经产生的业务状况进行反映或诊断，不能对业务进行灵便探查，无奈满足业务人员自主用数需要，更不足前瞻性预测能力；
业务体验不佳：很多银行随着业务的倒退，数据规模的增长，数据平台面临计算能力和扩大能力的瓶颈，这导致日常数据处理工夫过长，跑批经常出现提早，重大影响了业务体验和业务决策；数据整合有余：很多数据平台尽管定位是企业级，然而整合数据范畴受限，没有造成企业级数据视图。此外，针对企业混合数据生态，尤其是半结构化、非结构化数据、或高时效数据，更是不足整合能力；
数据撑持受限：因为数据整合的范畴受限，难以构建面向全行的、对立的数据视图，无奈对上游剖析利用造成无效撑持；
建设老本过高：很多银行数据平台采纳关闭的一体机，随着建设的深刻，算力和存储能力驱动的扩容越来越频繁，专有设施每次扩容消耗了大量的人力、物力和财力，老本居高不下。

面对传统数据仓库带来的挑战，很多咨询机构都提出了多元化、混合架构的思路，技术上引入了纯软的MPP数据库和Hadoop。但随着银行业务负载越来越简单，需要越来越多，多元化平台无奈实现高并发、负载无奈隔离等缺点愈发凸显，同时还存在业务体验稳定、数据整合有余、数据撑持不佳、运维治理简单等毛病。

对此，多家市场调研机构公布的报告显示，云原生数据仓库的劣势大大超越传统数据仓库。Gartner预计到2023年，寰球75%的数据库都会运行在云端。在这样的背景下，国内外支流的私有云厂商，均推出了基于云原生架构的数据库产品。同时，Snowflake、Databricks等独立软件厂商也推出存算拆散、湖仓一体架构的产品。

其中，Snowflake提出了基于对象存储的多集群弹性并行处理架构（Elastic Parallel Processing，简称EPP），这种架构具备MPP执行引擎、规范SQL接口，元数据、计算和存储三者拆散、多集群对立数据存储层、对象存储作为数据长久层等特点。

酷克数据作为国内最早专一于云原生数仓研发的独立软件厂商，旗下外围产品HashData基于当先的EPP架构，采纳对象存储作为数据长久层，实现了存算拆散、湖仓一体化，具备高可用、高并发、近乎“零运维”等特点，全面反对银行构建一体化数据平台。

凭借当先的技术劣势，联合本身丰盛、成熟的实践经验，HashData目前已广泛应用于金融、政务、运营商、交通物流、能源和互联网等畛域。

在银行业，HashData为国有大行、政策性银行、金融监管机构、股份制商业银行、省农信等提供数据治理、剖析服务，助力银行构建面向全行对立的数据视图。HashData撑持了寰球最大规模的金融行业集群，期待将服务头部客户的实践经验宽泛推广，帮忙金融企业实现业界当先的技术架构降级，升高数据分析门槛，充沛开释数据价值。

关于数据库:从流程驱动到数据驱动-银行业数据平台架构的演进

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:从流程驱动到数据驱动-银行业数据平台架构的演进

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复