关于数据库:分析视角下银行业数据平台架构演进及实现

以后，数据成为驱动银行业数字化转型的要害生产因素。如何从海量的数据中辨认无效的价值数据，实现业务与数据的深度交融，激活数据因素潜能、深挖数据资产价值，成为银行业继续摸索的重要课题。

随着云计算、大数据等技术的倒退，银行业对数据分析的需要也从面向过来的形容型剖析，逐步演变成面向过来、将来和当初的全视角、智能化剖析。作为剖析的数据源头，数据库是保障剖析事务稳固、高效执行的要害基础设施。
在近期的直播中，咱们从数据分析的视角介绍了银行业数据平台演进过程和实现形式，阐述数据平台如何通过架构演进降级，帮忙银行业最大限度开释数据资源价值。

银行业数据分析架构演进过程
相比其余行业，数据资产对于银行业而言尤为重要。在央行公布的《金融科技倒退布局（2022-2025）》中，明确提出“激活金融数据因素潜能”“增强数据能力建设”“夯实金融翻新倒退数字底座”，减速金融科技翻新倒退中数据基础设施建设降级势在必行。

近年来，随着 ICT 技术的倒退，银行业正从流程型驱动向数据型驱动演进。为了适应剖析需要的变动，银行业的数据平台也从繁多架构的传统数仓过渡到多元化的数据平台，再演进为湖仓一体、存算拆散的一体化数据平台。

从倒退过程来看，银行业的数据分析平台经验了三个阶段：
剖析 1. 0 阶段，银行的数据起源次要是通过整合历史累积的业务数据，其后通过报表、查问等模式，对业务历史数据进行统计分析，通过数据理解一段周期内的企业经营状况。因而，这一阶段银行以看到过来的形容型剖析为主，平台采纳传统的数仓平台，技术路线以传统 MPP 数据库（次要为一体机）加 Oracle 为主。

随同着数据量的增长，仅仅对过来行为进行剖析的 1. 0 阶段曾经无奈满足银行业务倒退的需要，银行开始通过建设数据迷信团队，针对海量数据进行摸索和钻研，从数据中发现新的业务趋势，对业务进行前瞻性预测。在形容型剖析的根底上，银行继而大力开展面向当初的预测型剖析，银行业数据分析随之进入 2.0 阶段。

图 1：银行多元化数据平台架构
在数据分析 2.0 阶段，很多银行都采纳了多元化、混合架构的思路，技术上引入了纯软的 MPP 数据库和 Hadoop。但随着银行业务负载越来越简单，需要越来越多，多元化平台无奈实现高并发、负载无奈隔离等缺点愈发凸显，同时还存在业务体验稳定、数据整合有余、数据撑持不佳、运维治理简单等毛病。尤其是这种架构的数据平台通常是 T + 1 的频率获取数据，无奈做到实时数据加工解决。

随着剖析需要的继续推动，银行心愿通过现有的数据来间接实时地反映以后的业务状况，数据分析开始进入 3.0 阶段。

在这一阶段，银行须要进步数据分析的时效性，买通前后端，将剖析发现的业务洞察嵌入业务流程，自动化、智能化驱动业务。因而，银行逐渐发展“决定当初的经营型剖析”，在发展业务流程或流动过程中，间接调用数据产品或服务，利用数据分析成绩，驱动保障业务衰弱倒退。

在数据分析 3.0 阶段，银行应具备全视角数据分析能力，传统 BI 平台已无奈满足全视角剖析需要，银行须要建设一体化的数据平台，治理多状态、多时效全域数据，买通前后端业务，实现全视角剖析。

云原生数仓助力银行一体化数据平台建设
一体化数据平台要具备三项根底能力：多状态数据管理能力、多样化剖析计算能力和多维度的弹性伸缩能力。

一体化数据平台应该可能兼容结构化、半结构化、非结构化等不同状态、不同时效性的数据，进行多样化的计算和剖析，并依据业务需要变动进行弹性伸缩。为了满足搭建银行全行数据平台的需要，基于本地磁盘的齐全无共享并行处理架构的 MPP 数据库逐步成为搭建数据平台、撑持剖析利用的首选技术。

然而，随着业务的倒退，数据量的进一步增长，基于本地磁盘的齐全无共享 MPP 架构在理论落地时面临着挑战，如：存算紧耦合、木桶效应、扩容数据重散布、并发限度、混合工作负载等等。随同着银行数据分析需要的降级，传统的 MPP 架构数据仓库曾经无奈满足银行建设一体化数据平台需要，越来越多的银行开始利用云计算、分布式技术，建设全行级的一体化数据平台，整合全域数据，造成面向整个银行对立的数据视图，撑持全视角数据分析。

在这样的背景下，基于云原生架构的数据库产品应运而生。同时，Snowflake、Databricks 等独立软件厂商也推出存算拆散、湖仓一体架构的产品。

图 2：以 HashData 为例的全视角一体化数据分析平台

其中，Snowflake 提出了基于对象存储的多集群弹性并行处理架构（Elastic Parallel Processing，简称 EPP），这种架构具备 MPP 执行引擎、规范 SQL 接口，元数据、计算和存储三者拆散、多集群对立数据存储层、对象存储作为数据长久层等特点。

图 3：HashData 数据仓库架构

作为国内最早进军云原生数据仓库畛域的企业之一，HashData 采纳业界当先的云原生大数据系统设计理念，围绕着对象存储和形象服务构建，最大限度施展云计算劣势，实现疾速部署、按需伸缩、不停机交付等，大幅升高企业进行大数据分析的门槛。

HashData 作为一款企业级云端数据仓库，交融了 MPP 数据库的高性能和丰盛剖析性能、大数据平台的扩展性和灵活性，以及云计算的弹性和敏捷性，提供了传统解决方案无法比拟的高并发、易用性、高可用性、高性能和扩展性。

同时，基于当先的 EPP 架构，HashData 采纳对象存储作为数据长久层，实现了存算拆散、湖仓一体化，具备高可用、高并发、近乎“零运维”等特点。对于传统 MPP 数据库难以实现高并发的“痛点”，HashData 通过云原生架构，实现了多个集群共享对立的元数据、对立的数据存储，集群间不竞争 CPU、内存和 IO 资源，能够依据业务需要有限地创立集群。

为避免出现“数据孤岛”和冗余，HashData 采纳共享存储架构，任何一个计算集群都能够去拜访同一份数据，所有集群共享同一份元数据，彻底消除“数据孤岛”和冗余，确保数据的实时性、一致性。

凭借当先的技术劣势和丰盛的实践经验，HashData 目前已广泛应用于金融、政务、运营商、交通物流、能源和互联网等畛域。

在银行业，HashData 为金融监管机构、国有大行、政策性银行、股份制商业银行、省农信等机构提供数据治理与剖析服务，为银行打造了一体化数据平台。Hashdata 期待在剖析视角转换的明天，可能参加银行业数据平台架构演进的趋势中，助力银行业实现数据融通，开释数据价值。