共计 2922 个字符,预计需要花费 8 分钟才能阅读完成。
第十五届中国零碎架构师大会 (SACC2022) 近日在线上举办,本次大会以“激发架构性能 点亮业务生机”为主题,星散国内 CTO、研发总监、高级零碎架构师、开发工程师和 IT 经理等技术专家,共议 IT 零碎架构倒退的新技术、新趋势、新特点。
在会上,酷克数据首席解决方案架构师牛云飞发表了题为《从剖析视角的变动看银行业数据平台架构演进》的主题演讲。他提出,随着数字化转型的继续推动,越来越多的银行正在从流程驱动型向数据驱动型演进。在这一过程中,数据逐渐成为银行外围资产,其衍生价值越来越大。
随着数据衍生价值的增大,银行对数据分析的需要也从面向过来的形容型剖析,逐步演变成面向过来、将来和当初的全视角、智能化剖析。同时,银行业的数据平台正从繁多架构的传统数仓平台,演进为湖仓一体、存算拆散的一体化数据平台,以 HashData、SnowFlake 为代表的云原生剖析型数据库,正成为银行业数据平台建设的首选技术路线。
银行业数据分析演进过程
金融行业,尤其是银行业是对数据库依赖度极高、又对数据库要求最为严苛的行业。随着互联网及挪动互联网技术的衰亡,网上银行、手机银行、电子领取等新业态呈现,高并发、海量数据、超高峰值等挑战接踵而至,导致数据资源存储、计算和利用等需要大幅晋升。
牛云飞在演讲中分享了银行业数据平台演进过程,阐述数据平台如何通过架构演进,帮忙银行最大限度开释数据资源价值。他指出,银行对数据分析的需要,能够分为三个阶段。
在数据分析 1.0 阶段,银行积攒了大量业务数据,心愿通过数据理解一段周期内的企业经营状况。因而,这一阶段银行以看到过来的形容型剖析为主。
在数据分析 2.0 阶段,银行不仅仅要对曾经产生的业务进行评估,还须要对业务进行前瞻性预测。因而,这一阶段银行在形容型剖析的根底上,又会大力开展面向未来的预测型剖析:须要建设数据迷信团队,针对海量数据进行摸索、钻研,从数据中洞察业务趋势。
随着云计算技术的遍及,企业数据分析正进入 3.0 阶段。在这一阶段,银行心愿进步数据分析的时效性,买通前后端,将剖析发现的业务洞察嵌入业务流程,自动化、智能化驱动业务。因而,银行逐渐发展“决定当初的经营型剖析”,在发展业务流程或流动过程中,间接调用数据产品或服务,利用数据分析成绩,驱动业务向心愿的方向倒退。
银行须要撑持全视角的数据分析
牛云飞认为,数据驱动型银行应具备全视角数据分析能力,传统 BI 平台已无奈满足全视角剖析需要,银行须要建设一体化的数据平台。一体化数据平台要具备三项根底能力:多状态数据管理能力、多样化剖析计算能力和多维度的弹性伸缩能力。
牛云飞示意,一体化数据平台应该可能兼容结构化、半结构化、非结构化等不同状态、不同时效性的数据,进行多样化的计算和剖析,并依据业务需要变动进行弹性伸缩。
在实现上述能力的根底上,银行能够通过一体化数据平台满足外部业务客户、司法审计用户、金融监管用户的业务需要。在银行业数据分析需要转变过程中,银行也从本身的金融科技倒退角度看到了新技术在性能、弹性和老本治理上的劣势,越来越多的银行开始利用分布式技术,建设全行级的一体化数据平台,整合全域数据,造成面向整个银行对立的数据视图,撑持全视角数据分析。
一体化数据平台建设思路
“银行一体化数据平台的建设不是欲速不达的”,牛云飞说,它的倒退同样经验了长期的演进过程。
在数据分析 1.0 阶段,银行次要采纳传统的数仓平台,次要针对银行外部的结构化数据,撑持报表、查问、多维分析、数据散发等形容型剖析,辅助日常决策。这一阶段采纳的技术路线以传统 MPP 数据库(以一体机为主)加 Oracle 为主。
最后,传统的剖析型数据库广泛采纳共享磁盘并行处理架构(基于 SAN 存储),节点规模通常不大,并且随着扩容,零碎性能晋升幅度会越来越小,存在网络资源竞争强烈、扩展性差等缺点。这种架构次要面向业务条线或部门的剖析利用、数据集市等场景。
为了满足搭建银行全行数据平台的需要,基于齐全无共享的 MPP 架构逐步成为构建面向全行对立数据视图的一种支流技术路线。这种架构的产品以一体机为主,老本绝对较高。随着数据规模的扩充,对企业造成的老本压力也越来越大。同时,这种架构因为采纳存储计算紧耦合的设计,无奈满足高并发、混合工作负载等方面的需要。
近些年,随着银行信息化建设的推动,传统数仓平台利用面临挑战着诸多挑战:
- 业务场景繁多:数据平台撑持的剖析次要针对曾经产生的业务状况进行反映或诊断,不能对业务进行灵便探查,无奈满足业务人员自主用数需要,更不足前瞻性预测能力;
- 业务体验不佳:很多银行随着业务的倒退,数据规模的增长,数据平台面临计算能力和扩大能力的瓶颈,这导致日常数据处理工夫过长,跑批经常出现提早,重大影响了业务体验和业务决策;数据整合有余:很多数据平台尽管定位是企业级,然而整合数据范畴受限,没有造成企业级数据视图。此外,针对企业混合数据生态,尤其是半结构化、非结构化数据、或高时效数据,更是不足整合能力;
- 数据撑持受限:因为数据整合的范畴受限,难以构建面向全行的、对立的数据视图,无奈对上游剖析利用造成无效撑持;
- 建设老本过高:很多银行数据平台采纳关闭的一体机,随着建设的深刻,算力和存储能力驱动的扩容越来越频繁,专有设施每次扩容消耗了大量的人力、物力和财力,老本居高不下。
面对传统数据仓库带来的挑战,很多咨询机构都提出了多元化、混合架构的思路,技术上引入了纯软的 MPP 数据库和 Hadoop。但随着银行业务负载越来越简单,需要越来越多,多元化平台无奈实现高并发、负载无奈隔离等缺点愈发凸显,同时还存在业务体验稳定、数据整合有余、数据撑持不佳、运维治理简单等毛病。
对此,多家市场调研机构公布的报告显示,云原生数据仓库的劣势大大超越传统数据仓库。Gartner 预计到 2023 年,寰球 75% 的数据库都会运行在云端。在这样的背景下,国内外支流的私有云厂商,均推出了基于云原生架构的数据库产品。同时,Snowflake、Databricks 等独立软件厂商也推出存算拆散、湖仓一体架构的产品。
其中,Snowflake 提出了基于对象存储的多集群弹性并行处理架构(Elastic Parallel Processing,简称 EPP),这种架构具备 MPP 执行引擎、规范 SQL 接口,元数据、计算和存储三者拆散、多集群对立数据存储层、对象存储作为数据长久层等特点。
酷克数据作为国内最早专一于云原生数仓研发的独立软件厂商,旗下外围产品 HashData 基于当先的 EPP 架构,采纳对象存储作为数据长久层,实现了存算拆散、湖仓一体化,具备高可用、高并发、近乎“零运维”等特点,全面反对银行构建一体化数据平台。
凭借当先的技术劣势,联合本身丰盛、成熟的实践经验,HashData 目前已广泛应用于金融、政务、运营商、交通物流、能源和互联网等畛域。
在银行业,HashData 为国有大行、政策性银行、金融监管机构、股份制商业银行、省农信等提供数据治理、剖析服务,助力银行构建面向全行对立的数据视图。HashData 撑持了寰球最大规模的金融行业集群,期待将服务头部客户的实践经验宽泛推广,帮忙金融企业实现业界当先的技术架构降级,升高数据分析门槛,充沛开释数据价值。