关于数据库:客户心声|腾讯云数据库助力国信证券反洗钱系统分布式改造

26次阅读

共计 5729 个字符,预计需要花费 15 分钟才能阅读完成。

证券行业属于数据密集型行业,海量高价值历史数据和爆发式用户增长带来的海量实时数据是证券行业的倒退引擎。这也就意味着证券行业对数据库提出了更高要求,已经的国外传统集中式数据库支流解决方案弊病逐步裸露。国产数据库市场亟待欠缺,腾讯云数据库作为国产化建设中的重要一员,为广大客户提供称心的国产化解决方案。最近,腾讯云数据库 TDSQL 也以优异的产品能力荣获 2022 年寰球数字经济大会产业翻新成果奖。

在证券行业,腾讯云数据库也落地了多家机构的外围零碎。国信证券新业务零碎抉择采纳 腾讯云企业级分布式数据库 TDSQL+ 中标麒麟零碎 + 海光服务器模式 ,承载国信证券的 OTC 交易柜台零碎、反洗钱零碎和 HR 人力管理系统等,实现证券零碎全栈国产化。上线运行以来, 承载了单日亿元级别的交易规模。(点击此处,理解详情)

本篇转自国信证券零碎运行部颜龙发表在《交易技术前沿》第 48 期的文章《国产分布式数据库在证券行业的利用价值》。文章具体介绍了国信证券进行国产分布式数据库降级前的调研工作以及降级后的利用价值,颜龙联合国信证券反洗钱实际案例验证了国产数据库齐全有能力代替证券零碎特定业务类型现有的集中式数据库。以下为文章全文:

随着证券业务倒退以及数据库技术进化,加上国产化减速的推动下,传统数据库逐步面临窘境。本文将解读这些窘境,以此登程论述咱们对于国产分布式数据库在证券行业内利用价值的思考。而后通过我司的反洗钱实际案例来进行摸索验证,并尝试讲述国产分布式数据库如何取长补短,在证券行业的各类业务场景下产生最大化的价值。

一、概述

近年来,证券行业线下服务转型线上化过程减速,包含营销获客的形式、AI 单向智能开户、非现场业务的办理、在线直播、小程序、小视频等互联网形式的应用等,同时近年证券市场行情火爆,证券用户数量和并发量大幅晋升,从而对撑持业务的 IT 零碎及数据库提出了更高要求;随同在证券公司进入全面翻新倒退阶段,证券业务种类也日渐减少、业务流程复杂度一直进步,现有非国产集中式数据库架构在满足新业务、新监管规定以及今后一段期间外部管制治理的高效率监控及治理的需要方面已逐步艰难。

证券行业为数据密集型行业,倒退至今曾经累积了海量的高价值数据,目前每天产生海量的新数据。在海量用户和大数据量下,以后行业次要应用的国外传统集中式数据库弊病逐步体现:集中式数据库体系架构短少计算存储拆散、弹性伸缩能力、跨数据中心的高可用能力;容量面临瓶颈,依赖垂直扩容,且很难做到业务通明或者无感知,老本昂扬;此外无奈满足自主可控及国产化的指标

然而,随着数据库畛域技术近年来的飞速发展,云原生数据库、NewSQL、分布式数据库等具备业界代表性的数据库产品进入人们的视线。基于对数据库畛域技术发展趋势以及新技术产品的理解,联合证券行业现状以及我司 IT 零碎的理论状况,咱们初步认为国产分布式数据库有能力解决咱们的以后窘境,能够满足证券行业的业务场景需要,且在我司具备落地的条件。接下来咱们将对国产分布式数据库在证券行业中的利用价值进行摸索和验证。

二、国产分布式数据库

2.1 根本能力和实用场景

当初让咱们来看看分布式数据库具备了哪些根本能力,解决了哪些问题,以及可实用于哪些场景。

首先,受限于传统架构,集中式数据库应用复制和切换作为次要伎俩的高可用模式已逐步无奈满足金融交易业务场景日益增高的可用性要求。而分布式数据库具备了更欠缺的高可用能力,以一个集中统一的视角治理所有数据库组件,任何组件异样都可实现主动切换,保障整体的可用性。此外,数据通常由多正本保留,主正本与其余正本之间通过 raft 或 paxos 等协定实现数据的强一致性同步,可保证数据不失落。

而后,针对容量瓶颈,包含计算能力有余和数据大容量问题,分布式数据库应用了存储计算拆散和数据分片的技术,使得其架构反对计算能力和存储的横向扩大。一方面,集群的计算工作次要由计算节点承当,计算节点能够做到无状态从而实现线性扩大;另一方面,数据依照特定规定切分成分片,每个分片保留特定局部数据。由此,咱们能够通过减少计算节点来裁减计算能力,通过减少分片来实现数据库量的扩容,且实践上是有限扩容的,而在这个根底上可持续实现弹性扩缩容。

其次 高并发问题 是传统集中式数据库难以解决的问题,因为单台服务器的并发和计算能力总是有下限的。而对于分布式数据库,一方面,利用的并发会话能够由多个计算节点承当,扩散了并发拜访的压力;另一方面,分布式架构将数据打散到了各个分片之中,相当于扩散了并发申请带来的读写压力。因而在现实的状况下,分布式架构下的并发能力也是反对线性扩大的。

再次,老本问题 也是传统集中式数据库所面临的痛点。就如前所述,传统架构短少横向扩大能力,因而面临增长的业务、扩充的数据容量,数据库只能抉择垂直扩大来取得服务器资源上的补充。但低廉的 CPU 资源向上堆砌、内存和存储扩容所带来的老本不菲,并且很容易达到最终瓶颈。分布式数据库则将垂直扩容转变成为了横向扩容,形成计算存储节点的每一台服务器都并不强依赖高性能服务器。在这个状况下,减少节点能够轻松解决资源扩容问题,而老本绝对于垂直扩容则要低很多。

最初,国产化的大环境问题 也是证券行业目前重度依赖的非国产商业数据库所无奈绕开的问题。国产分布式数据库目前基于开源数据库自研扩大为分布式架构,甚至做到真正意义上的全自研。因而国产分布式数据库是国产化的一个切实可行的倒退思路。

综上所述,咱们认为国产分布式数据库有能力解决行业数据库目前所面临的窘境,在 OLTP 在线交易型、OLAP 在线剖析型业务、互联网高并发型、交易型和剖析混合型的证券业务场景下,都将有不同水平的利用价值。

2.2 根本现状简述

如咱们所知,当今分布式数据库次要有两大类:第一类是从单体数据库和自研中间件演进而来的分布式数据库,咱们习惯称之为 数据库中间件型分布式数据库 ,目前在国内比拟成熟的有 TDSQL MySQL 版、TDSQL PG 版、GoldenDB、HotDB、GuassDB-300 等;第二类叫做NewSQL,也叫 原生分布式数据库,国内绝对成熟的有 TiDB、OceanBase。此类数据库架构的每个组件都是基于分布式进行设计的,天生自带分布式基因。NewSQL 从分布式 NoSQL 存储登程,演化出关系型数据库能力,从而进化成为分布式数据库;而中间件型分布式数据库则从关系型数据库登程,交融分布式个性加强架构能力,最终成为分布式数据库,二者必由之路。因为关系型数据库的实现难度是远大于分布式存储的,因而中间件型分布式数据库相当于走了捷径,大幅升高了产品工程开发的工作量,同时升高了引入危险的可能性,基于现有生产数据库也使其可能更快地走向成熟、持重。而 NewSQL 的倒退路线绝对艰巨,但它也带来了数据库架构革命性的扭转。

基于以上状况,同时针对我司 IT 零碎理论状况进行考量,咱们尝试在 NewSQL 和中间件型分布式数据库中各选其一进行摸索和引入。因篇幅起因,咱们接下来选取其中一个对于 TDSQL PG 版的实际案例进行介绍,验证国产分布式数据库在我司的利用价值。TDSQL PG 版为系列产品中具备 HTAP 个性的版本,兼容我司相干传统数据库协定。

三、摸索案例

我司反洗钱零碎目前领有7T 业务数据(大表记录数十亿级),利用同时具备了 OLAP 和 OLTP 两种业务行为,并且应用了存储过程、窗口函数等简单数据库性能,在泛滥业务零碎中具备代表性。咱们尝试应用 TDSQL PG 版对其进行适配落地,来验证分布式数据库的利用价值。咱们组建了项目组并进行了大量的适配和测试工作:筛选了典型的业务场景;部署了全量数据的测试环境;进行了异构数据迁徙;针对指标数据库产品个性进行了利用的 SQL 革新;基于分布式的表构造革新;后台作业、框架降级、页面性能革新以及各类数据库软件适配性问题的解决。

3.1 抉择 TDSQL PG 版进行适配

如前所述,反洗钱业务兼备了 OLTP 和 OLAP 的特色,对此 TDSQL PG 版的 HTAP 能力具备独特劣势:

1、满足 OLTP 业务场景的高并发需要,同时也能解决计算能力的有余的问题;

2、满足 OLAP 业务场景的计算密集型需要,同时也能解决大数据量下的时延以及吞吐量问题;

3、可取得代价、性能、保护老本之间的衡量,同时思考大批量数据的迁徙革新老本。

此外 TDSQL 反对分布式事务、自定义函数、存储过程、窗口函数,分片键革新反对主动指定,等。因而 TDSQL PG 版具备较为符合的个性来对反洗钱零碎进行适配。

3.2 适配收益

3.2.1 高可用架构能力的晋升

以后反洗钱零碎运行在集中式数据库上,应用传统复制技术部署了一台实时同步的备机。当主库故障的时候,需手工切换至备库,同时利用批改 ip 地址指向以复原服务。即一主 1 备架构,切换为手工操作,高可用 切换时效约为分钟级

图 1 反洗钱零碎数据库的传统集中式架构

在反洗钱 TDSQL PG 版测试环境中,咱们部署了 3 个 DN 的分布式集群。每个 DN 即为一个高可用单元,由 1 主 1 备共两个正本组成,别离部署在 2 台服务器上。从正本数量上来说,其高可用能力相比以后集中式架构失去了加强。且得益于 TDSQL PG 版的分布式架构,反洗钱数据库有了扩散集中故障危险的能力。每个 DN 的主备之间均为主动故障切换,时效为秒级,因而从切换时效上来看,反洗钱数据库的高可用能力也失去了加强。

图 2 反洗钱零碎数据库的 TDSQL PG 版分布式集群架构

3.2.2 可扩展性方面的改善

反洗钱零碎以后的集中式架构仅实用垂直扩容。对于物理机服务器计算能力来说是简直无奈施行扩容的,如 CPU、内存。而对于存储容量来说,垂直扩容的量是有下限的,取决于硬件反对能力。咱们无奈无限度地挂载存储盘到一台服务器上,否则会引发服务器运行稳固方面的问题,并给运维工作带来艰难。反洗钱主库为接入了 16T 容量 FC-SAN 存储的物理机服务器,备库为 VSAN 存储物理机服务器。以后主库服务器挂载的存储容量已达到 Linux LVM 单卷下限,挂载存储盘数量已达 18 个,持续垂直扩容的价格、保护老本极高。以后存储使用率高达 90%,而行业监管要求寄存 5 年历史数据,因而预测其数据量还有 40% 左右的上涨,以后反洗钱数据库架构已面临严厉的容量考验。

图 3 反洗钱集中式架构的垂直扩容形式

反洗钱 TDSQL PG 版架构具备分布式劣势,实用横向扩大。数据以分片的形式寄存在了各个 DN 中。当集群中 DN 服务器资源均匀使用率较高的时候,比方存储容量,咱们能够给集群增加一组 DN,其中蕴含 2 台服务器。也就是说,随着反洗钱业务数据量一直的上涨,总是能够通过给集群增加 DN 来进行容量裁减。而且操作在线进行,可通过集群本身的平台能力进行自动化治理。

图 4 反洗钱分布式架构的横向扩容形式

不仅存储容量,承载了集群次要计算能力的 CN 节点也反对横向扩大。当集群计算能力有余时,则增加适当数量的 CN 节点,即达到裁减计算能力的目标。

3.2.3 性能比照

咱们给出典型业务场景下的性能比照后果:

表 1 反洗钱典型业务场景下的性能测试数据比照

TDSQL PG 版双分片架构在三个场景下优于或不差于现有零碎,整体上来看反洗钱 TDSQL PG 版架构体现良好,可能满足反洗钱业务场景的需要。

3.2.4 自主可控及国产化

在测试过程中,咱们别离对 X86 以及 ARM 平台下的 TDSQL PG 版反洗钱零碎进行了验证,运行稳固,达到预期。应用 TDSQL PG 版的状况下,反洗钱零碎即可脱离集中式数据库的限度,实现齐全自主可控,因而满足行业国产化的要求。

3.3 案例总结

通过本次摸索和实际,我司发现基于 TDSQL PG 版的反洗钱零碎在海量数据下的性能、扩大能力、高可用、灾备、运维、老本节约等方面都有显著晋升,TDSQL PG 版作为分布式数据库可能为证券业务场景产生利用价值。

四、利用价值

首先,国外商业数据库已有几十年的倒退历程,占据了寰球高份额市场,产品能力成熟。相比之下,国产集中式数据库在 综合产品能力上还处于起步和倒退阶段 ,须要借助架构来补救劣势;其次,国产服务器在 硬件能力上还略逊色于目前市场支流品牌 ,因而凸显单体服务器性能瓶颈问题;第三, 国产基础设施的可靠性仍须要进一步晋升 。以上需要导致了咱们须要 通过分布式架构来解决容量扩大问题,并晋升可靠性和冗余度

以上种种,阐明了分布式数据库的一个外围特点和价值:架构横向扩大能力。分布式数据库有能力执行单台服务器无奈实现的计算、存储工作,借助分布式架构能够进步零碎的整体可靠性和吞吐能力。但同时咱们也留神到,分布式数据库有善于的业务场景,也有能力无奈笼罩的场景。面对不同的利用与环境,分布式数据库既领有特定的劣势也存在某些劣势。正如不存在完满的架构,繁多的数据库架构无奈笼罩我司所有的业务场景。

从国产分布式数据库的行业利用状况和发展潜力进一步剖析,同时联合我司的实际案例和业界同行的应用教训,咱们认为国产分布式数据库经验多年的打磨,目前已具备成熟、可继续倒退的生态

此外在银行、保险、证券等金融行业有许多胜利案例,其中包含银行外围零碎案例,其稳定性、可靠性已失去验证,能够满足金融级数据库的要求。而后,具备 HTAP 代表性的反洗钱零碎胜利实现基于 TDSQL PG 版的迁徙,证实以 TDSQL PG 版为代表的国产分布式数据库有能力代替证券零碎特定业务类型现有的集中式数据库。

其次,分布式架构为咱们带来计算、存储横向扩大能力的同时,也不能漠视分布式事务带来的时延问题,在一些低延时场景还须要连同业务角度一起去钻研其可行性;此外,产品成熟度也是咱们对国产分布式数据库进行抉择的重要考量之一,运维工具便利性、从属性能缺失、软件 BUG 是目前各类国产分布式数据库所面临的广泛问题。

最初,咱们还要充沛了解分布式数据库给咱们带来的治理方面的挑战。分布式数据库架构绝对于集中式数据库更宏大、运维复杂度更高。同时,咱们还须要关注资源使用率的问题,防止分布式架构导致的服务器资源节约问题。

整体上说,在将来的一段时间里,国产分布式数据库能够替换我司局部场景下的业务零碎。而随着产品一直的更新优化和技术倒退,国产分布式数据库能够为咱们带来越来越多的可适配场景。国产分布式数据库在我司将有越来越多的用武之地,可在证券行业产生越来越多的利用价值。

正文完
 0