关于大数据:巨变来了金融大数据平台走向何方

3次阅读

共计 4367 个字符,预计需要花费 11 分钟才能阅读完成。

作者:李静瑕 起源:轻金融

在“数据为王”的时代,金融大数据被誉为“待开掘的金矿”,其价值曾经成为共识。

自从 2014 年大数据首次作为国家策略被写入政府工作报告,金融机构一直引入大数据平台、构建大数据体系。

现在大数据早已成为金融机构外围竞争力的要害一环,其中,数据中台、大数据平台曾经成为了金融机构全面数字化转型的要害,金融机构服务客户、翻新产品、外部治理等都越来越依赖“数字”。

值得关注的是,近几年数据中台衰亡,成为金融行业的话题之王,大数据平台被议论得绝对较少。随着云计算、AI 等技术的衰亡与大数据的交融加深,大数据平台曾经站在了新的关口。

01 新 关 口

大数据技术加人工智能等技术的利用,正在让银行的数据变成银行的高价值资产,推动科技赋能和场景利用翻新,进而推动外部 IT 零碎的重构和银行的组织架构改革。

“建立健全企业级大数据平台,充沛开释大数据作为基础性策略资源的外围价值。”央行印发的《金融科技 (FinTech) 倒退布局(2019-2021 年)》曾提到。何为大数据平台?

依据 2021 年 12 月 29 日公布的《金融大数据平台总体要求》(下称《要求》)的定义,金融大数据平台是企业级、分布式、凋谢、对立的大数据平台,应包含数据接入、数据存储、数据处理、数据分析及数据服务相干组件。

而金融大数据平台的总体目标是帮忙金融机构更高效、更疾速地实现金融大数据利用的开发、部署和治理,从以交易为核心转向以数据为核心,以应答更多维、更大量、更实时的数据和互联网业务的挑战。

谈到大数据计算技术,不能绕开的就是开源大数据套件 Apache Hadoop。2008 年 Hadoop 性能孵化残缺之后,Cloudera(商业化公司)推出了本人的 Hadoop 发行版 CDH(Cloudera’s Distribution Including Apache Hadoop)。CDH 同样开源,然而在稳定性、治理、部署、运维等方面对用户更为敌对,为 Hadoop 落地带来了帮忙。

到了 2011 年左右,Hadoop 技术进入成熟期,再加上互联网金融衰亡数据量极速收缩,传统的数据系统曾经满足不了金融机构的需要,于是具备分布式特色的 Hadoop 零碎进入到这些机构的抉择清单。

而金融机构密集落地基于 Hadoop 的大数据平台,还要在两年之后。例如,农行在 2013 年开始建设自主可控的大数据平台,最终选定的就是 MPP 数据库 +Hadoop 混搭的架构;2014 年工行正式基于 Hadoop 技术建设了大数据平台。

2015 年之后,挪动互联推动客户行为模式减速改革,金融机构进入到数字化转型新期间,不仅仅是解决越来越海量的数据,而是要应答客户行为模式变动对客户数据进行剖析,对客户进行精准营销等。此时很多机构将数据分析等性能切换到了 Hadoop 零碎上。

中国信通院 2019 年对测试的四五十款大数据平台的统计显示,其中基于 CDH 和 HDP 社区版二次研发的产品占 70% 以上。

以后大数据平台正站在新的关口。

一方面,Cloudera 此前发表在 2021 年底和 2022 年 3 月完结 CDH6 和 HDP3 的服务反对,转而推出新的产品 CDP。这就意味着,金融机构以往应用的 CDH 和 HDP 零碎面临全面的迁徙,急需新的代替解决方案。

另一方面,金融科技信创浪潮之下,金融机构大数据平台国产化是一个趋势性抉择。央行《金融科技倒退布局(2022-2025 年)》要求,要放慢制订并组织施行金融业要害软硬信息基础设施平安布局,切实进步金融业要害软硬信息基础设施平安保障能力。

在这样的背景下,金融机构大数据平台该何去何从?就在这个新的关口,国内第三方金融科技厂商站了进去,凭借本身多年积攒的能力和教训,提供丰盛的金融机构大数据平台解决方案。

02 新 趋 势

除了行业环境的变动,大数据平台技术也呈现出了一些新的趋势,使得金融机构对大数据平台提出了更高的要求和使命。

一是交融。大数据与云计算、AI 等技术的交融,使得平台部署在云上曾经是一个大趋势。不过因为金融行业对私有云应用有危险平安的考量,目前更多是混合云架构为主。Cloudera 的 CDP 就是一个混合云 / 多云的大数据平台。

另外是与 AI 的交融。如 AI 的智能算法等能够使用到大数据外面去,一方面大数据给 AI 提供数据上的撑持;另一方面,AI‍‍应用的一些惯例的算法能够反哺到大数据平台下面,去联合‍‍大数据的数据个性,能够给客户进行精准的产品举荐。

IDC 中国公布 2021H1 大数据平台市场份额报告显示,整体市场规模达 54.2 亿元人民币,相比去年同期增速为 43.5%,“市场增长的驱动力来源于数字化转型、人工智能的部署、行业云的建设以及新基建的政策驱动等”。

二是实时性。金融机构通过多年对大数据平台的布局,基础架构已缓缓成型,撑持其业务场景高效率成为新的需要。以后,随着大数据与云计算、AI 等技术的深度交融,市场也有要害认为“大数据”正在慢步走向“快数据”时代。对于金融机构而言,就是晋升大数据的“实时性”。

例如,工行在 2020 年就开始建设大数据高时效类场景,即大数据平台外部除了批量计算之外,还须要实时计算、联机剖析、数据 API 等平台,缩短数据端到端闭环工夫,造成联机高并发的拜访能力,晋升数据赋能业务的时效。

三是前瞻性。大数据平台撑持金融机构更加理解客户,也能够为客户提供服务做前瞻性布局。《要求》外面也提到,金融大数据平台具体性能技术能够划分为根本要求和加强要求。其中,加强要求是从技术的发展趋势和金融用户的前瞻性需要动手提出的。这意味着,金融机构须要从客户需要的上前瞻性地晋升大数据平台的构建。

最初则是安全性。无论是应用的大数据平台技术的自主可控平安,还是对数据自身的平安要求,都被提到了更高的高度。这对金融机构抉择或构建大数据平台单干提出了更高的要求。

随着第三方厂商的退出,让金融机构在技术自主可控的层面有了更多的抉择。国产化趋势给第三方服务商迎来策略机遇期。

网易数帆推出的无数数据开发及治理平台——一站式大数据管理及开发平台,蕴含大数据平台与数据中台两大外围局部,次要笼罩大数据开发,任务调度,数据品质,数据治理及数据服务。

大数据平台层本质上也是 Hadoop 发行版,相比社区版本集成了 Spark 最新版本且领有欠缺的权限管控以及审计能力,能够大幅提高业务离线 ETL 效率。此外,数帆针对 Impala 组件进行了大量的性能加强以及性能优化,保障了应用过程中的稳定性以及性能。

值得关注的是,国产化产品是否满足金融机构的需要?金融机构如何抉择大数据平台的新方向?

03 新 选 择

要答复这个问题,就要先理清金融机构目前须要什么。

首先,金融科技自主可控、数据安全可控、老本管制、疾速的服务反馈是金融机构以后对大数据平台需要的关键词。金融以平安为主,其数据安全和业务连续性保障的技术要求通常高于其余行业。

例如,在管制老本上,某家金融机构本身 IT 技术实力较强,其集群十几个,节点数预计上百,现阶段数据平台有 2 - 3 百万软件单干的费用。另外应用 CDH 版本不再更新,须要专门造就一批团队负责保护,也会减少老本。

这就使得大数据平台的根底软件金融机构往往是抉择第三方厂商产品。面对这样的状况,金融机构或持续往 CDP 迁徙,或抉择国产化技术的大数据平台根底软件进行迁徙。

其次,无论抉择何种产品,金融机构会关注大数据平台产品的“遍及度”,即应用的底层平台是否是具备高遍及度的,例如 Hadoop、Spark 等。此外他们更心愿产品具备开源的性质。

“金融机构对大数据整套零碎的依赖性越来越显著。”网易数帆大数据根底技术平台负责人、资深架构师蒋鸿翔通知轻金融,大数据平台是建设在一个‍‍低成本的服务器的根底之上,能够有限分布式扩大的,所以其老本、扩展性以及稳定性都是金融机构很好的抉择。

除了产品自身,金融机构越来越重视第三方金融科技公司的实力以及产品的服务,弱小的技术撑持,全面的生态兼容、及时响应破绽修复、疾速更新迭代等都是供应商须要具备的能力。

当然,从目前的环境下来看,国产大数据平台曾经造成了如下劣势,自主可控,将控制权把握在企业本人手中;本地服务迅速响应、顺畅沟通;单干共创,深刻业务,定制化需要反对。

以网易数帆的无数数据开发及治理平台为例,即领有开源的底座,并且反对兼容 CDH 外围组件生态,且在此基础上依据技术发展趋势进行了局部组件降级以及扩大,反对金融机构的定制化需要,例如在一个规范产品的我的项目里,还能反对 20%~30% 的定制开发需要。

在与某证券公司共建大数据平台的过程中,网易数帆次要就数据管理、平安核心、数据规范、数据品质等几大子模块推动开发单干,同时会根据证券行业本身的非凡需要进行定制,如用户画像的加强、典型的交易日调度,即数据仅在交易日加工等,从而造成更合乎行业个性的平台解决方案。


网易数帆金融大数据解决方案架构

同时,网易数帆还配套一站式数据中台及丰盛数据产品。在大数据发行版底层组件的根底之上可供用户选择性提供一站式数据中台服务以及丰盛的数据产品,不便业务开箱即用。目前,网易数帆已服务多家金融行业客户,包含某国有银行金融科技子公司、华泰证券、西南证券、华夏理财、华福证券等,落地性失去充沛验证。

在大数据平台这个工夫关口上线符合以后金融机构需要的产品,次要也来源于网易数帆在大数据畛域深耕多年,积攒了欠缺的大数据研发生态体系以及丰盛的生产线运维教训。

在 Hadoop 还未问世之时,2006 年网易就开始本人做分布式存储系统。2011-12 年引入 Hadoop 体系,用来撑持邮箱、新闻等业务。到了 2015 年,为解决组件扩散不足对立治理的问题,网易开始着手开发大数据平台工具,做了相似 CDH 的平台整合。2018 年在大数据蓬勃发展之时,网易数帆开发了数据中台,成为面向各个 BU 的通用工具。

到当初 4 年工夫,网易数帆也造成了一套数据中台的方法论。

大数据技术的研发须要的是弱小的科技人才队伍的撑持。网易数帆以后大数据平台和数据中台团队人数已达数百人,可能提供技术支持、客户运维、外围研发三位一体的服务保障。

自身技术过硬、产品兼容性强再加上服务的劣势,网易数帆的大数据平台产品曾经受到了多家金融机构的关注。

“很多金融客户,偏向于云计算私有化部署,‍‍所以数帆在金融行业大数据平台往云化部署的场景下略微来说会慢一些。在非金融行业,其实咱们曾经往云平台方向去转了。‍‍”面对将来大数据平台云化的趋势,蒋鸿翔如是示意。

依据 statista 的测算,2019 年寰球 Hadoop 和大数据市场规模约在 340 亿美金左右,且 5 年复合年增长率高达 28.5%。随着金融行业数字化转型的深度推动,金融机构对大数据依赖性越来越强,大数据平台的这块市场蛋糕还会越来越大。

领有国产化大数据平台的技术厂商带着新的产品进入市场,对金融行业而言是必然选择,率先布局的金融机构无望更早占得先机。

正文完
 0