作者: 李欣 诺亚财产数据总监, 卢帅  诺亚财产高级数据开发

客户简介

诺亚控股有限公司以“诺亚财产”为品牌,源起于中国,是首家在港美两地上市的中国独立财产管理机构,首家创始了财产治理和资产治理的双轮驱动业务模式,同时也是国内首家取得规范普尔“投资级”评级的财产治理公司,公司业务涵盖财产治理、资产治理和其余业务。诺亚数据智能部门负责公司大数据体系框架建设,次要工作是撑持日常的BI剖析,数据看板,人群画像,自助剖析等场景。

在公司数字化转型的背景下,业务增长带来了数据量的激增,不同的数据需要衍生出各种数据服务,不同的数据服务抉择不同的数据库和数仓技术,比方MySQL,Impala, Greenplum,ElasticSearch等。为了最大化的升高运维老本,提供高性能的数据服务,做到真正的极速对立,从2021年上半年开始,诺亚数据智能部门开始上云,将自建CDH替换成阿里云对立大数据平台,同时正式引入Hologres,替换外围的Impala OLAP剖析局部,晋升数据查问效率,全面打造金融数字化剖析平台。因而在本文中,咱们将会具体介绍诺亚从CDH迁徙阿里云大数据平台的前因后果,以帮忙更多的业务更加方便快捷的建设实时数仓。

业务挑战:自建CDH组件多运维难、交易指标多元查问慢

为了反对业务,诺亚原大数据架构采纳Impala和CDH构架构建,架构图如下:

在最后的架构中,咱们从Cloudera购买了License 基于CDH 搭建了一套数据服务平台:上游的源数据库次要是 MySQL,Oracle,Mongo等 ,业务相干的数据和局部日志数据都记录在外面。咱们通过 DataX 和 Sqoop 将数据库中的数据导入到 HDFS,通过 Hive的元数据映射生成 Schema,并接入 Impala 实现数据的即席查问。数据仓库的分层和建模全副都在 Hive 中实现,借助 LDAP 和 Sentry 进行用户权限治理,分析师在HUE中进行查问。

对于实时指标,咱们通过Debezium 采集 MySQL 的 Binlog 日志,解析到Flink中对数据进行解决建模,并关联Kafka中的埋点日志数据,生成实时指标写入到 MySQL 中。该流程实用于大部分的报表需要,然而因为 MySQL 对于OLAP 的工作执行效率较低,在单日报表超过50万记录的状况下,一些多维分析后果可能须要8+秒以上能力返回,十分影响报表查看体验。同时咱们也提供了相应的数据服务,分析师通过 JDBC 的连贯形式对数仓数据进行查问,数仓数据通过数据API间接利用于一线业务,相应的 BI 报表展现也基于 Impala 计算实现。

随着业务的增长,此架构面临如下挑战:

1、业务方面:

  • 数据分析性能有余:因为咱们的用户可能多年的存量和交易指标特地多,数据须要简单关联查问能力失去数据指标,还有高并发查问工夫周期比拟长的数据,返回工夫太长,业务方体验很差。
  • 实时剖析场景有余:历史的数据架构导致数据提早频繁,无奈满足业务方及时做出决策。
  • 查问引擎不对立 :零碎可能有多种查问引擎组成,每一种查问引擎都有本人的DSL,减少了用户的学习老本,同时须要跨多数据源查问也是一种不不便的的事,异构查问引擎也容易造成数据孤岛。
  • 用数据难 :因为数据分布在各个系统中,用户无奈在一个零碎满足所有的数据需要。特地是一线的经营和剖析同学,须要通过各个系统导出大量的excel表格的形式做数据分析,费时费力,同时也存在肯定的数据隐患。

2、技术方面:

  • 应用的组件过多:实现不同的需要须要不同的组件,例如批处理采纳的Hive , 即席查问应用的Greenplum和 Impala ,这对于数仓外部的治理提出了较高的要求,对于分析师和报表同学不够敌对。
  • 运维难度大:CDH 尽管是商业软件平台,提供了界面化操作,然而大多数组件仍然须要本人去摸索保护,并且官网文档重大缺失。因为CDH曾经不在中国市场提供更新,裸露进去的破绽也越来越多,并且将来的不确定性也在减少,不足稳定性。
  • 大数据量查问较慢:咱们应用Impala进行减速查问,然而数据文件没有无效的索引,对于数据量的扫描过大的查问,有时候须要几十秒能力返回后果。并且本身的SQL优化器比拟毛糙,SQL略微写的不够标准,就会产生不必要的资源开销,导致查询卡死。
  • Impala的本身的缺点:在表数据或者表构造更新的状况下,须要手动的刷新元数据能力查问到最新的数据,极其不不便。
  • 老本高:业务倒退快,产生数据疾速收缩,Impala的线性扩容老本比拟高。

技术选项多维比照

为了解决下面的痛点,咱们想要对架构进行降级,在寻求解决方案的过程中,OLAP剖析是咱们十分看重的一个局部,因而咱们依据业务需要评估了四个维度:

性能HologresStarrocksClickhouse
规范SQL反对反对,兼容Mysql协定不齐全反对
高并发查问端到端的全异步解决框架,能够防止高并发零碎的瓶颈,充分利用资源,并且最大可能地防止存储计算拆散零碎带来的读数据提早的影响。无限反对不反对高并发,官网倡议QPS 为 100
运维欠缺的dashboard,包含查问日志,慢SQL等都能够查问社区版不提供dashboard,须要本人实现自动化部署依赖zookeeper,运维老本高
性能Hologres反对行存储、列存储和行列共存多种存储模式, 能够依据业务场景抉择适合的存储类型大宽表和多表join性能比ck更好单机性能强悍,然而单表查问效率快。
社区(技术支持)响应工夫较快,版本迭代快。较快较慢,社区活跃度较低

解决方案:自建CDH迁徙上云,Hologres助力对立OLAP剖析

通过4个维度的充分考虑和论证,咱们决定将自建CDH迁徙成阿里云大数据平台。迁徙后诺亚基于阿里云大数据平台架构图如下:

诺亚数据智能核心在2021年进行了上云的打算,全面实现数据中台的云原生,摈弃掉原来的CDH那套数据架构,咱们花了一年的工夫进行了整个数据中台的革新和迁徙,原来的数仓基于impala的表大略有1w+ 张,烟囱式开发,老架构的数仓是DL层 + DH 层,没有对于数据进行分层和积淀 ,导致数据冗余重大,工作之间相互依赖重大,没有很好的进行对于业务模块的划分。

整个数据中台依靠于DataWorks,离线局部在MaxCompute中进行,通过DataWorks的数据同步模块把离线局部同步到MaxCompute和实时局部同步到Hologres,而后利用Flink的把神策埋点的Kafka数据荡涤同步到Hologres中,同时也通过Hologres的表面把MaxCompute的数据迁徙到Hologres中,保障对立OLAP剖析引擎。

在迁徙的过程中,咱们是两套中台并行,新的业务咱们间接依赖阿里云进行开发,老的工作,咱们依据业务线对于数仓进行了重构和分层,ODS , CDM (DIM,DWD,DWS) ,ADS 层,对于表进行了梳理和整合,计算资源和工作缩小了一半,工作之间的依赖关系通过DAG图清晰明了,不要再为了改一个脚本,进行俄罗斯套娃式的革新脚本,大大节俭了人力老本。

业务价值:更简的架构,更快的查问,更低的老本,全面金融数字化剖析

通过将将技术架构从自建CDH全面上云后,对咱们以及业务来说,都带来了十分多的益处,次要有以下几点:

  • 原来的IDC的CDH ,每年破费在机房的费用也很高,当初上云也满足了公司降本增效的整体方针,主动上云之后,咱们在大数据运维层面的投入变少,让一些基础设施根底服务交给阿里云去做 ,更多的工夫专一于业务,缩短了需要的交付工夫,同时也保障了交付的品质 ;其次,阿里云的云原生的拓展性,弹性计算,能够随时的扩容缩容,可能满足业务收缩带来的紧急需要,高效稳固。阿里云的平台能力很强,对于开发,分析师都很敌对,上手能力很快,操作简略便捷,学习老本较低。
  • 实时的广告投放多维分析,帮忙市场部门及时提供数据撑持,及时调整投放策略,进步投资回报率。原来的神策埋点数据是通过Kafka间接进入到HBase,而后通过挂载hive的表面的形式来做各种维度的聚合,指标类的计算,而后再借助Impala的减速查问,这样的形式整个数据链路太长,经常出现数据失落的状况,无奈满足业务方的真正的实时数据需要,后续咱们把kafka的数据间接sink到Hologres中,借助于Hologres+ Flink的实时数仓的能力,满足业务部门的实时需要。
  • 作为用户指标的载体,实现用户画像等的精细化剖析需要,为公司数字化赋能。准确的数据去重,Hologres兼容PostgreSQL生态,原生反对Roaring Bitmap函数。通过对标签表构建索引,将用户ID编码后以Bitmap格局保留,将关系运算转化Bitmap的交并差运算,进而减速实时计算性能。在超大规模用户属性洞察剖析的场景中,应用RoaringBitmap组件可能实现亚秒级的查问响应。
  • 以Hologres作为业务部门拜访数据仓库的入口和外围,欠缺交互式查问体验。应用Hologres,在性能上显著显著,之前千万级的表的查问在5s+ , 以后在查问在 300ms左右,查问均匀性能晋升 90%以上,目前整体曾经迁徙了全副的报表800张+。 Hologres能够依据业务场景做行列存储的优化,既缩小了运维压力,又对于查问性能晋升显著。
  • 作为数据部门提供OneSevice的数据服务平台的底座,稳定性和高性能的撑持业务零碎,进步了客户的体验感。原来提供的API是查问MySQL,然而面临一个问题就是数据量大和并发数大时,接口相应速度很慢,影响到客户的体验,前面咱们借助于DataWorks的数据服务模块,把这块的接口的底层查问引擎全副切换到Hologres,接口又原来的均匀800+ms缩减到 300+ms ,同时也缩小了数同步,借助于Hologres和MaxCompute的生态完整性,间接刷成Hologres的表面,减速查问。

写在最初

孙甜 诺亚财产数据智能核心总经理 寄语 :

阿里云Hologress团队和技术支持团队真正做到了以客户为核心,不以销售额为导向,而是一路陪伴客户成长,并被动帮忙咱们实现降本增效。诺亚面向高净值客户提供简单资产配置服务,高端金融服务的业务属性人造带有“行少列多”的数据特点。大多数数据厂商偏爱服务数据量大且结构化水平高的互联网客户--算力耗费大且场景较为标准化;而高端金融服务的“行少列多”则是数据服务的深水区,算力耗费无限但客户需要又极为简单,如果不是抱着用数据扭转行业的信心和过硬的技术,是很难服务好金融行业客户的。Hologres反对同学不仅亲自来诺亚为咱们提供了高水平的数据培训,还不厌其烦地在钉钉群里解答咱们的各类问题。甚至咱们深夜发问,也会有Hologres的搭档迅速响应并踊跃解决。更让我打动的是,咱们上云以来在Hologres团队的反对下做了大量计算优化,在进步了数据计算速度的同时也升高了一半以上的老本。Hologres团队素来没有因为咱们生产升高而埋怨,把咱们当做战友一样全力支持。Holo团队对咱们来说亦师亦友,陪伴咱们一路成长,也心愿未来可能一起打造金融大数据的最佳实际!