关于cdh5:CDHHDP迁移之路

8次阅读

共计 6579 个字符,预计需要花费 17 分钟才能阅读完成。

哪些用户须要迁徙

原社区版用户

  • 社区版不再更新

Cloudera(Cloudera 和 Hortonworks 合并后)所有产品不再提供社区版,用户无奈获取新的性能。

  • 社区版不再收费

2021 年 1 月 31 日开始,所有 Cloudera 软件都须要无效的订阅,且订阅费低廉(50 个节点,一年订阅费 50 万美元)。

原企业版用户

  • 企业版不再更新

Cloudera 和 Hortonworks 合并后推出了新一代大数据平台 CDP,CDH 6 和 HDP 3 将是 CDH 和 HDP 的最初企业版本,用户无奈持续获取新的性能和性能晋升。

  • 企业版不再服务

至 2022 年 3 月份,CDH/HDP 全副 EoS,用户没方法获取售后反对:

起源:cloudera 官网

迁徙方向

方向一:CDP

CDP 是 Cloudera 和 Hortonworks 合并后公布的新产品,交融原来 CDH 和 HDP 能力并减少了一些新性能和 BugFix,反对云部署等能力。

尽管 CDP 提供了一些新能力,也将持续更新并提供反对,但外国的软件无奈适配国产软硬件生态(国产芯片、操作系统、服务器、中间件),技术方向不能自主可控,许可证也受外国法律限度,近期俄罗斯事件将这方面危险彻底裸露:

  • Oracle 发表暂停在俄业务

3 月 3 日,Oracle 发推文称:“为了 Oracle 在寰球各地的 150000 名员工的利益,为了反对乌克兰民选政府和乌克兰人民,Oracle 公司曾经暂停了在俄罗斯联邦的所有业务。

  • 泛滥科技公司断供俄罗斯

a. 谷歌发表 Google Pay 在俄罗斯无限期暂停应用;b. 苹果公司除了发表在俄罗斯停用 Apple Pay 以外,也在俄罗斯境内进行所有产品的销售 c. 英特尔、戴尔、AMD 发表向俄罗斯断供芯片

d. ……

  • 下一个或是 GitHub?

外媒音讯称,寰球第一代代码托管平台 GitHub 正在思考限度俄罗斯开发人员应用开源软件。只管此类软件的应用是收费的,但它的许可协定依然存在诸多限度,包含禁止受制裁的国家应用本来对公众收费凋谢的代码。

方向二:国内封装的 Hadoop 商业版

对开源组件进行封装,装置部署运维方面有一些加强。

然而不可避免的,封装开源组件始终是受制于国外法律与国际形势,危险与方向一迁徙到 CDP 相当。

同时,对开源组件进行封装的厂商无奈获取最新的源代码。另外,很多人认为有源代码就能够自主可控,理论代码只是一个技术的载体,仅仅领有源代码并不代表领有核心技术,数千万行代码里扫清有意无意的破绽基本不事实,拥抱开源的同时也肯定拥抱了危险。

随着美国公司 Cloudera 不再更新社区版,这一类产品将无奈取得能力更新,除非也降级到 CDP,齐全走向方向一。

方向三:国内自主研发大数据产品 TDH

Transwarp Data Hub(TDH)是星环科技自主研发的企业级一站式多模型大数据根底平台,采纳当先的多模型技术架构,8 种存储引擎反对 10 种数据模型,成套的工具组件让零碎的装置部署、扩容降级、平安防守、危险告警、权限治理等工作变得更便捷。在技术当先性、性能、易用性、安全性、国产化生态兼容性,以及售后服务等诸多方面具备劣势。同时,国产自主研发的 TDH 对国产化生态具备高度兼容性,满足信创验收要求。

迁徙到不同平台后取得的能力

迁徙到国产自主研发大数据产品 TDH

  • 如果你关注性能

TDH 的多模架构,反对关系表、文本、时空天文、图数据、文档、时序等在内的 10 种数据模型;离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储剖析、空间数据存储、实时数据处理、数据中台、数据治理等各类大数据业务场景一站解决。

  • 如果你关注性能

TDH 自研高性能分布式计算和存储引擎,整体性能是 CDP 的 5~25 倍。

  • 如果你关注开发

TDH 残缺反对 SQL2003 规范,反对 PLSQL 存储过程,兼容 Oracle、DB2、Teradata 等方言,无需每个场景一套接口。

  • 如果你关注运维

TDH 提供开箱即用的可视化运维监控、平安管控工具,容器技术带来极致的装置、降级、补丁体验。

  • 如果你关注售后

TDH 原厂超过 1100 人研发与反对团队和超过 3 万名星环科技认证的大数据工程师,专业性更强,售后无忧。

  • 如果你关注架构

TDH 提供对立 SQL 引擎、对立计算引擎、对立分布式存储管理、对立资源调度、对立内联架构高效搞定湖仓集一体、HTAP 等简单场景,无需平凑组件散装架构。

  • 如果你关注平安

TDH 提供的容器隔离、灾备、访问控制、联邦学习、隐衷爱护、可信计算等技术保障网络层、加固层、治理层、流通层全方位数据安全。

  • 如果你关注国产化

TDH 齐全自研,通过工信部代码自主研发率扫描测试。同时 TDH 实现了与支流信创生态厂商的适配互认工作,满足信创验收要求。

迁徙到 CDP

迁徙方向的比照剖析

以下别离从兼容性、技术当先性、性能、易用性、稳定性、灾备与可靠性、安全性、自主可控、国产生态、解决方案、售后服务等多方面比照各迁徙方向,供用户参考。

兼容性

兼容性,间接决定迁徙老本。很多客户认为 CDP 是 CDH/HDP 的高版本,应能够平滑降级,基于开源整合的产品,也能够平滑降级,而 TDH 是国内自主研发的大数据产品,兼容性不好,降级老本高,其实不然。

  • CDP

1)CDH 5 降级 CDP有重大组件版本兼容性问题, 包含 sentry 换成 ranger,Hive2 降级到 Hive3,降级对组件的兼容性影响大;2)例如:某客户 CDH5 降级到 CDP 的降级工夫长达数月之久。

  • 开源封装产品

1)根底存储和计算组件同样有兼容性问题;2)CDH 平安、运维治理等 不开源组件和性能无奈降级,且目前没有很好解决方案。

  • 星环科技 TDH

1)TDH 根底存储和计算组件 兼容 CDH/HDP,迁徙成本低;2)TDH 提供 迁徙工具 ,数据一键迁徙;3)大量 迁徙胜利案例 ,不存在迁徙危险。 技术当先性

TDH 产品技术始终当先于同类型产品 2~3 年,在大数据技术畛域较早实现多项技术冲破,例如 2015 年 TDH4.0 就残缺反对 分布式事务 ,同类型如 Hive 在多年前任然不能很好反对;2016 年公布的 TDH5.0 推出 新一代资源管理与调度技术 ,将容器技术和大数据技术无效联合,提供无效的资源隔离技术同时带来极致的装置和降级体验,Cloudera 2020 年也打算相干产品应用这一解决方案;2020 年 TDH 7.0 推出了翻新的 多模技术架构,实现了通过对立 SQL 引擎对关系型、文本、图数据、时空、时序等数据模型进行操作,在行业内处于先进程度。

星环科技 TDH 多模型数据管理平台技术架构图

星环科技长期在大数据根底软件研发与产品化过程中自主研发造成了一系列先进的核心技术,这撑持了 TDH 产品的先进性,也在金融、政府、能源、交通、制造业等国民经济重点畛域中失去广泛应用。随着公司研发投入大幅晋升,将来星环 TDH 将持续保持技术当先的劣势。

性能晋升

  • TDH(Inceptor)整体性能是 CDP(Hive on Tez)的 5X

Inceptor 是星环科技自主研发的关系型剖析引擎,基于 TPCDS 1TB 的数据规模,等同配置下(4X10cores)TDH(Inceptor)和 CDP(Hive on Tez)进行性能比照,简单场景有 7~25X性能晋升。

  • TDH(Hyperbase)性能优于 CDP(Hbase)

Hyperbase 是星环科技自主研发的 NoSQL 宽表数据库,基于 1000W 条的数据集,TDH(Hyperbase)性能优于 CDP(Hbase)。

  • TDH(ArgoDB)性能是 CDP(Impala)的 2~6X

ArgoDB 是星环科技自主研发的分布式关系型数据库,基于 TPCDS 1TB 的数据规模,等同配置下(4X10cores)TDH(ArgoDB)和 CDP(Impala)进行 Ad Hoc 查问性能比照状况,具体性能比照如图所示:

基于 TPC-H 1TB 的数据规模,等同配置下,基于不同的查问剖析场景下,TDH(ArgoDB)性能是 CDP(Impala)的 2~6X。

  • TDH(Slipstream)优于 CDP(Flink)

Slipstream 是星环科技自主研发的实时流计算引擎,在多场景上性能整体优于 CDP(Flink)。

  • TDH(Scope)优于 Elastic Search

星环科技全文搜索引擎 Scope 吞吐量测试性能上优于 ES。

易用性

  • 对立计算引擎

CDP/ 开源封装产品应用一系列孤立的 SQL 引擎,如 Apache SparkSQL、Apache Hive、Phoenix(SQL on HBase)、Cloudera Impala 等。每个 SQL 引擎都有各自的局限性,使得用户难于学习把握,开发应用、利用对接、理论落地、预先运维方面老本高。

星环科技 TDH 采纳自研对立计算引擎,提供对立 SQL 接口解决,反对 SQL 2003 规范与存储过程,并且反对 Oracle/DB2/Teradata 等 SQL 方言。

此外,对立引擎另一个益处是,各类存储的数据能够在一个作业(如一个 SQL 语句)中,被抽取到对立引擎中进行分布式计算,而无需开发人员本人写分布式代码,从各个引擎中读取数据再加工。整个易用性、开发效率和运行效率都进步很多。

图片

  • 一体多模架构

TDH 的多模型反对个性可轻松胜任简单场景。通过 8 种独立的存储引擎,反对业界支流的 10 种存储模型:关系型数据存储、宽表存储、搜索引擎、天文空间 存储、图存储、键值存储、事件存储、时序存储、文本存储、对象存储。在一个数据库中同时反对多种数据模型(例如关系表、文本和图片),能够防止分库分表,简化了利用的设计,反对间接高速存储、检索和统计多模型的数据。

CDP/ 开源封装产品通过多个相互独立的组件提供相应的能力,简单场景须要多个组件 + 数据冗余实现,两头的开发和运维非常不便。

  • 全套工具集

TDH 提供 SQL 开发工具、轻量级 ETL 工具、数据调度工作流工具、图形化数据建模工具、交互式剖析与 Cube 设计工具、元数据管理工具、可视化报表、大数据治理工具、灾备工具等大量易用性工具。

稳定性

  • 计算引擎

星环科技 TDH 自研的计算引擎 Quark 领有:1) 散布式调度算法 Furion Scheduler,反对 task 级别调度能力,相比 CDP/ 开源封装产品 Task set 级别调度,在业务混合负载并发高成果和稳定性更好,不会呈现一个大工作占满资源把引擎跑崩,集群规模大状况下体现尤为显著;2) Shuffle 过程内存控制技术,当数据量超过肯定阀值时两头后果会 spill 到磁盘,不会呈现 OOM 状况;3) 聚合采样技术,当聚合率不高或者占用内存太多时,会放弃预聚合,间接 shuffle,来保障引擎稳定性;4) Server 级别 HA,不存在 server 单点故障;5) Task 重试机制,task 级别重试使得大工作重试代价小,不会呈现一个大工作一直重试把引擎跑崩状况;6) 计算引擎爱护机制,在特地状况如误提交超大表笛卡尔积计算工作,引擎会间接拒绝执行 SQL,进一步爱护计算引擎,保障稳定性;7) 分布式 Checkpoint 容错机制,相比 ACK 机制,效率和稳定性更优。

  • 存储引擎

星环科技 TDH 在存储层面具备:1) 小文件主动合并技术,等同数据量状况下,文件数远少于 CDP/ 开源封装产品,大数据量状况下稳定性高;2) 堆外内存技术,单机容量失去晋升,同时防止 full GC 导致的集群稳定性问题,如 Scope 稳固运行单机容量可达 50TB,而 CDP/ 开源 ES 下限只有 10TB;3) 分布式 Raft 协定,反对集群规模更大更稳固,如 ArgoDB 可稳固反对 2000+ 节点集群,能够依据企业需要线性扩容,反对 PB 级数据存储;而 CDP(Kudu)单集群最大规模不超过 100 个存储节点,单节点超过 8T 存储就会不稳固;除此之外,自研的读写拆散技术、索引技术、坏盘解决技术等,配合全流程监控告警能力,让 TDH 支持系统 7 *24 小时稳固运行。

这些能力是 CDP/ 开源封装产品不具备的,因此在文件数多、数据量大、工作并发高、集群规模大的状况下,TDH 整体稳定性远超 CDP/ 开源封装产品。

灾备与可靠性

TDH 有数据同步备份工具,原厂级组件反对,基于数据块级别复制数据备份效率高、代价低,反对热备、温备、冷备等多种数据备份模式,反对全量备份 / 全量同步 / 增量同步,凋谢接口供其余工具或利用调用,具备全流程可视化界面。

CDP/ 开源封装产品目前次要还是依赖多正本机制保障集群内数据可靠性,异地容灾没有高效计划,只能做到 HDFS 的数据拷贝,效率低、代价大。安全性

星环科技 TDH 提供了大数据安全合规能力,在企业构建大数据能力的同时,确保数据业务的平安合规。平台基于敏感辨认与分类分级,帮忙企业实现大数据资产的分类管理,分级爱护。反对多种数据安全防护能力,包含动态脱敏、动静脱敏、数据水印,增强了数据业务事中控制能力。平台还反对以数据为核心的监测与审计能力,能辨认敏感数据操作并进行用户实体行为剖析,能及时进行告警,提供预先可查溯源的能力。

CDP/ 开源封装产品不具备这些能力。自主研发

自主可控方面TDH 有绝对优势,TDH 产品通过工信部自主代码扫描测试。

CDP 齐全是国外软件,不可控,国产软硬反对不好。

开源封装产品依赖开源,不能自主可控,很多组件受美国法律限度,不能躲避“被制裁”危险。局部产品有 license 危险,如 ES 曾经改开源 license 策略了,后续商用存在肯定的危险。国产生态

星环科技 TDH 已实现与支流信创生态厂商的适配互认工作,适配长城飞腾、华为泰山、浪潮等服务器,鲲鹏、飞腾 CPU,麒麟、统信等 OS,并有官网认证,反对基于 ARM 与 X86 服务器服务器混合部署并有落地案例,满足信创验收要求。CDP 在国产化服务器、CPU、GPU 资源池化、操作系统等方面反对能力有余,无奈很好地满足国产生态。

在国产生态方面,TDH 曾经有十分多落地案例,并且性能晋升显著。在不同指令集的 CPU 架构均体现出优异的性能,如 ARM(鲲鹏)和 X86(海光)在 CPU 密集型计算和 IO 密集型计算上性能晋升显著。

解决方案

星环科技 TDH 对立内联大数据底座优于 CDP/ 开源封装产品的散装数据底座。

CDP/ 开源封装产品,每个场景须要一个组件独立交付,开发语言和接口根本齐全不同,客户新业务开发、业务需要变更老本极高。

售后服务

TDH 的产品提供方星环科技是国内厂商,具备十分弱小的研发、技术支持与服务能力,能够疾速响应客户定制化需要,提供弱小的原厂售后服务保障能力。CDP 的产品提供方 Cloudera 依附国内代理商提供销售并提供施行、运维服务;Cloudera 在国内次要是运维人员,没有原厂技术研发人员,很难保障 SLA。因为反对不到位,很多国内 CDH 企业版客户曾经购买了或者心愿购买星环科技技术人员提供技术保障。

某开源封装产品对营运商客户采纳直销形式,其余客户一律采纳渠道销售形式,大部分行业原厂售后服务保障能力较低。其产品外围研发团队较少,大部分技术人员在解决各类开源技术 Bug 及客户问题近程技术支持,专业性有余。

迁徙案例

某通信团体

该团体外围业务零碎存量数据 10PB 级别,每日增量数 TB,批处理作业数千个,数据量大,业务价值高。

原有零碎应用 CDH+Oracle 混合架构,CDH 有近 200 节点,次要承当数据批处理加工,Oracle 对接下层利用,CDH 散装架构和 CDH+Oracle 混合架构带给客户微小的开发运维老本,同时批处理性能、稳定性和安全性也无奈满足客户数据增长需要。

最终星环科技在我的项目一期用 TDH 胜利迁徙了客户 CDH+Oracle 混合架构的数据平台,“一个顶两”,并且数据稽核、联邦计算、资源调度、安全性、高可用、易用性等要害能力失去加强,真正实现“降本增效”。

迁徙全程用时 6 个月不到,充分体现了 TDH 对 CDH 的兼容性,以及 Oracle 方言和存储过程反对能力。

随着一些新利用上线,目前 TDH 集群生产环境扩容至近 200 个节点,间接对接经营剖析、计费、客服、账务、结算等零碎。某航空公司

该航空公司原来应用 HDP+Oracle 混合架构建设企业数据平台,波及流解决、批处理、高并发查问等技术场景。

客户部署了几十个节点的 HDP 集群,然而散装架构带给客户微小的开发运维老本,同时性能、实时性和稳定性也无奈满足客户需要。

最终星环科技一期我的项目用 TDH 胜利迁徙了客户 HDP 集群,因为 TDH 对 HDP 的兼容性高,全副数据 + 业务迁徙不到 5 个月工夫(蕴含 1 个月并行运行测试)。

以后 TDH 集群近百个节点,TDH 极好的 SQL 和 Oracle 方言反对让客户上线了很多新利用。

正文完
 0