4 月 20 日,袋鼠云胜利举办了以“数实交融,韧性成长”为主题的 2023 秋季成长大会。会上,袋鼠云自主研发的一站式大数据根底软件——数栈 V6.0 产品矩阵全新公布。对旗下大数据根底平台、大数据开发与治理、数据智能剖析与洞察三大模块的全线产品进行全新降级,并重点公布了企业级数据计算与存储平台——自研大数据引擎 EasyMR。
往年的个体学习会议上强调:“要打好科技仪器设备、操作系统和根底软件国产化攻坚战,晋升国产化代替程度和利用规模,争取早日实现用我国自主的钻研平台、仪器设备来解决重大根底钻研问题。”
袋鼠云作为国内当先的数字化根底软件与利用服务商,一如既往保持自主翻新,专一大数据根底软件研发,利用先进技术赋能更多行业客户数字化转型,助力挖掘和开释数据资源的潜在价值。
全新公布数栈 V6.0 产品矩阵
袋鼠云产研负责人思枢首先介绍了数栈 V6.0 全新产品矩阵的落地停顿以及产品升级方向。通过对多年数字化实际积淀的梳理、重构和降级,数栈 V6.0 造成了大数据根底平台层 + 大数据开发与治理层 + 数据分析与洞察平台层的全新数字化产品矩阵,以迭代的新组合、新能力、新技术,为数实交融利用注入更强劲的“数栈”驱动力。
整个矩阵中,大数据根底平台是底座,蕴含全新降级的两款产品:大数据计算引擎 EasyMR 和湖仓一体 EasyLake。EasyMR 次要提供 Hadoop、Spark、Flink、HBase、Trino 等一键式组件的装置、运维、部署。EasyLake 则次要提供面向数据湖的对立元数据管理,及数据服务和剖析。大数据根底平台旨在为各行业的数字化转型提供随时可用的强劲能源和坚实基础。
往上看,中间层大数据开发与治理,它交融了 DataOps 数据理念,蕴含离线开发 BatchWorks、实时开发 StreamWorks、数据服务 DataAPI、数据资产 DataAssets 和指标治理 DataIndex 五大模块。以自主可控、平安翻新为技术内核,将全域数据资产进行汇聚、加⼯、治理、服务、剖析,为客户提供平安、稳固、易⽤的⼤数据平台,减速开释数据价值,赋能数智利用。
最上层的数据智能剖析与洞察层,提供客户数据洞察 UserInsight 和数据可视化剖析 EasyBI 两大利用性能。助力企业构建以业务价值为导向的数据分析与利用体系,驱动业务增长。
以下为数栈本次重点降级的大数据计算引擎产品 EasyMR,依据思枢演讲整顿而成。
EasyMR:大数据计算引擎
EasyMR 的丰盛性能
EasyMR 内蕴含 Hadoop、Hive、Spark、Trino、HBase、Kafka 等计算组件,齐全兼容 Apache 开源生态,一键开启 LDAP+Kerberos+Ranger 认证权限体系,反对库 / 表 / 行 / 列级权限管制,提供企业级平安管控。
EasyMR 的集群治理包含以下五大性能:
· 主机治理:能够对接 x86 服务器、ARM 服务器、Kubernetes 集群等主机类型,进行包含批量接入、主机下架、主机监控等在内的主机操作
· 装置部署:蕴含主动部署、手动部署、补丁包升 / 降级、组件回滚等丰盛性能
· 集群运维:蕴含组件启停、健康检查、服务日志查看等性能,以及依据客户业务侧的应用状况实现动静扩缩容
· 监控告警:随着业务的运行,产生主机运行的异常情况,可能实现主动告警
· 根底治理:包含用户治理、操作权限治理、审计日志等性能
EasyMR 的丰盛性能可能帮忙企业,更全面、更智能、更平安地使用数据,减速企业数字化转型。
EasyMR 的外围个性
● 信创国产化
EasyMR 实现了与支流信创生态厂商的适配互认工作,反对统信 UOS、龙蜥、麒麟等国产操作系统,鲲鹏 920、飞腾等国产芯片,长城擎天 CF520、华为私有云等国产服务器的适配,以及大部分国产数据库、国产中间件的适配。
EasyMR 的更多信创兼容状况请看下图:
● 开源 / 自主可控
EasyMR 作为袋鼠云自研的大数据根底平台,其大数据组件 100% 基于开源 Hadoop,齐全兼容 Apache 开源生态,与开源社区同步迭代,时刻放弃技术的当先性。并且 EasyMR 对 Spark、Flink、Trino、Iceberg 等局部组件个性进行优化加强,回馈社区,以凋谢心态共建 Hadoop 生态。
● 运维托管服务
EasyMR 提供大数据集群监控告警、平安保障、数据品质保障以及平台运维服务;提供定期巡检、深度体检、老本优化以及高阶调优服务;以及提供包含大数据集群迁徙、集群容灾建设、架构设计布局等在内的施行服务,全链路一站式运维托管服务。
● 平安
通过 LDAP+Kerberos+Ranger 这套认证权限体系,对库 / 表 / 行 / 列级进行权限管制,实现企业级平安管控。
EasyMR 国产化适配:中间件,元数据库
Hive 的子组件 Hive Metastore,在开源的计划中通过 redis 进行缓存减速,而当初能够通过宝兰德 BCS 这样的国产中间件对 redis 进行国产化代替。
Hive Metastore 自身的元数据信息在开源计划中存储在 MySQL 和 OracleSQL 中,当初也能够通过适配国产数据库,如 TDSQL、OceanBase,对开源数据库进行代替。基于此,EasyMR 实现真正的国产化,齐全自主可控。
EasyMR 深知只有实现关键技术的自主化、国产化,能力真正实现技术创新,攻克“卡脖子”难题。
EasyMR 对大数据组件的性能加强
袋鼠云作为国内当先的数字化根底软件与利用服务商,十分重视强化产品的根底能力和技术能力,在开源技术的根底上,EasyMR 对 Spark、Flink、Trino、Iceberg 等多个大数据外围组件进行了性能及性能加强。具体优化见下图:
仅在 2022 年袋鼠云技术同学就实现了上百次的 commit,为 Hadoop 生态的技术倒退奉献了属于袋鼠云的力量。
赠人玫瑰手有余香,回馈社区的同时袋鼠云实现了对整个 Hadoop 体系外围代码的齐全自主把握,对于 EasyMR 大数据平台迁徙、大数据组件维保等做到了 100% 自主可控。
EasyMR 自主研发能力:技术开源
从 2016 年数栈 V1.0 公布开始,到现在的数栈 V6.0,数栈曾经历经了七年六个大版本的迭代实际。随着对技术能力的不懈摸索,数栈外部也积淀了一些优良的大数据组件,如流批一体的数据同步集成组件 ChunJun,DAG 分布式任务调度组件 Taier、大数据平台运维组件 ChengYing 等,这些组件数栈曾经全副奉献给了 Github,上面是袋鼠云开源的地址,欢送应用。
Github 地址:https://github.com/DTStack
技术无界,翻新不止。袋鼠云数栈技术团队间断两年荣获“年度优良开源技术团队”的名称,ChunJun 也顺利升级“2022 年中国开源翻新大赛”决赛,并荣获“优良开源我的项目 / 社区”奖项。这些激励都源于数栈技术团队出众的产品技术能力和自主研发能力。
CDP/CDH 平滑迁徙到 EasyMR 解决方案
基于国家对于国产信创的政策要求,以及 CDH 进行服务(EoS),用户没方法再获取售后反对的大背景,各行各业的大数据平台底座须要进行国产化代替的需要越来越强烈。基于此,数栈反对 CDP/CDH 平滑迁徙到 EasyMR 的解决方案,大大降低企业迁徙成本低。
生产业务不能停,该计划反对双轨运行,即客户的原 CDH 集群和信创的 EasyMR 集群能够同时运行。整个迁徙过程操作简略,配置灵便,通过 4 步即可实现所有的迁徙工作。
第一步,进行计算平台和开发套件的替换。
第二步,进行数据迁徙。包含历史数据和元数据的迁徙,在迁徙过程中,EasyMR 反对数据测验,保障在数据迁徙过程中的数据统一。
第三步,执行工作迁徙。包含采集工作、数据加工工作、工作依赖关系以及剖析引擎。
第四步,业务切割。蕴含集群的切换,及老服务器下线,新服务器上线等动作切换,最终达到 CDP/CDH 平滑迁徙到 EasyMR 的目标,并且实现对客户侧的业务无感知。
EasyMR 积攒了大量的迁徙胜利案例,经验丰富,能够保障整个迁徙过程安全可靠。
Hadoop 平滑降级解决方案
大数据组件每年的版本更新速度比拟快,不少企业还停留在 Hadoop2.0 的阶段。许多客户想降级到 Hadoop3.0 版本,体验新的个性和性能优化,然而客户的业务在版本更新中又不能进行,这时应该怎么做?
EasyMR 可实现节点的动静替换,将一个节点先降级到 Hadoop3.0 的节点,在这个节点上印证没有问题之后,再进行剩下节点的逐渐替换,这样就真正实现了 Hadoop 的无感知平滑降级。
EasyMR 的实际利用
在介绍完 EasyMR 的具体性能和个性之后,下文将为大家介绍 2 个 EasyMR 的经典实际利用落地,更深地感触 EasyMR 是如何帮忙企业更高效、平滑、平安地实现实现国外进口产品的国产化代替。
某全国性股份制商业银行:CDH 迁徙至 EasyMR
某全国性股份制商业银行,为解决分行数据利用建设效率差等问题,数栈帮忙该客户实现了 CDH 平滑迁徙至 EasyMR,并且为该客户建设了“总行对立调度 + 分行数据协同共享”的数据利用云平台。
EasyMR 应用 Trino 替换 Impala,解决了客户 Impala 内存适度占用导致节点宕机的问题,晋升查问性能,实现了资源动静隔离;并且采纳「云平台」的模式,总行 + 各个分行是平台上的独自租户,底层存储、计算资源共享晋升数据下发效率,数据权限隔离保障平安,不必再放心呈现分行数据误删除、失落等平安问题。EasyMR 兼容信创生态体系,平滑迁徙至国产化环境,合乎金融行业的信创国产化要求。
通过 EasyMR 大数据根底平台的建设,该全国性股份制商业银行实现了老本治理和业务管控的双效晋升。
某领取行业云服务品牌:EasyMR + 数栈 Saas 化
金融行业正逐步从数字化时代迈向智能化时代,该客户的需要是将 EasyMR 和数栈进行 Saas 化,依靠数据中台产品,赋能客户,放慢走向智能化时代的步调。
面对客户需要,数栈 + EasyMR 与云平台的网络架构、服务器、云平台的对立权限管控等各项内容实现全面兼容适配,保障在客户开明权限资源后,仍然可能保障 EasyMR 的稳固运行。并且数栈 + EasyMR 实现了「订购—自动化部署—一键扩缩容」等各类操作。
作为大数据根底软件国产化的重要推动者之一,数栈还领有大量成熟大数据解决方案,能够更好地反对各行业智能化、数字化利用建设。
首发数栈 V6.0 产品白皮书
此外,会上还公布了《数栈产品白皮书》:从数字技术、产品能力、利用实际、服务反对四个方面进行深度研判,针对性克服数字化转型短板,从数据治理、湖仓一体、数据集成、DataOps 等八个方面进行解决方案解读,重点晋升客户数据管控能力。此外,本白皮书总结了无效的大数据根底软件建设教训,为各行业企业的数字化转型提供参考和领导。
欢送大家扫码进行收费获取。
数栈始终保持自主可控,踊跃致力于帮忙客户打造国产翻新的企业级大数据根底软件,帮忙客户夯实数据基座,建设从数据获取生产到数据生产利用的全生命周期管理体系,使数据“可见、可用、可管”,洞察数字化时机,明确转型方向,发明数据新价值。
今后,数栈产品也将更加贴合理论场景,用数智化形式解题,践行“用数据产生价值”的使命。
《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实际白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想理解或征询更多无关袋鼠云大数据产品、行业解决方案、客户案例的敌人,浏览袋鼠云官网:https://www.dtstack.com/?src=szsf
同时,欢送对大数据开源我的项目有趣味的同学退出「袋鼠云开源框架钉钉技术 qun」,交换最新开源技术信息,qun 号码:30537511,我的项目地址:https://github.com/DTStack