关于大数据:袋鼠云思枢数驹DTengine助力企业构建高效的流批一体数据湖计算平台

43次阅读

共计 2376 个字符,预计需要花费 6 分钟才能阅读完成。

7 月 28 日,以“数智进化,当初即将来”为主题的袋鼠云 2022 产品发布会于线上正式揭幕。发布会上,袋鼠云发表将团体进行全新降级:从“数字化基础设施供应商”,降级为“全链路数字化技术与服务提供商”,并由袋鼠云产研负责人思枢对外正式公布了全新的四大产品体系:数据智能剖析与洞察平台“数雁 EasyDigit”、低代码数字孪生平台 EasyV、一站式大数据开发与治理平台“数栈 DTinsight”和极速湖仓引擎“数驹 DTengine”。

他示意,“以后,数字化转型未然成为简直所有企业的必选项,越来越多的企业将数据视为外围资产,放慢数字化转型的战略部署。行业的改革、客户的需要一直督促着咱们向前,袋鼠云产品研发迭代降级的脚步从未进行。

回顾过去,袋鼠云秉承让数据发明价值的使命,在大数据畛域的多个方面实现冲破;在将来,袋鼠云要深耕行业,实现业务与数据的双向驱动,进一步夯实企业数字化转型的数据基座,最大化帮忙企业开释数据价值。”

思枢重点向大家分享了全新四大产品体系中的松软底座——袋鼠云自主研发的极速湖仓引擎「数驹 DTengine」。

以下为思枢演讲全文:

大家好,我是袋鼠云产研负责人——思枢。非常感谢大家参加袋鼠云 2022 产品发布会,也很荣幸可能有机会在这里向大家介绍袋鼠云焕新降级后的系列产品。

首先想问大家一个问题,这也是很多数字化企业面临的问题:数据反动时代来长期,如何放慢数据价值化出现?

在这个过程中会面临 4 个问题:一是部署问题,如何简略疾速部署一套大数据组件;二是数据源接入问题,如何对接多源多种异构的数据源,这些海量的结构化,半结构化和非结构化数据如何存储;三是数据处理效率问题,在面对这些海量的数据时,如何升高数据开发解决的门槛,并进步数据分析的效率;四是数据安全问题,数据透出的时候如何做到精细化权限管控。

有理由置信,许多数字化企业都迫切需要一套零碎来解决上述问题,而数驹也正是由此而生。

数驹是什么?

上面首先请大家先重点看一下数驹的产品架构图:

数驹次要包含两个平台产品:一是大数据根底平台——EasyMR,负责 Hadoop、Hive、Spark、Flink、Kafka、Hbase 等大数据组件的自动化集群部署、监控、迁徙、降级等性能。

EasyMR 除了能监管 Hadoop 生态体系组件,也能够依据 EasyMR 提供的 Schema 标准主动编排,疾速集成客户侧自定义的开发利用。

所以应用 EasyMR 部署一套 Hadoop 组件,即便是零技术根底的小白,也能够通过可视化的界面进行一步步的疏导操作,半个小时就能实现部署。

这里也说下 EasyMR 的开源版 ChengYing 曾经在 Github 上开源,大家有趣味能够下载试用。

Github:https://github.com/DTStack/ch…;

Gitee:https://gitee.com/dtstack_dev…

二是数据湖平台——DataLake,在存储层通过流批一体数据同步框架 ChunJun,将结构化、半结构化和非结构化数据对立高效入湖,入湖后对数据文件做对立的标准治理和高效索引,极大的进步查问效率。

在元数据层做对立的 Catalog 治理,Schema 的主动推导,分区的动静生成和表构造演进。并且 DataLake 在计算层能够反对 Flink、Spark、Trino 等多种引擎做跨数据存储的联邦查问。

让业务响应更加及时,让企业运行更加高效,数驹诞生的目标就是让企业产生的所有数据,都可能被采集、被存储、被计算,赋予数据全新价值。

数驹好在哪?

除了数据高效入湖、联邦查问外,数驹还有其余几大当先产品个性和技术内核,接下来进行简略分享,帮忙大家更好的了解数驹。

产品个性

· 数据入湖:集成流批一体框架 ChunJun 一键生成湖表信息

· 联邦查问:内置多种数据连接器高效索引,跨源联结剖析查问

· 自主可控,平安保障:360°数据拜访平安体系,细粒度的数据权限划分

· 极致便捷:一站式服务,开箱即用可视化操作

· 流批一体:对立存储逻辑,对立 SQL 语言,反对流批一体化剖析

· 兼容并蓄,优化晋升:对 Spark、Flink、Trino 等计算组件深度优化减速计算

袋鼠云始终以来都心愿帮忙企业充分发挥数字化能力,打造数字经济时代助力企业智能化“蝶变”的利器。基于此指标,咱们为数驹打造的流批一体次要利用场景,一套代码实现多种业务场景,高效剖析。

企业平台在撑持下层多种业务利用的过程中,依赖多种计算工作,蕴含离线和实时,二者独立运行,业务逻辑雷同,但因数据提早、代码语言差别等导致最终后果存在差别,须要额定的人力进行两套计算引擎的保护,造成大量的老本损耗。

基于数驹平台的数据存储管理能力,能够同时反对下层计算引擎批和流的计算能力,帮忙企业构建流批一体的数仓平台,实现一套架构同时满足流批业务操作,升高学习、应用、保护老本,进步开发效率。

数驹将如何?

数驹作为袋鼠云往年推出的全新产品,近期有四大布局:

将来布局

·湖表治理优化:周期性的清理过期数据、快照,合并压缩小文件晋升读取表的性能

·索引减速:通过 bloom index、data skipping index、zorder index 等一系列索引构建,晋升数据湖查问性能,做到毫秒级响应

· 智能优化:雷同特色的查问申请能够间接通过查问缓存和湖表数据变更疾速返回后果,做到智能减速

· 智能运维:对事件、监控等运维对象深刻透视,通过规定、算法等决策服务及时公布异样正告、主动进行运维决策

作为袋鼠云全新产品矩阵的排头兵,数驹将一直进化,持续在谋求更极致的查问效率,更快捷的部署运维的路线上砥砺前行,保持为企业数字化转型保驾护航。

袋鼠云开源框架钉钉技术交换 qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack

正文完
 0