关于大数据:实时开发平台建设实践深入释放实时数据价值丨04期直播回顾

2次阅读

共计 2137 个字符,预计需要花费 6 分钟才能阅读完成。

原文链接:实时开发平台建设实际,深刻开释实时数据价值

视频回顾:点击这里

课件获取:点击这里

一、实时数仓建设背景

随着整体行业的数字化转型不断深入以及技术能力的一直进步,传统的 T+1 式(隔日)的离线大数据模式越来越无奈满足新兴业务的倒退需要,发展实时化的大数据业务,是企业深刻开掘数据价值的一条必经之路。

面对数字化转型下的数据疾速产生、“小步快跑”的精细化经营及实时化和自动化的决策需要,如何进步实时数据处理能力将成为企业晋升竞争力的一大因素。

而企业在建设实时数据利用时,又往往面临诸多困难:

  • 实时开发技术门槛高,学习难度大,开发过程依赖各种引擎,链路简单
  • 开发数据效率低,代码调试简单
  • 建设老本、应用老本高
  • 数据建模及开发标准不对立,问题难监控,治理艰难

为了解决这些问题,咱们在实时建设过程中须要确定建设形式和建设指标,帮忙企业更好的实现实时数仓建设。

二、实时数仓建设方法论

如何帮忙企业建设实时数仓,咱们次要从以下四个步骤动手:

1、明确需要

企业进行实时数仓建设的第一步是明确需要,需要须要业务需要和技术需要想联合。

1)业务需要方面:

  • 具体梳理各类实时计算利用场景
  • 具体梳理每个实时指标的具体需要

2)技术需要方面:

  • 具体梳理每个实时指标的数据起源信息

2、技术选型

第二步技术选型阶段,技术选型包含四个方面的选型:

a、整体技术路线

b、采集工具

c、消息中间件 + 计算引擎及

d、维表、后果表的存储数据库

3、数仓设计与开发

第三步是数仓设计与开发,蕴含一下三个方面:

a、实时数仓分层设计

b、开发标准

c、代码开发与调试

4、治理与监控

第四步是治理与监控,能够从工作公布、运行监控与告警、实时数据治理这 3 个局部动手。

三、基于数栈实时开发平台建设实时数仓

分享完实时数仓的建设方法论,接下来来为大家分享实时数仓的建设流程。

第一步:实时采集

基于 Chunjun(原 FlinkX)对数据库进行 CDC 采集,实现采集工具化,可对支流数据源进行 CDC(日志数据) 和通过 JDBC(距离轮询)两种实时采集形式。

1、CDC 读取

读取数据库日志的形式,对源库无压力

2、JDBC 读取

面向不凋谢数据库日志的场景,通过高频率的 JDBC 轮询读取数据,要求有自增字段

第二步:数据开发

1、数据开发根底性能

当初展现的是数据开发的一些根底性能,包含:WEB SQL IDE、可视化建表、维表缓存策略及零碎 & 自定义函数,丰盛的底层组件封装,界面化操作,升高开发门槛,使开发人员专一于业务逻辑解决。

2、数据开发高阶性能

除了数据开发的根底性能之外,还有面向特定行业或场景的高阶配置,包含主动重试、主动启停、脏数据管理。

第三步:公布上线

开发结束之后就是工作的公布上线,公布上线包含工作调试和工作导入导出两个方面。

第四步:工作运维

工作运维就是全局掌控工作的运行,对于一些异样或紧急情况进行解决的过程。

上述的实时数仓建设过程,其实正是袋鼠云自研的数栈实时开发 StreamWorks 产品的落地实际过程。

云原生一站式大数实时开发平台(StreamWorks),面向实时数仓构建的云原生一站式大数据实时开发平台,实现从实时数据采集、实时数据处理、工作监控运维的全链路笼罩。反对 Flink 多版本引擎、Kubernetes 资源调度,提供丰盛的运维监控曲线,助力企业实时化转型。
图片

同时产品具备以下特点:

  • 采集 + 计算 + 运维一体化

内含实时开发全链路工具,采集、计算、运维一体,升高客户应用老本,升高实时计算门槛。

  • 对立元数据管理

反对输入自研 Hadoop 集群,同时可对接 CDH、HDP、TDH 等多集群及 Oracle、TiDB 等多引擎;节点资源可依据计算存储需要疾速弹性伸缩,业务需要稳固响应。

  • 批流一体

反对 Flink 批流一体式采集 + 开发,集成 Iceberg,赋能一体式湖仓建设模式。

  • 功能丰富

平台提供工作跨环境公布、代码调试、SQL 校验、提交查看、主动启停、批量连贯现存工作等丰盛性能

  • 云原生反对

在反对 YARN+HDFS 的根底上,同时反对 Kubernetes 资源调度、MinIO、OSS 等对象存储

同时产品具备 3 大价值:

  • 升高开发门槛

兼容了多版本引擎、适配多种数据源,封装集成为可视化操作界面。基于 Web IDE,图像化配置表信息并应用 SQL 语言进行开发,升高整体上手门槛

  • 全面运维保障

提供工作全生命周期的可视化运维。全链路拓扑、丰盛 Metirc 曲线展现、多形式多渠道工作告警,帮忙用户搭建全面运维体系,进步运维保障。

  • 促成数据标准

帮助企业构建实时数仓,建设实时数据规范及标准。搭建一套实时任务调度、工作运行监控及实时工作牢靠复原机制于一体的实时数据平台,保障数据品质,提供统一标准的数据进口。

四、实时数仓建设案例

接下来咱们分享两个应用客户的理论案例,为大家介绍实时开发平台如何切实的帮忙客户解决问题。

  • 某国有业余经济信息服务机构

  • 某证券客户

五、数栈批流一体架构解析

最初咱们为大家介绍一段拓展材料,对于数栈批流一体架构的解析。

  • 批流一体整体架构

  • 批流一体外围价值

  • 批流一体数据建设链路

  • 批流一体采集技术架构

原文起源:VX 公众号“数栈研习社”
袋鼠云开源框架钉钉技术交换群(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack

正文完
 0