关于Flink:Flink实时数仓DWD层数据准备

70次阅读

共计 542 个字符,预计需要花费 2 分钟才能阅读完成。

一、需要剖析及实现思路

1.1、分层需要剖析

  建设实时数仓的目标,次要是减少数据 计算的复用性。每次新减少统计需要时,不至于从原始数据进行计算,而是从半成品持续加工而成。咱们这里从 kafka 的 ods 层读取用户行为日志以及业务数据,并进行简略解决,写回到 kafka 作为 dwd 层。

1.2、每层的职能

分层数据形容生成计算工具存储媒介
ODS原始数据,日志和业务数据日志服务器,maxwell/canalkafka
DWD依据数据对象为单位进行分流,比方订单、页面拜访等等。FLINKkafka
DWM对于局部数据对象进行进一步加工,比方独立拜访、跳出行为。仍旧是明细数据。FLINKkafka
DIM维度数据FLINKHBase
DWS依据某个维度主题将多个事实数据轻度聚合,造成主题宽表。FLINKClickhouse
ADS把 Clickhouse 中的数据依据可视化须要进行筛选聚合。Clickhouse, SQL可视化展现

二、DWD 层数据筹备实现思路

➢ 性能 1:环境搭建
➢ 性能 2:计算用户行为日志 DWD 层
➢ 性能 3:计算业务数据 DWD 层

2.1、环境搭建

目录作用
app产生各层数据的 flink 工作
bean数据对象
common公共常量
utils工具类

2.2、计算 用户行为日志 DWD 层

2.3、计算 业务数据 DWD 层

正文完
 0