关于Flink:Flink实时数仓日志数据采集

9次阅读

共计 1230 个字符,预计需要花费 4 分钟才能阅读完成。

一、日志数据采集

1.1、模仿日志生成器的应用

这里提供了一个模仿生成数据的 jar 包,能够将日志发送给某一个指定的端口,须要大数据程序员理解如何从指定端口接收数据并数据进行解决的流程。

1.2、行为数据

1.2.1、启动 chb-logger

1.2.2、在 rt_applog 启动模仿日志生成器,生成行为日志,通过 chb-logger 采集,写入 kafka

[root@s205 rt_applog]# clear
[root@s205 rt_applog]# pwd
/home/chenb/chb-realtime/rt_applog
[root@s205 rt_applog]# ll
total 15280
-rw-r--r-- 1 root root      985 Mar  8 13:13 application.yml
-rw-r--r-- 1 root root 15642393 Mar  2 15:06 gmall2020-mock-log-2020-12-18.jar
drwxr-xr-x 2 root root       34 Mar  8 10:48 logs
[root@s205 rt_applog]# java -jar gmall2020-mock-log-2020-12-18.jar 

1.3、业务数据, 写入数据库,后续通过 Canal 同步到 kafka

1.3.1、模仿生成业务数据,写入 MySQL 中

[root@s205 rt_dblog]# pwd
/home/chenb/chb-realtime/rt_dblog
[root@s205 rt_dblog]# ll
total 14780
-rw-r--r-- 1 root root     1506 Mar  8 10:30 application.properties
-rw-r--r-- 1 root root 15128654 Mar  2 15:06 gmall2020-mock-db-2020-11-27.jar
[root@s205 rt_dblog]# java -jar gmall2020-mock-db-2020-11-27.jar 

1.3.2、配置 Canal

1.3.2.1、server 配置

# tcp, kafka, RocketMQ
canal.serverMode = kafka

canal.mq.servers = s202:9092,s203:9092,s204:9092
# true 写入 kafka 为 json 格局,false 写入 kafka 为 probutf 格局
canal.mq.flatMessage = true

1.3.2.2、instance 配置

canal.instance.master.address=s203:3306

# table regex  监控的表
canal.instance.filter.regex=chb_realtime\\.*

# mq config 
canal.mq.topic=ods_base_db_m # 发送到 kafka 的那个 topic

1.3.2.3、测试数据,批改一条

二、应用 Maxwell 通过业务数据

关注我的公众号【宝哥大数据】,跟多干货

正文完
 0