共计 4101 个字符,预计需要花费 11 分钟才能阅读完成。
RocketMQ-Streams 聚焦「大数据量 -> 高过滤 -> 轻窗口计算」场景,外围打造轻资源,高性能劣势,在资源敏感场景有很大劣势,最低 1Core,1G 可部署。通过大量过滤优化,性能比其余大数据晋升 2-5 倍性能。广泛应用于平安,风控,边缘计算,音讯队列流计算。
RocketMQ-Streams 兼容 Flink 的 SQL,udf/udtf/udaf,未来咱们会和 Flink 生态做深度交融,即能够独立运行,也可公布成 Flink 工作,跑在 Flink 集群,对于有 Flink 集群的场景,即能享有轻资源优势,能够做到对立部署和运维。
RocketMQ-Streams 特点及利用场景
RocketMQ-Streams 利用场景
• 计算场景 :适宜大数据量 -> 高过滤 -> 轻窗口计算的场景。不同于支流计算引擎,须要先部署集群,写工作,公布,调优,运行这么简单的过程。RocketMQ-Streams 自身就是一个 lib 包,基于 SDK 写完流工作,能够间接运行。反对大数据开发须要的计算个性:Exactly-ONCE,灵便窗口(滚动、滑动、会话),双流 Join,高吞吐、低提早、高性能。最低 1Core,1G 能够运行。
• SQL 引擎 :RocketMQ-Streams 可视作一个 SQL 引擎,兼容 Flink SQL 语法,反对 Flink udf/udtf/udaf 的扩大。反对 SQL 热降级,写完 SQL,通过 SDK 提交 SQL,就能够实现 SQL 的热公布。
• ETL 引擎 :RocketMQ-Streams 还可视作 ETL 引擎,在很多大数据场景,须要实现数据从一个源通过 ETl,汇聚到对立存储,外面内置了 grok,正则解析等函数,能够联合 SQL 一块实现数据 ETL。
• 开发 SDK,它也是一个数据开发 SDK 包,外面的大多数组件都能够独自应用,如 Source/sink,它屏蔽了数据源,数据存储细节,提供对立编程接口,一套代码,切换输入输出,不须要扭转代码。
RocketMQ-Streams 设计思路
设计指标
• 依赖少,部署简略,1Core,1G 单实例可部署,可随便扩大规模。
• 实现须要的大数据个性:Exactly-ONCE,灵便窗口(滚动、滑动、会话),双流 Join,高吞吐、低提早、高性能。
• 实现老本可控,实现低资源,高性能。
• 兼容 Flink SQL,UDF/UDTF,让非技术人员更易上手。
设计思路
• 采纳 shared-nothing 的分布式架构设计,依赖音讯队列做负载平衡和容错机制,单实例可启动,减少实例实现能力扩大。并发能力取决于分片数。
• 利用音讯队列的分片做 shuffle,利用音讯队列负载平衡实现容错。
• 利用存储实现状态备份,实现 Exactly-ONCE 的语义。用结构化近程存储实现疾速启动,不用等本地存储复原。
RocketMQ-Streams 特点和翻新
RocketMQ-Streams SDK 详解
Hello World
依照常规,咱们先从一个例子来理解 RocketMQ-Streams
• namespace:雷同 namespace 的工作能够跑在一个过程里,能够共享配置
• pipelineName:job name
• DataStreamSource:创立 source 节点
• map:用户函数,能够通过实现 MapFunction 扩大性能
• toPrint:后果打印进去
• start:启动工作
• 运行下面代码就会启动一个实例。如果想多实例并发,能够启动多个实例,每个实例生产局部 RocketMQ 的数据。
• 运行后果:把原始音讯拼接上“—”,并打印进去
RocketMQ-Streams SDK
• StreamBuilder 做为终点,通过设置 namespace,jobName 创立一个 DataStreamSource。
• DataStreamSource 通过 from 办法,设置 source,创立 DataStream 对象。
• DataStream 提供多种操作,会产生不同的流:
• to 操作产生 DataStreamAction
• window 操作产生 WindowStream 配置 window 参数
• join 操作产生 JoinStream 配置 join 条件
• Split 操作产生 SplitStream 配置 split 条件
• 其余操作产生 DataStream
• DataStreamAction 启动整个工作,也能够配置工作的各种策略参数。反对异步启动和同步启动。
RocketMQ-Streams 算子
RocketMQ-Streams 算子
SQL 有两种部署模式,1 是间接运行 client 启动 SQL,见第一个红框;2 是搭建 server 集群,通过 client 提交 SQL 实现热部署,见第二个红框。
RocketMQ-Streams SQL 扩大,反对多种扩大形式:
• 通过 FlinkUDF,UDTF,UDAF 扩大 SQL 能力,在 SQL 中通过 create function 引入,有个限度条件,即 UDF 在 open 时未用到 Flink FunctionContext 的内容。
• 通过内置函数扩大 SQL 的函数,语法同 Flink 语法,函数名是内置函数的名称,类名是固定的。如下图,引入了一个 now 的函数,输入以后工夫。零碎内置了 200 多个函数,可按需引入。
• 通过扩大函数实现,实现一个函数很简略,只须要在 class 上标注 Function,在须要公布成函数的办法上标注 FunctionMethod,并设置须要公布的函数名即可,如果须要零碎信息,后面两个函数能够是 IMessage 和 Abstract,如果不须要,间接写参数即可,参数无格局要求。如下图,创立了一个 now 的函数,两种写法都能够。能够通过 currentTime=now() 来调用,会在 Message 中减少一个 key=currentTime,value= 以后工夫的变量。
• 把现有 java 代码公布成函数,通过策略配置,把 java 代码的类名,办法名,冀望用到的函数名,配置进去,把 java 的 jar 包 copy 到 jar 包目录即可。下图是几种扩大的利用实例。
RocketMQ-Streams 架构及原理实现
整体架构
Source 实现
• Source 要求实现起码生产一次的语义,零碎通过 checkpoint 零碎音讯实现,在提交 offset 前发送 checkpoint 音讯,告诉所有算子刷新内存。
• Source 反对分片的主动负载平衡和容错。
• 数据源在分片移除时,发送移除零碎音讯,让算子实现分片清理工作。
• 当有新分片时,发送新增分片音讯,让算子实现分片的初始化。
• 数据源通过 start 办法,启动 consuemr 获取音讯。
• 原始音讯通过编码,附加头部信息包装成 Message 投递给后续算子。
Sink 实现
• Sink 是实时性和吞吐的一个联合。
• 实现一个 Sink 只有继承 AbstractSink 类实现 batchInsert 办法即可。batchInsert 的含意是一批数据写入存储,须要子类调用存储接口实现,尽量利用存储的批处理接口,进步吞吐。
• 惯例的应用形式是写 Message->cache->flush-> 存储的形式,零碎会严格保障,每次批次写入存储的量不超过 batchsize 的量,如果超了,会拆分成多批写入。
• Sink 有一个 cache,数据默认写 cache,批次写入存储,进步吞吐量。(一个分片一个 cache)。
• 能够开启主动刷新,每个分片会有一个线程,定时刷新 cache 数据到存储,进步实时性。实现类:DataSourceAutoFlushTask。
• 也能够通过调用 flush 办法刷新 cache 到存储。
• Sink 的 cache 会有内存保护,当 cache 的音讯条数 >batchSize,会强制刷新,开释内存。
RocketMQ-Streams Exactly-ONCE
• Source 确保在 commit offset 时,会发送 checkpoint 零碎音讯,收到音讯的组件会实现存盘操作。音讯至多生产一次。
• 每条音讯会有音讯头部,外面封装了 QueueId 和 offset。
• 组件在存储数据时,会把 QueueId 和解决的最大 offset 存储下来,当有音讯反复时,依据 maxoffset 去重。
• 内存保护,一个 checkpoint 周期可能有屡次 flush(条数触发),保障内存占用可控。
RocketMQ-Streams Window
• 反对滚动,滑动和会话窗口。反对事件工夫和天然工夫(音讯进入算子的工夫)。
• 反对高性能模式和高牢靠模式,高性能模式不依赖近程存储,但在分片切换时的窗口数据会有失落。
• 疾速启动,无需等本地存储复原,在产生谬误或分片切换时,异步从近程存储复原数据,同时间接拜访近程存储计算。
• 利用音讯队列负载平衡,实现扩容缩容,每个 Queue 是一个分组,一个分组同一刻只被一台机器生产。
• 失常计算依赖本地存储,具备 Flink 类似的计算性能。
反对三种触发模式,能够平衡 watermark 提早和实时性要求
RocketMQ-Streams 在云平安的利用
在平安利用的背景
• 公共云转战专有云,在入侵检测计算方面遇到了资源问题,大数据集群默认不输入,输入最低 6 台高配机器,用户很难承受因为买云盾增配一套大数据集群。
• 专有云用户降级,运维艰难,无奈疾速降级能力和修复 bug。
流计算在平安的利用
• 基于平安特点(大数据 -> 高过滤 -> 轻窗口计算)打造轻量级计算引擎:通过剖析所有的规定都会做前置过滤,而后才会做较重的统计,窗口,join 操作,且过滤率比拟高,基于此特点,能够用更轻的计划实现统计,join 操作。
• 通过 RocketMQ-Streams,笼罩 100% 专有云规定(正则,join,统计)。
• 轻资源,内存是公共云引擎的 1/70,CPU 是 1/6,通过指纹过滤优化,性能晋升 5 倍以上,且资源不随规定线性减少,新增规定无资源压力。复用以前的正则引擎资源,可反对 95% 以上局点,不须要减少额定物理资源。
• 通过高压缩维表,反对千万情报。1000 W 数据只须要 330 M 内存。
• 通过 C/S 部署模式,SQL 和引擎可热公布,尤其护网场景,可疾速上线规定。
RocketMQ-Streams 将来布局
新版本下载地址:https://github.com/apache/roc…