关于阿里云:RocketMQStreams-首个版本发布轻量级计算的新选择

RocketMQ-Streams 聚焦「大数据量->高过滤->轻窗口计算」场景，外围打造轻资源，高性能劣势，在资源敏感场景有很大劣势，最低 1Core，1G 可部署。通过大量过滤优化，性能比其余大数据晋升 2-5 倍性能。广泛应用于平安，风控，边缘计算，音讯队列流计算。
RocketMQ-Streams 兼容 Flink 的 SQL，udf/udtf/udaf，未来咱们会和 Flink 生态做深度交融，即能够独立运行，也可公布成 Flink 工作，跑在 Flink 集群，对于有 Flink 集群的场景，即能享有轻资源优势，能够做到对立部署和运维。

RocketMQ-Streams 特点及利用场景

RocketMQ-Streams 利用场景

• 计算场景：适宜大数据量->高过滤->轻窗口计算的场景。不同于支流计算引擎，须要先部署集群，写工作，公布，调优，运行这么简单的过程。RocketMQ-Streams 自身就是一个 lib 包，基于 SDK 写完流工作，能够间接运行。反对大数据开发须要的计算个性：Exactly-ONCE，灵便窗口（滚动、滑动、会话），双流Join，高吞吐、低提早、高性能。最低 1Core，1G 能够运行。

• SQL引擎 ： RocketMQ-Streams 可视作一个 SQL 引擎，兼容 Flink SQL 语法，反对 Flink udf/udtf/udaf 的扩大。反对 SQL 热降级，写完 SQL，通过 SDK 提交 SQL，就能够实现 SQL 的热公布。

• ETL引擎： RocketMQ-Streams 还可视作 ETL 引擎，在很多大数据场景，须要实现数据从一个源通过 ETl，汇聚到对立存储，外面内置了 grok，正则解析等函数，能够联合 SQL 一块实现数据 ETL 。

• 开发 SDK，它也是一个数据开发 SDK 包，外面的大多数组件都能够独自应用，如 Source/sink，它屏蔽了数据源，数据存储细节，提供对立编程接口，一套代码，切换输入输出，不须要扭转代码。

RocketMQ-Streams 设计思路

设计指标
• 依赖少，部署简略，1Core，1G 单实例可部署，可随便扩大规模。
• 实现须要的大数据个性：Exactly-ONCE，灵便窗口（滚动、滑动、会话），双流 Join，高吞吐、低提早、高性能。
• 实现老本可控，实现低资源，高性能。
• 兼容 Flink SQL，UDF/UDTF，让非技术人员更易上手。

设计思路
• 采纳 shared-nothing 的分布式架构设计，依赖音讯队列做负载平衡和容错机制，单实例可启动，减少实例实现能力扩大。并发能力取决于分片数。
• 利用音讯队列的分片做 shuffle，利用音讯队列负载平衡实现容错。
• 利用存储实现状态备份，实现 Exactly-ONCE 的语义。用结构化近程存储实现疾速启动，不用等本地存储复原。

RocketMQ-Streams 特点和翻新

RocketMQ-Streams SDK 详解

Hello World
依照常规，咱们先从一个例子来理解 RocketMQ-Streams

• namespace：雷同 namespace 的工作能够跑在一个过程里，能够共享配置
• pipelineName：job name
• DataStreamSource：创立 source 节点
• map：用户函数，能够通过实现 MapFunction 扩大性能
• toPrint：后果打印进去
• start：启动工作
• 运行下面代码就会启动一个实例。如果想多实例并发，能够启动多个实例，每个实例生产局部 RocketMQ 的数据。
• 运行后果：把原始音讯拼接上“—”，并打印进去

RocketMQ-Streams SDK

• StreamBuilder 做为终点，通过设置 namespace，jobName 创立一个 DataStreamSource 。
• DataStreamSource 通过 from 办法，设置 source，创立 DataStream 对象。
• DataStream 提供多种操作，会产生不同的流：
• to 操作产生 DataStreamAction
• window 操作产生 WindowStream 配置 window 参数
• join 操作产生 JoinStream 配置 join 条件
• Split 操作产生 SplitStream 配置 split 条件
• 其余操作产生 DataStream
• DataStreamAction 启动整个工作，也能够配置工作的各种策略参数。反对异步启动和同步启动。

RocketMQ-Streams 算子

SQL 有两种部署模式，1 是间接运行 client 启动 SQL，见第一个红框；2 是搭建 server 集群，通过 client 提交 SQL 实现热部署，见第二个红框。

RocketMQ-Streams SQL 扩大，反对多种扩大形式：
• 通过 FlinkUDF,UDTF,UDAF 扩大 SQL 能力，在 SQL 中通过 create function 引入，有个限度条件，即 UDF 在 open 时未用到 Flink FunctionContext 的内容。
• 通过内置函数扩大 SQL 的函数，语法同 Flink 语法，函数名是内置函数的名称，类名是固定的。如下图，引入了一个 now 的函数，输入以后工夫。零碎内置了 200 多个函数，可按需引入。

• 通过扩大函数实现，实现一个函数很简略，只须要在 class 上标注 Function，在须要公布成函数的办法上标注 FunctionMethod，并设置须要公布的函数名即可，如果须要零碎信息，后面两个函数能够是 IMessage 和 Abstract，如果不须要，间接写参数即可，参数无格局要求。如下图，创立了一个 now 的函数，两种写法都能够。能够通过 currentTime=now()来调用，会在 Message 中减少一个 key=currentTime，value=以后工夫的变量。

• 把现有 java 代码公布成函数，通过策略配置，把 java 代码的类名，办法名，冀望用到的函数名，配置进去，把 java 的 jar 包 copy 到 jar 包目录即可。下图是几种扩大的利用实例。

RocketMQ-Streams 架构及原理实现

整体架构

Source 实现

• Source 要求实现起码生产一次的语义，零碎通过 checkpoint 零碎音讯实现，在提交 offset 前发送 checkpoint 音讯，告诉所有算子刷新内存。
• Source 反对分片的主动负载平衡和容错。
• 数据源在分片移除时，发送移除零碎音讯，让算子实现分片清理工作。
• 当有新分片时，发送新增分片音讯，让算子实现分片的初始化。
• 数据源通过 start 办法，启动 consuemr 获取音讯。
• 原始音讯通过编码，附加头部信息包装成 Message 投递给后续算子。

Sink 实现

• Sink 是实时性和吞吐的一个联合。
• 实现一个 Sink 只有继承 AbstractSink 类实现 batchInsert 办法即可。batchInsert 的含意是一批数据写入存储，须要子类调用存储接口实现，尽量利用存储的批处理接口，进步吞吐。
• 惯例的应用形式是写 Message->cache->flush->存储的形式，零碎会严格保障，每次批次写入存储的量不超过 batchsize 的量，如果超了，会拆分成多批写入。

• Sink 有一个 cache，数据默认写 cache，批次写入存储，进步吞吐量。（一个分片一个 cache）。
• 能够开启主动刷新，每个分片会有一个线程，定时刷新 cache 数据到存储，进步实时性。实现类：DataSourceAutoFlushTask 。
• 也能够通过调用 flush 办法刷新 cache 到存储。
• Sink 的 cache 会有内存保护，当 cache 的音讯条数>batchSize，会强制刷新，开释内存。

RocketMQ-Streams Exactly-ONCE

• Source 确保在 commit offset 时，会发送 checkpoint 零碎音讯，收到音讯的组件会实现存盘操作。音讯至多生产一次。
• 每条音讯会有音讯头部，外面封装了 QueueId 和 offset 。
• 组件在存储数据时，会把 QueueId 和解决的最大 offset 存储下来，当有音讯反复时，依据 maxoffset 去重。
• 内存保护，一个 checkpoint 周期可能有屡次 flush（条数触发），保障内存占用可控。

RocketMQ-Streams Window

• 反对滚动，滑动和会话窗口。反对事件工夫和天然工夫（音讯进入算子的工夫）。
• 反对高性能模式和高牢靠模式，高性能模式不依赖近程存储，但在分片切换时的窗口数据会有失落。
• 疾速启动，无需等本地存储复原，在产生谬误或分片切换时，异步从近程存储复原数据，同时间接拜访近程存储计算。
• 利用音讯队列负载平衡，实现扩容缩容，每个 Queue 是一个分组，一个分组同一刻只被一台机器生产。
• 失常计算依赖本地存储，具备 Flink 类似的计算性能。

反对三种触发模式，能够平衡 watermark 提早和实时性要求

RocketMQ-Streams 在云平安的利用

在平安利用的背景

• 公共云转战专有云，在入侵检测计算方面遇到了资源问题，大数据集群默认不输入，输入最低 6 台高配机器，用户很难承受因为买云盾增配一套大数据集群。
• 专有云用户降级，运维艰难，无奈疾速降级能力和修复 bug。

流计算在平安的利用

• 基于平安特点（大数据->高过滤->轻窗口计算）打造轻量级计算引擎：通过剖析所有的规定都会做前置过滤，而后才会做较重的统计，窗口，join 操作，且过滤率比拟高，基于此特点，能够用更轻的计划实现统计，join 操作。

• 通过 RocketMQ-Streams，笼罩 100%专有云规定（正则，join，统计）。
• 轻资源，内存是公共云引擎的 1/70，CPU 是 1/6，通过指纹过滤优化，性能晋升 5 倍以上，且资源不随规定线性减少，新增规定无资源压力。复用以前的正则引擎资源，可反对 95%以上局点，不须要减少额定物理资源。
• 通过高压缩维表，反对千万情报。1000 W 数据只须要 330 M 内存。
• 通过 C/S 部署模式，SQL 和引擎可热公布，尤其护网场景，可疾速上线规定。

RocketMQ-Streams 将来布局

新版本下载地址：https://github.com/apache/roc…

关于阿里云:RocketMQStreams-首个版本发布轻量级计算的新选择

RocketMQ-Streams 特点及利用场景

RocketMQ-Streams 利用场景

RocketMQ-Streams 设计思路

RocketMQ-Streams 特点和翻新

RocketMQ-Streams SDK 详解

RocketMQ-Streams SDK

RocketMQ-Streams 算子

RocketMQ-Streams 算子

RocketMQ-Streams 架构及原理实现

整体架构

Source 实现

Sink 实现

RocketMQ-Streams Exactly-ONCE

RocketMQ-Streams Window

RocketMQ-Streams 在云平安的利用

在平安利用的背景

流计算在平安的利用

RocketMQ-Streams 将来布局

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于阿里云:RocketMQStreams-首个版本发布轻量级计算的新选择

RocketMQ-Streams 特点及利用场景

RocketMQ-Streams 利用场景

RocketMQ-Streams 设计思路

RocketMQ-Streams 特点和翻新

RocketMQ-Streams SDK 详解

RocketMQ-Streams SDK

RocketMQ-Streams 算子

RocketMQ-Streams 算子

RocketMQ-Streams 架构及原理实现

整体架构

Source 实现

Sink 实现

RocketMQ-Streams Exactly-ONCE

RocketMQ-Streams Window

RocketMQ-Streams 在云平安的利用

在平安利用的背景

流计算在平安的利用

RocketMQ-Streams 将来布局

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复