关于spark:KubeEdge和Kuiper双剑合并轻松解决边缘流式数据处理

摘要：本篇文章次要分享基于KubeEdge和Kuiper实现边缘流式数据处理的实践经验。

引言：KubeEdge 是一个开源的边缘计算平台，它在Kubernetes原生的容器编排和调度能力之上，扩大实现了云边协同、计算下沉、海量边缘设施治理、边缘自治等能力。KubeEdge还将通过插件的模式反对5G MEC、AI云边协同等场景，目前在很多畛域都已落地利用。

在边缘的散失解决产品Kuiper

Kuiper是从2019年初开始做的，在2019年10月份，公布了第一个版本，始终继续迭代到当初，它的整个架构是一个比拟经典的流式解决架构。

产品设计指标：在云端运行的流式解决，像Spark与Flink能够运行在边缘端

Kuiper架构图

整体架构可分为3局部，左侧为sources,代表数据起源的地位，数据起源可能是KubeEdge外面有个边缘端的MQTT macOS broker，也可能是文件、窗口、数据库；
右侧为Sinks，代表数据处理实现后所要存储的地位，也就是指标零碎，指标能够是MQTT，能够将其存到文件、数据库外面，也能够调用HTTP service；

两头局部分成了这几层，最上层为数据业务逻辑解决，这个层面提供了SQL statement、Rule Parser，SQL processors进行解决后并将其转化成SQL plan；上面层为Streaming runtime和SQL runtime, 运行最终执行进去的 plan；最底层为storage，用来存储有些音讯流出。

Kuiper应用场景

流式解决：实现在边缘端的实时流式解决

规定引擎：灵便定义规定引擎，实现告警和音讯转发

数据格式与协定转换：实现边缘与云端不同类型的数据格式与异构协定之间灵便转换，实现IT&OT交融

KubeEdge与Kuiper集成

局部架构图

Kuiper是装在 KubeEdge MQTT Broker前面，整个都运行在边缘端，底下为不同的Mapper，也就是接入各种各样不同的协定。边缘MQTT Broker用来替换音讯。

数据处理的类型：

从设施模型文件定义中获取类型定义

将数据转换为Kuiper的数据类型

创立流时，可应用schema-less流定义

反对的数据类型有int、string、bool、float

KubeEdge模型文件和配置

下图为局部配置文件，包含设施的名称、属性、name、data type、Description等。

局部配置文件

保留设施模型文件

在ect/mqtt_source.yaml中配置模型文件信息

1）KubeEdgeVersion:目前未应用，为适配未来不同的版本模型文件预留

2）KubeEdgeModelFile：模型文件门路

通过config-map下发配置，保留到相干目录下

Kuiper应用过程

1）定义流：相似余数据库中表格的定义

DATASOURCE=”$hw/events/device/+/twin/update”为KubeEdge里定义好的topic

2）定义并提交规定

用SQL实现业务逻辑，并将运行后果发送到指定指标

反对的SQL

SELECT/FROM/WHERE/ORDER

JOIN/GROUP/HAVING

4类工夫窗口+1个计数窗口

60+SQL函数

3）运行

KubeEdge中部署Kuiper规定

1）使用Kuiper-Kubernetes-tool

2）该程序为一个工具类，独自运行在容器中，执行通过config-map下发的命令配置文件

配置文件中用于指定kuiper服务所在的地址和端口等信息

命令文件所在的目录

3）通过config-map下发命令执行文件，该工具定期主动扫描文件，而后执行命令

Kuiper manager-云边协同治理控制台

另外一种形式是通过治理控制台来治理很多Kuiper节点，因为Kuiper能够运行在很多节点上。

比方Kuiper能够运行在车联网的盒子外面，车联网有很多车，能够通过Kuiper-manager把所有的实例都接入进来，对立对其进行规定更新。

第一步是装置插件，咱们提供了一些插件的常识，比方要接入不同的源，如果咱们这边的源不反对，则能够本人写个插件，将插件进行装置，装置下来之后咱们提供安卓插件界面，就能够应用了。

接下来为创立流定义

下图为数据存储的地位，下图所示为将数据保留到文件系统，进行门路的指定。

下图为可视化的编辑界面，能够进行规定的编写。

利用案例：国家工业互联网大数据中心

该案例是一个十分典型的应用场景。K8s+CloudCore部署在云端，将规定通过治理通道下放到Kuiper，Kuiper的地位是放在MQTT broker，会将数据定义，实现数据的荡涤。目前通道有两条，第一条是将解决完的音讯发往Cloud MQTT broker，第二条通道比方本地要做数据长久化，可将其存到Influxdb这个继续数据库，咱们在边缘产生的一些第三方利用能够间接去调Influxdb外面的数据，做一些展现可视化等。底层是通过Mapper把不同的数据给接上来。

Kuiper里规定引擎的应用场景

LF EdgeX Foundry内置规定引擎，于2020年4月Geneva版本中曾经正式公布。

利用案例：异构零碎对接数据格式转换

实现与ERP、MES等IT零碎数据交换，咱们提供了一个非常灵活的扩大能力，包含异构数据通过扩大插件采集后，能够利用SQL内置函数或者扩大函数进行疾速、灵活处理；第二点是拿到数据处理后果后，通过sink的数据模板能够对剖析后果进行转换，灵便适配各类指标零碎所需的数据格式和协定，比方同样一条温度大于30度的规定，如果要去发送管制设施的指令，并且要发到微信上。这两个不同的指标零碎，它所须要的接口和数据是不一样的，但对于这个规定是一样的，那么能够在 data外面，依据同一条规定触发两个不同的操作，你能够指定不同的 topic，数据即可发送，不需再进行简单的编程；第三点是利用SAP NetWeaver RFC SDK,实现从SAP中读取数据，解决并转换后发送到别的异构零碎。

性能数据

Kuiper 反对并发运行数千条规定

8000规定*0.1音讯/秒/规定，共计的TPS为800条/秒

规定定义

源：MQTT

SQL:select temperature from source where temperature＞20（90%数据被过滤）

指标：日志

配置

AWS:2core*4GB

Ubuntu

资源应用

Memory:89%~72%;0.4MB/rule

GPU:25%

AWS t2.micro 配置10k+/s音讯吞吐

点击关注，第一工夫理解华为云陈腐技术~

关于spark:KubeEdge和Kuiper双剑合并轻松解决边缘流式数据处理

在边缘的散失解决产品Kuiper

Kuiper架构图

Kuiper应用场景

KubeEdge与Kuiper集成

KubeEdge模型文件和配置

Kuiper应用过程

KubeEdge中部署Kuiper规定

Kuiper manager-云边协同治理控制台

利用案例：国家工业互联网大数据中心

Kuiper里规定引擎的应用场景

利用案例：异构零碎对接数据格式转换

性能数据

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于spark:KubeEdge和Kuiper双剑合并轻松解决边缘流式数据处理

在边缘的散失解决产品Kuiper

Kuiper架构图

Kuiper应用场景

KubeEdge与Kuiper集成

KubeEdge模型文件和配置

Kuiper应用过程

KubeEdge中部署Kuiper规定

Kuiper manager-云边协同治理控制台

利用案例：国家工业互联网大数据中心

Kuiper里规定引擎的应用场景

利用案例：异构零碎对接数据格式转换

性能数据

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复