关于阿里云开发者:基于实时计算Flink版的场景解决方案demo

简介：通过两个demo分享技术实时计算flink版的解决方案

本文整顿自阿里云智能行业解决方案专家GIN的直播分享
直播链接：https://developer.aliyun.com/learning/course/839

本文次要分享两个基于 Flink 制作的实时大数据的利用。为了更好的体现利用的价值以及它所代表的典型的场景，这次的分享定制了两个靠近现实生活中的利用案例。

第一个是如何去做实时的 API 应用服务日志的剖析，第二个是采纳模仿的 IoT 遥测数据去剖析车辆的引擎，并且做实时的异样侦测，以达到做预测保护的一个目标。

实时利用日志剖析

场景形容

第一个场景的需要是比拟广泛的，这个场景搭建了车辆隐衷爱护的API。这个API自身是能够对用户上传的车辆的照片进行一个隐衷爱护的解决，是一个深度学习的模型。

这个模型被封装成一个API，放在阿里云的公共云ECS上，供全世界各地的用户去拜访。针对这个API首先须要做的就是去剖析到底有多少人在拜访他的反馈的频度，来自哪个国家或地区，以及他的拜访的一些特色，是否为攻打或者失常的利用？

为了做这个实时的剖析，首先须要有能力对各个API扩散在各个服务器当中的自身的利用日志去进行海量且实时的一个收集的行为。不仅能收集咱们，咱们还要可能对它进行一个比拟及时的实时的一个解决。解决包含可能有维度表的查问，有些窗口的聚合等等，这对流式计算来说比拟常见的操作，最初把这些操作解决完的后果放在高吞吐低提早的一个环境里边，使得上游的剖析零碎可能对数据进行一个实时的拜访。

整个这个链路并不简单，然而它代表了一个十分重要的能力，也就是通过应用 Flink 为代表的实时计算和解决，可能在秒级的单位内给业务决策人员提供一个数据驱动决策的性能。

Demo计划架构

具体来看一下这个demo是如何实现的，这里边的这个架构里边有几个重要的要害。

首先右上方是搭建好的API的环境，用的是Flask、 Pytho联合比拟支流的Nginx、Gunicorn把它制成了一个API 。须要把API变成一个容器镜像，并且通过镜像将它部署到阿里云的ECS下面，为了高并发低提早，还装了第七层的负载平衡，以及后面套了一个API Gateway网关去帮忙用户去调用API的能力。

同时作为这个demo，咱们也提供了一个 WEB APP ，使得用户不仅能通过代码去调用 API ，也能够应用图形化的界面去拜访API 。以后端的用户去调用API 的时候，会应用SLS 简略日志服务去从API 自身的服务器当中收集实时的收集API 的利用日志，并且将它做简略的解决之后，投递到实时计算Flink中。
Flink 有个很好的一个特色，就是它能够去订阅来自简略日志服务的日志的投递，并且以流式计算的形式对这个日志进行窗口聚合维度表的查问联合等等这些操作，还有一个益处是它能够用习惯的SQL去做比较复杂的业务逻辑的定制。

当这些数据都解决完了之后Flink 就会把流数据以结构化表的形式写到Hologres，Hologres不仅作为数据的一个存储，也同时作为一个给上游 BI 数据展示提供能源的相似OLAP的引擎的性质。这些货色串起来，造成了本次的大数据实时日志采集剖析的一个架构。

计划解析

具体来看一下，每个部件是如何应用的。

应用车辆隐衷 API 作为实时剖析的数据源
通过WEB APP能够容许用户非常简单的去上传本人的车辆的照片，API 会对他进行一个模糊化的解决。录屏中能够看到这张照片交由API 解决之后背景被虚化了，并且车牌的局部还有隐衷信息的局部也被遮挡了。

SLS 日志核心
当有用户去拜访这个API 的时候后盾简略日志服务就会对他进行一个实时的采集。

日志采集之后会应用Log tail 的转换数据加工的能力，对原始的日志去进行肯定水平的解析和转换，其中就包含将IP地址解析为例如国家城市纬度精度等这样的地理信息，不便后续做上游的剖析的时候能够调度这些信息，除了简略的一些服务还提供一个十分弱小的图形化的数据分析的能力。

实时计算Flink版
在这里能够做一个高级的数据分析的，或者是数据勘察的性能，能够看到原始日志的转换是否满足上游业务撑持的一个需要，当日志被采集转换解决完之后，会通过Log Hub将这个日志投递给流解决核心，也就是实时计算Flink 。

其实用投递这个词并不是特地的准确，实际上是Flink 被动去订阅，在Log Hub 里边存储的Log Store 的这些解决过的日志的信息。Flink 有个十分好的中央，能够用常见的SQL去写编业务逻辑，包含转换解决一些逻辑条件。当SQL写完后只有点击上线，就能够包装成一个Flink的job ，并托管在Flink 的cluste里边，集群里边，通过这个控制台能够十分不便的拜访。

那么当初的plus的集群的应用水平频度如何？CPU 如何，有没有异样，有没有报错，包含查看整个交付的状况等等，可间接通过Flink 托管，这是一个十分大的劣势，简直不必去为运维操心。

Hologres (HSAP)

Flink 解决实现，这个流数据通过 Flink 提供的接口，能够使得解决完的流数据，以一种相似于表格结构化的形式间接写入到咱们的存储系统Hologress里，Hologress有一个特地大的特色就是它既是OLTP，也是OLAP。

具体来说既能够把它拿做OUTP去疾速的写入，同时也能够对被写入的数据同时进行一个高并发的低提早的查问剖析。也就是经常说的OLAP引擎的能力，他把两者合并为一块，所以Hologress 也被称为HSAP。

DataV Dashboard
在本次的架构当中，它次要用来把解决完的数据展示给上游，也就是终端用户，终端的业务决策人员能够看到生产的实时的大屏。

这个实时的大屏会随着API 被拜访，以秒级的提早，把最新的信息处理完的信息给反映。在这个datav的实时大屏上，这样的话能够很大水平上缩小决策人员看到数据时产生的提早。

如果采纳的是传统的那种批处理的形式的，那么每次解决可能要上TB级的数据，而且解决工夫长达数小时。如果采纳以flink 为外围的端到端的实时计算的计划的话，这个提早就能从几个小时被压缩在几秒甚至是一秒以内。

车辆引擎实时预测保护

场景形容

第二个业务场景是联合IoT通过模仿的遥测数据，分析判断马路上行走的车的引擎是否展示一些异样的证照，能够提前判断是否可能存在问题，如果放任不管的话3个月之后可能某个部件就要坏了，这也是一个在理论利用场景当中常常会被提到的一个需要，咱们称之为预测性的保护。预测性保护在理论的利用场景当中，能够帮客户方省下大量的金钱，因为当货色曾经呈现问题在进行修复，必定不如在损坏之前提前给替换来的无效。

Demo计划架构

为了实现这么一个比拟靠近真实世界的场景，调研理解了在车载设施当中有个叫OBD II的这个诊断系统，它里边常常蕴含的经典数据，把这些数据采集了一部分过去对它进行加工、模仿。写了一个程序，模仿一个比拟实在的在事实环境当中运行的车的引擎的一个数据。

当然本次因为不太可能真的让一辆车在马路上开，所以有了这个模拟程序，利用各种各样的统计分析的手法去模仿生成这样的行车数据，尽可能达到实在的成果。

这个程序会把模仿的行车引擎遥测数据把它给投递到Kafka ，而后通过实时计算Flink 生产订阅Kafka的Topic ，而后依据每个Topic进行不同的流式计算。后果的一部分将它归档在 OSS ，把它存储下来就有了历史数据，另一部分作为热流数据源间接投递给开发的异样侦测的模型，把它部署在PAI EAS下面，通过 Flink 能够间接去调用。

而后做了这个机器学习的判断后，再去看当初当下的这个引擎的数据有没有异样的征兆，再把这个后果写入到数据库里边，供AB进行一个进行一个进行一个生产。数据通过实时计算Flink做了实时的解决之后，一部分的数据把它归档到了OSS里。

这部分数据理论用来作为历史数据去建模，甚至是从新模型。因为每隔一段时间可能行车的这个特色万一产生了一些变动，俗称Data Drifting ，那么又能够用新产生的历史数据去对模型进行从新的训练，从新训练完的模型又能够把它作为 Web Service ，把它部署到PAI ES上供Flink 去调用，这样的话就实现了一个Lambda 架构的大数据解决方案。

计划解析

生成模仿行车数据

首先须要做模仿数据生成的工作，去把引擎的遥测数据OBD的数据把它给模仿进去，投递到这个云下来做剖析。这边采纳的是函数计算，函数计算十分的不便。它首先是一个托管服务，它是一个service 的服务。

其次能够把Python的脚本从本地开发好的脚本间接照搬copy配置到这个函数计算里边，利用这个托管的计算去执行这个模仿数据生成的这么一个程序脚本，十分的不便。

在本次demo当中采纳了每一分钟执行一次函数计算，也就是生成一个批次的遥测数据，而后每次生成距离3秒投递一个数据到Kafka里边去尽可能去模仿一个实在环境当中的这个数据产生的一个频度。

收集/公布行车数据

Kafka也是一个罕用的大数据的Pub/Sub的一个零碎，它十分的灵便，扩容性十分的棒，在阿里云上的Kafka，能够在EMR 里边自建一个Kafka集群，也能够应用叫Kafka on MQ的一个托管服务，来搭建一个齐全service 。

这是个kafka零碎，本次demo 为了不便就采纳了kafka去搭建了一个托管式的 Pop Subject System ，这System 其实只是用来囤积后方生成的，也就是车辆投递过去的这个引擎的数据，那么在理论的生产环境当中车不可能是一辆，甚至必定是几万辆，几十万辆都有可能，采纳kafka的话就能够十分不便的去扩容。不论前端的车有10辆还是10万辆，整体架构都不须要做太大的扭转，能够从容的应答这些扩容的弹性的需要。

实时计算和异样分析模型调用

实时计算的局部，依然采 Flink 的这个实时计算零碎，只不过在本次demo当中应用用的是 Blink 的独享集群，也就是所谓的半托管式的这个实时计算的平台。其实跟方才在上一个场景当中的全托管应用办法简直是截然不同的。

只不过在制作这个demo 的时候，一部分的区域还未上线Flink 全托管版本，所以抉择了一个叫Blink 独享集群的服务，同样也是挂在实时计算的这个家族当中，用起来的办法简直跟全托管是截然不同的，开发人员也只须要focus 在写这个脚本去做业务逻辑的解决，点击上线，剩下的基本上就是齐全由Flink 代为治理，只须要去监控看有没有异样的呈现，包含做一些调优等等的工作，十分的不便。

那么在这边值得一提的是把PAI-EAS的这个模型调用的接口嵌入到了Flink 里边，使得Flink 在实时处理流数据的时候，同时也能够把一部分的数据扔给PAI去做模型的这个推论，得出的后果再和实时流数据合并起来，最初一并写入到上游的存储系统里边，体现了Flink计算平台的一个延展性和扩容性。

异样检测模型的开发

这部分展示如何用一个图形化的学习平台去设计开发一个非常简单的二元分类模型。

这个二元分类模型次要就是从过来引擎的历史数据当中，学习哪些特色会被用来判断为引擎有问题，哪些是是比拟属于失常的这个数值。通过这个模型，就有根据能够用来对将来新产生的引擎数据进行一个判断，这样有助于业务人员提早去预知目前引擎的数据问题。

模型部署和调用服务

因为模型从过来曾经学习到了相干的特色以及这个Data的pattern。这个模型的开发整个过程用的studio ，齐全是拖拽搭建，简直没写过一条代码，十分的方便快捷，齐全能够通过纽扣来实现一个模型的开发。更好的一点在于当模型开发完了之后，通过PAI能够一键部署把它包装成一个rest API 和Web Service 放在PAI的平台下来供用户去调用。一键部署之后，对这个部署完的模型的服务进行一个测试调用，十分的不便。

高吞吐结构化数据存储 (RDS)

当模型部署实现，能够通过Flink 让他判断有没有异样这个流数据进行实时的解决之后，最初把它写到了一个MySQL 的数据库里边。

这个数据库就会作为数据源去给上游的实时大屏提供一个数据的撑持。这样的话业务人员就能够实现实时也就是隔几秒的这个状态就能看到目前在路上跑的这个车到底有没有问题？

Near Realtime Dashboard

通过这个链接： https://datav.aliyuncs.com/share/9fff231ff81f409829180ee933e7bcee 能够关上这个实时的大屏。

data v 的大屏是预设每5秒更新一次，也就是说每5秒就会从数据库当中把最新的预遥测数据，包含这个判断有没有异样的数据，把数据展现在大屏上。

红色代表的是这个工夫点采集上来的数据，代表是有问题的，那么蓝色就代表normal，也就是比拟失常的数据。这个数据的失常规范，齐全是由之前产生的模仿数据function computer 去在管制。因为在function computer 逻辑里边人为加了一些会让引擎看起来出错的这种数据，使得这个demo 的不失常的局部体现的更多一点。

以上就是本次分享的2个demo，感兴趣的同学能够应用实时计算Flink版搭建本人的利用。

版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。