关于apache:海量数据实时分析引擎-Apache-Flink

37次阅读

共计 4414 个字符,预计需要花费 12 分钟才能阅读完成。

摘要:当零碎呈现大量或者重大的谬误却不被人感知,将会对业务产生影响,从而导致资产损失。当竞争对手施行了新战术,却无奈及时感知,跟不上竞争对手的节奏,总是追着对方尾巴走。当要做决策的时候,海量的业务数据增长却无奈实时看到聚合后果,决策总是凭借过往教训或者过期的数据分析之上。

能够看到如果没有数据分析,咱们的零碎大部分工夫处于黑盒状态,对业务的决策也只能凭借过往教训。实时与批量的数据分析能够帮忙企业洞察谬误,改善服务,进行决策。数据分析也是营销、运维、决策的重要撑持,越来越多的企业和部门曾经意识到实时与批量数据的剖析价值,开始进行数据分析系统的建设。

而在做数据分析时候要思考数据的时效性,须要依据场景来抉择离线数据分析或者是实时数据分析。

离线数据分析个别是依据固定的周期,比方每天统计一次,每周统计一次等相似于定时工作执行的场景,个别大家称为“批处理”。

实时数据分析个别基于数据事件,数据产生了就立刻解决,数据在源源不断的产生,计算也在不停地运行,就像是始终流动的水流一样通过层层的管道计算解决,个别大家称为”流解决“。

批处理和流解决各有优缺点

批处理更有利于对历史数据,最终数据状态等场景的解决,可无效的计算出比拟精确的后果,然而数据分析后果的实时性不太好。批处理的场景:例如咱们的微信静止排名、信用卡的月账单等。

流解决的数据实时性是十分好的,数据所见即所得,不过实时的数据分析与计算对资源耗费比拟大,如果后续数据产生了扭转后期无奈计算数据的最终状态。流解决的场景:例如小视频的实时个性化举荐、双十一实时金额的滚动大盘等。

能够看到个别状况下批处理更关注的是海量离线数据的完整性和对海量数据疾速计算解决的能力,流解决更关注的是数据的时效性和疾速计算解决能力。不过一个齐备的大数据批处理和流解决中间件不仅仅须要关注高吞吐量、低提早这样的根底性能相干的性能,更须要反对状态和故障复原等高可用的能力。

Apache Flink 正是一个具备高性能和高可用的批流解决大数据中间件,同时还具备批流一体的解决能力,流解决也在业界处于领先水平。被宽广互联网公司应用,上面咱们就来进入正题看下对于 Apache Flink 的一些内容吧。

Apache Flink 是什么?

依据官网的介绍:Apache Flink 是一个在有界数据流和无界数据流上进行有状态计算的分布式解决引擎和框架。Flink 设计旨在所有常见的集群环境中运行,以任意规模和内存级速度执行计算。上面两个图是来自官网首页的 Flink 批流解决的架构图,能够整体来看一下。

整体来看 Flink 这样的流批零碎次要蕴含了采集数据(source),解决数据(process),导出数据(sink) 三个局部。采集数据形式蕴含了实时数据的流解决和历史数据的批处理形式。数据源能够来源于利用、设施、日志,数据库等其余数据,导出数据与导入数据一样能够将数据导出到各种类别的接收数据的服务。除了采集数据和导出数据,Flink 中最外围的内容还有两头通过流式计算来解决有状态和无状态的数据这一部分,上面就来看一看。

在 Flink 中,应用程序由用户自定义算子转换而来的流式 dataflows 所组成。这些流式 dataflows 造成了有向图,以一个或多个源(source)开始,并以一个或多个汇(sink)完结,如下图所示。

其中 Flink 的流解决在业界处于领先水平,对于流解决的一些概念有必要再深刻理解一下。

后面曾经简略介绍过流解决的一些概念上面就来看下与流相干的其余名词。

有界和无界的数据流

无界流 有定义流的开始,但没有定义流的完结。它们会无休止地产生数据。无界流的数据必须继续解决,即数据被摄取后须要立即解决。咱们不能等到所有数据都达到再解决。

有界流 有定义流的开始,也有定义流的完结。有界流能够在摄取所有数据后再进行计算。有界流所有数据能够被排序,所以并不需要有序摄取。有界流解决通常被称为批处理。

流能够是无界的,也能够是有界的,例如固定大小的数据集 Flink 在无界的数据流解决上领有诸多功能强大的个性,同时也针对有界的数据流开发了专用的高效算子。

实时和历史记录的数据流

所有的数据都是以流的形式产生,但用户通常会应用两种截然不同的办法解决数据。或是在数据生成时进行实时的解决;亦或是先将数据流长久化到存储系统中——例如文件系统或对象存储,而后再进行批处理。Flink 的利用可能同时反对解决实时以及历史记录数据流。

状态

状态这个词语 ChatGPT 的解释如下:

在计算机科学中,状态是指在特定工夫点上,零碎或程序的所有变量和值的汇合。

Flink 官网是这样解释的如下:

任何运行根本业务逻辑的流解决利用都须要在肯定工夫内存储所接管的事件或两头后果,以供后续的某个工夫点(例如收到下一个事件或者通过一段特定工夫)进行拜访并进行后续解决。

对于状态治理是十分实用的,个别状况下咱们都冀望咱们的利用是无状态的随时能够重启或者扩容,然而理论场景很多时候咱们计算的数据须要有肯定的记录来保障幂等或者数据处理的地位。Fink 曾经为咱们提供了这样的状态管理机制间接应用即可。

工夫

工夫是流解决利用另一个重要的组成部分。因为事件总是在特定工夫点产生,所以大多数的事件流都领有事件自身所固有的工夫语义。例如窗口聚合、会话计算、模式检测和基于工夫的 join。流解决的一个重要方面是应用程序如何掂量工夫,即辨别事件工夫(event-time)和解决工夫(processing-time)。

三种工夫语义:

  • 事件工夫 (event time):事件产生的工夫,记录的是设施生产(或者存储) 事件的工夫。
  • 摄取工夫(ingestion time):Flink 读取事件时记录的工夫。
  • 解决工夫(processing time):Flink pipeline 中具体算子处理事件的工夫。

Flink 提供了 watermarks 机制 — 它们定义何时进行期待较早的事件。

watermarks 给了开发者流解决的一种抉择,它们使开发人员在开发应用程序时能够管制提早和完整性之间的衡量。

窗口

在数据处理的时候很多数据并非是简略的累加操作,很多时候须要咱们借助工夫窗口进行聚合解决,比方计算最近 5 分钟的数据的平均值。窗口能够使工夫驱动的也能够是数据驱动的,上面是 Flink 提供的几种窗口概念能够理解一下。

  1. 滚动工夫窗口
  • 每分钟页面浏览量
  • TumblingEventTimeWindows.of(Time.minutes(1))
  1. 滑动工夫窗口
  • 每 10 秒钟计算前 1 分钟的页面浏览量
  • SlidingEventTimeWindows.of(Time.minutes(1),Time.seconds(10))
  1. 会话窗口
  • 每个会话的网页浏览量,其中会话之间的距离至多为 30 分钟
  • EventTimeSessionWindows.withGap(Time.minutes(30))

运维与部署

Flink 是一个多功能的框架,以混搭的形式反对许多不同的部署场景。

Flink 是一个分布式系统,须要无效调配和治理计算资源能力执行流应用程序。它集成了所有常见的集群资源管理器,例如 Hadoop YARN,但也能够设置作为独立集群甚至库运行。

客户端总是在某处运行。它获取 Flink 应用程序的代码,将其转换为 JobGraph 并将其提交给 JobManager。

JobManager 将工作调配到 TaskManager 上,理论的运算符(例如源、转换和接收器)来运行。

入门教程

Java 环境

须要装置 Java 8 或者 Java 11

安装包

下载文件:

wget https://www.apache.org/dyn/closer.lua/flink/flink-1.17.0/flink-1.17.0-bin-scala_2.12.tgz

解压命令如下所示:

$ tar -xzf flink-1.17.0-bin-scala_2.12.tgz
$ cd flink-1.17.0-bin-scala_2.12.tgz

启动命令如下:

$ ./bin/start-cluster.sh
Starting cluster.
Starting standalonesession daemon on host.
Starting taskexecutor daemon on host.

启动胜利后能够看到下图所示提醒:

提交作业(Job)

Flink 的 Releases 附带了许多的示例作业。你能够任意抉择一个,疾速部署到已运行的集群上。

$ ./bin/flink run examples/streaming/WordCount.jar
$ tail log/flink-*-taskexecutor-*.out
  (nymph,1)
  (in,3)
  (thy,1)
  (orisons,1)
  (be,4)
  (all,2)
  (my,1)
  (sins,1)
  (remember,1)
  (d,4)

WebUI 中察看作业

关上 UI 控制台能够看到如下 JOB 的运行状态:

控制台地址:http://localhost:8081/

进行集群

$ ./bin/stop-cluster.sh

总结

从业务角度看

Apache Flink 是一个分布式流解决引擎,能够用于解决许多与数据处理相干的问题,包含:

  • 实时数据处理:Flink 能够解决实时数据流并对其进行计算和剖析,能够解决数据的实时窗口和时序剖析等利用场景。
  • 批处理:Flink 也反对批处理,能够解决大规模的离线数据,实现高效的数据分析和计算。
  • 机器学习:Flink 提供了机器学习库 FlinkML,能够在分布式集群上训练和测试机器学习模型。
  • 事件驱动应用程序:Flink 能够解决事件驱动应用程序,如应用程序状态治理、流式事件处理和简单事件处理。
  • 实时数据仓库:Flink 能够将实时数据流转换为数据仓库的数据模型,用于实时的 OLAP 剖析。

总之,Flink 能够用于解决实时和离线数据处理的许多问题,包含数据流解决、批处理、机器学习和事件驱动应用程序等。

从技术角度看

Apache Flink 是一种高性能、低提早的分布式数据流解决框架,它具备以下长处,因而成为数据分析和解决的重要工具之一:

  • 高性能:Flink 在解决数据时能够保障十分高的吞吐量和低提早,能够在解决实时数据时实现毫秒级的响应。
  • 分布式解决:Flink 能够在分布式环境下运行,能够解决大规模数据集,并可能主动进行数据分区和负载平衡。
  • 可靠性:Flink 具备高可靠性,能够解决失落的数据并保障后果的准确性。
  • 灵活性:Flink 反对多种数据源和数据格式,并提供了丰盛的 API 和库,能够不便地进行数据处理和剖析。
  • 解决简单事件:Flink 反对简单事件处理,能够辨认和解决蕴含多个事件的简单事件。
  • 反对多种部署形式:Flink 能够在本地环境、YARN、Mesos、Kubernetes 等不同的环境下运行,便于部署和治理。

基于这些长处,Flink 被广泛应用于各大互联网公司。

作者|宋小生

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0