关于spring:Apache-Beam批处理和流式处理的融合

8次阅读

共计 3193 个字符,预计需要花费 8 分钟才能阅读完成。

1. 概述

在本教程中,咱们将介绍 Apache Beam 并探讨其基本概念。
咱们将首先演示应用 Apache Beam 的用例和益处,而后介绍基本概念和术语。之后,咱们将通过一个简略的例子来阐明 Apache Beam 的所有重要方面。

2. Apache Beam 是个啥?

Apache Beam(Batch+strEAM)是一个用于批处理和流式数据处理作业的对立编程模型。它提供了一个软件开发工具包,用于定义和构建数据处理管道以及执行这些管道的运行程序。

Apache Beam 旨在提供一个可移植的编程层。事实上,Beam 管道运行程序将数据处理管道转换为与用户抉择的后端兼容的 API。目前,反对这些分布式解决后端有:

  • Apache Apex
  • Apache Flink
  • Apache Gearpump (incubating)
  • Apache Samza
  • Apache Spark
  • Google Cloud Dataflow
  • Hazelcast Jet

3. 为啥抉择 Apache Beam

Apache Beam 将批处理和流式数据处理交融在一起,而其余组件通常通过独自的 API 来实现这一点。因而,很容易将流式解决更改为批处理,反之亦然,例如,随着需要的变动。

Apache Beam 进步了可移植性和灵活性。咱们关注的是逻辑,而不是底层的细节。此外,咱们能够随时更改数据处理后端。

Apache Beam 能够应用 Java、Python、Go 和 Scala 等 SDK。事实上,团队中的每个人都能够应用他们抉择的语言。

4. 基本概念

应用 Apache Beam,咱们能够构建工作流图(管道)并执行它们。编程模型中的要害概念是:

  • PCollection–示意能够是固定批处理或数据流的数据集
  • PTransform–一种数据处理操作,它承受一个或多个 PCollections 并输入零个或多个 PCollections。
  • Pipeline–示意 PCollection 和 PTransform 的有向无环图,因而封装了整个数据处理作业。
  • PipelineRunner–在指定的分布式解决后端上执行管道。

简略地说,PipelineRunner 执行一个管道,管道由 PCollection 和 PTransform 组成。

5. 字数统计示例

当初咱们曾经学习了 Apache Beam 的基本概念,让咱们设计并测试一个单词计数工作。

5.1 建造梁式管道

设计工作流图是每个 Apache Beam 作业的第一步,单词计数工作的步骤定义如下:
1. 从原文中读课文。
2. 把课文分成单词表。
3. 所有单词都小写。
4. 删去标点符号。
5. 过滤进行语。
6. 统计惟一单词数量。
为了实现这一点,咱们须要应用 PCollectionPTransform 形象将上述步骤转换为 管道

5.2. 依赖

在实现工作流图之前,先增加 Apache Beam 的依赖项 到咱们的我的项目:

<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-sdks-java-core</artifactId>
    <version>${beam.version}</version>
</dependency>

Beam 管道运行程序依赖于分布式解决后端来执行工作。咱们增加 DirectRunner 作为运行时依赖项:

<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-runners-direct-java</artifactId>
    <version>${beam.version}</version>
    <scope>runtime</scope>
</dependency>

与其余管道运行程序不同,DirectRunner 不须要任何额定的设置,这对初学者来说是个不错的抉择。

5.3. 实现

Apache Beam 应用 Map-Reduce 编程范式 (相似 Java Stream)。讲上面内容之前,最好 对 reduce(), filter(), count(), map(), 和 flatMap() 有个根底概念和意识。

首先要做的事件就是 创立 管道

PipelineOptions options = PipelineOptionsFactory.create();
Pipeline p = Pipeline.create(options);

六步单词计数工作:

PCollection<KV<String, Long>> wordCount = p
    .apply("(1) Read all lines", 
      TextIO.read().from(inputFilePath))
    .apply("(2) Flatmap to a list of words", 
      FlatMapElements.into(TypeDescriptors.strings())
      .via(line -> Arrays.asList(line.split("\\s"))))
    .apply("(3) Lowercase all", 
      MapElements.into(TypeDescriptors.strings())
      .via(word -> word.toLowerCase()))
    .apply("(4) Trim punctuations", 
      MapElements.into(TypeDescriptors.strings())
      .via(word -> trim(word)))
    .apply("(5) Filter stopwords", 
      Filter.by(word -> !isStopWord(word)))
    .apply("(6) Count words", 
      Count.perElement());

apply() 的第一个(可选)参数是一个String,它只是为了进步代码的可读性。上面是上述代码中每个 apply() 的作用:

  1. 首先,咱们应用 TextIO 逐行读取输出文本文件。
  2. 将每一行按空格离开,把它映射到一个单词表上。
  3. 单词计数不辨别大小写,所以咱们将所有单词都小写。
  4. 之前,咱们用空格分隔行,然而像“word!“和”word?” 这样的,就须要删除标点符号。
  5. 像“is”和“by”这样的进行词在简直每一篇英语文章中都很常见,所以咱们将它们删除。
  6. 最初,咱们应用内置函数 Count.perElement() 计算惟一单词数量。

如前所述,管道是在分布式后端解决的。不可能在内存中的 PCollection 上迭代,因为它散布在多个后端。相同,咱们将后果写入内部数据库或文件。

首先,咱们将 PCollection 转换为 String。而后,应用TextIO 编写输入:

wordCount.apply(MapElements.into(TypeDescriptors.strings())
    .via(count -> count.getKey() + "-->" + count.getValue()))
    .apply(TextIO.write().to(outputFilePath));

当初 管道 曾经定义好了,接下来做个简略的测试。

5.4. 运行测试

到目前为止,咱们已为单词计数工作定义了 管道 ,当初运行 管道

p.run().waitUntilFinish();

在这行代码中,Apache Beam 将把咱们的工作发送到多个 DirectRunner 实例。因而,最初将生成几个输入文件。它们将蕴含以下内容:

...
apache --> 3
beam --> 5
rocks --> 2
...

在 Apache Beam 中定义和运行分布式作业是如此地简略。为了进行比拟,单词计数实现在 Apache Spark, Apache Flink 和 Hazelcast-Jet 上也有

6. 结语

在本教程中,咱们理解了 Apache Beam 是什么,以及它为什么比其余抉择更受欢迎。咱们还通过一个单词计数示例演示了 Apache Beam 的基本概念。
如果你感觉文章还不错,记得关注公众号:锅外的大佬
锅外的大佬博客

正文完
 0