关于spring:Apache-Beam批处理和流式处理的融合

36次阅读

共计 3193 个字符，预计需要花费 8 分钟才能阅读完成。

在本教程中，咱们将介绍 Apache Beam 并探讨其基本概念。
咱们将首先演示应用 Apache Beam 的用例和益处，而后介绍基本概念和术语。之后，咱们将通过一个简略的例子来阐明 Apache Beam 的所有重要方面。

Apache Beam（Batch+strEAM）是一个用于批处理和流式数据处理作业的对立编程模型。它提供了一个软件开发工具包，用于定义和构建数据处理管道以及执行这些管道的运行程序。

Apache Beam 旨在提供一个可移植的编程层。事实上，Beam 管道运行程序将数据处理管道转换为与用户抉择的后端兼容的 API。目前，反对这些分布式解决后端有：

Apache Apex
Apache Flink
Apache Gearpump (incubating)
Apache Samza
Apache Spark
Google Cloud Dataflow
Hazelcast Jet

Apache Beam 将批处理和流式数据处理交融在一起，而其余组件通常通过独自的 API 来实现这一点。因而，很容易将流式解决更改为批处理，反之亦然，例如，随着需要的变动。

Apache Beam 进步了可移植性和灵活性。咱们关注的是逻辑，而不是底层的细节。此外，咱们能够随时更改数据处理后端。

Apache Beam 能够应用 Java、Python、Go 和 Scala 等 SDK。事实上，团队中的每个人都能够应用他们抉择的语言。

应用 Apache Beam，咱们能够构建工作流图（管道）并执行它们。编程模型中的要害概念是：

PCollection–示意能够是固定批处理或数据流的数据集
PTransform–一种数据处理操作，它承受一个或多个 PCollections 并输入零个或多个 PCollections。
Pipeline–示意 PCollection 和 PTransform 的有向无环图，因而封装了整个数据处理作业。
PipelineRunner–在指定的分布式解决后端上执行管道。

简略地说，PipelineRunner 执行一个管道，管道由 PCollection 和 PTransform 组成。

当初咱们曾经学习了 Apache Beam 的基本概念，让咱们设计并测试一个单词计数工作。

设计工作流图是每个 Apache Beam 作业的第一步，单词计数工作的步骤定义如下：
1. 从原文中读课文。
2. 把课文分成单词表。
3. 所有单词都小写。
4. 删去标点符号。
5. 过滤进行语。
6. 统计惟一单词数量。
为了实现这一点，咱们须要应用 PCollection 和 PTransform 形象将上述步骤转换为管道。

在实现工作流图之前，先增加 Apache Beam 的依赖项到咱们的我的项目：

<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-sdks-java-core</artifactId>
    <version>${beam.version}</version>
</dependency>

Beam 管道运行程序依赖于分布式解决后端来执行工作。咱们增加 DirectRunner 作为运行时依赖项：

<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-runners-direct-java</artifactId>
    <version>${beam.version}</version>
    <scope>runtime</scope>
</dependency>

与其余管道运行程序不同，DirectRunner 不须要任何额定的设置，这对初学者来说是个不错的抉择。

Apache Beam 应用 Map-Reduce 编程范式 (相似 Java Stream)。讲上面内容之前，最好对 reduce(), filter(), count(), map(), 和 flatMap() 有个根底概念和意识。

首先要做的事件就是创立管道：

PipelineOptions options = PipelineOptionsFactory.create();
Pipeline p = Pipeline.create(options);

六步单词计数工作：

PCollection<KV<String, Long>> wordCount = p
    .apply("(1) Read all lines", 
      TextIO.read().from(inputFilePath))
    .apply("(2) Flatmap to a list of words", 
      FlatMapElements.into(TypeDescriptors.strings())
      .via(line -> Arrays.asList(line.split("\\s"))))
    .apply("(3) Lowercase all", 
      MapElements.into(TypeDescriptors.strings())
      .via(word -> word.toLowerCase()))
    .apply("(4) Trim punctuations", 
      MapElements.into(TypeDescriptors.strings())
      .via(word -> trim(word)))
    .apply("(5) Filter stopwords", 
      Filter.by(word -> !isStopWord(word)))
    .apply("(6) Count words", 
      Count.perElement());

apply() 的第一个（可选）参数是一个String，它只是为了进步代码的可读性。上面是上述代码中每个 apply() 的作用：

首先，咱们应用 TextIO 逐行读取输出文本文件。
将每一行按空格离开，把它映射到一个单词表上。
单词计数不辨别大小写，所以咱们将所有单词都小写。
之前，咱们用空格分隔行，然而像“word！“和”word？” 这样的，就须要删除标点符号。
像“is”和“by”这样的进行词在简直每一篇英语文章中都很常见，所以咱们将它们删除。
最初，咱们应用内置函数 Count.perElement() 计算惟一单词数量。

如前所述，管道是在分布式后端解决的。不可能在内存中的 PCollection 上迭代，因为它散布在多个后端。相同，咱们将后果写入内部数据库或文件。

首先，咱们将 PCollection 转换为 String。而后，应用TextIO 编写输入：

wordCount.apply(MapElements.into(TypeDescriptors.strings())
    .via(count -> count.getKey() + "-->" + count.getValue()))
    .apply(TextIO.write().to(outputFilePath));

当初管道曾经定义好了，接下来做个简略的测试。

到目前为止，咱们已为单词计数工作定义了管道，当初运行管道：

p.run().waitUntilFinish();

在这行代码中，Apache Beam 将把咱们的工作发送到多个 DirectRunner 实例。因而，最初将生成几个输入文件。它们将蕴含以下内容：

...
apache --> 3
beam --> 5
rocks --> 2
...

在 Apache Beam 中定义和运行分布式作业是如此地简略。为了进行比拟，单词计数实现在 Apache Spark, Apache Flink 和 Hazelcast-Jet 上也有

在本教程中，咱们理解了 Apache Beam 是什么，以及它为什么比其余抉择更受欢迎。咱们还通过一个单词计数示例演示了 Apache Beam 的基本概念。
如果你感觉文章还不错，记得关注公众号：锅外的大佬
锅外的大佬博客

正文完

spring

发表至： spring

2020-12-02

0

关于spring:spring注解开发ConfigurationBean

关于spring:Spring事务的传播行为案例分析

Springboot快速上手-第五篇-部署应用

关于spring:Spring认证中国教育管理中心Apache-Geode-的-Spring-数据教程十一

关于java:干掉NavicatMySQL官方客户端到底行不行

关于spring:Apache-Beam批处理和流式处理的融合

1. 概述

2. Apache Beam 是个啥?

3. 为啥抉择 Apache Beam

4. 基本概念

5. 字数统计示例

5.1 建造梁式管道

5.2. 依赖

5.3. 实现

5.4. 运行测试

6. 结语

Just My Socks（注册教程内含优惠码）

关于spring:Apache-Beam批处理和流式处理的融合

1. 概述

2. Apache Beam 是个啥?

3. 为啥抉择 Apache Beam

4. 基本概念

5. 字数统计示例

5.1 建造梁式管道

5.2. 依赖

5.3. 实现

5.4. 运行测试

6. 结语

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）