关于apache:Apache-Beam-处理文件

41次阅读

共计 623 个字符,预计需要花费 2 分钟才能阅读完成。

明天咱们介绍了如何应用 pipeline 在 Apache Beam 中的文件中读取、写入数据,其中“Employees.csv”文件被读取 / 过滤 / 写入新文件。

介绍

本文通过适当的 pipeline 示例解释了如何在 Apache Beam 中读取和写入文件中的数据。从文件中读取数据是通过“ReadFromText”转换实现的,写入新文件是通过“WriteToText”转换实现的。开始咱们解释了如何从文件中读取数据以及如何写入文件,在、后半部通过创立一个 pipeline,其中读取“Employees.csv”文件,依据年龄过滤,提取员工的名字,姓氏和年龄 pipeline 入新文件。总体而言,pipeline 如下所示:

从文件中读取

在本文中,咱们应用来自数据源的文件,咱们下载了一个 100 条记录文件并将其命名为“Employees.csv”,通过“ReadFromText”将从磁盘读取文件。上面的代码展现了雷同的内容:

输入

写入文件

“WriteToText”转换用于将数据写入文件,上面的程序从文件中读取数据并写入“out.csv”文件。

输入

pipeline

pipeline 代码蕴含两个函数,一个用于过滤员工年龄大于 40 的行,第二个用于仅映射员工的名字、姓氏和年龄。

在这两个函数中,咱们都基于索引拜访记录。残缺的流程代码如下:

生成文件的内容

概括

在文章中,咱们探讨了如何从文件中读取、写入数据,咱们还解释了执行过滤、映射数据并将其写入新文件的残缺 pipeline 代码。

正文完
 0