关于大数据:大数据工程师入门系列-常用数据采集工具FlumeLogstash-和-Fluentd

作者：幻好
起源：恒生 LIGHT 云社区

大数据的价值在于把数据变成某一行为的论断，这一重要的过程成为数据分析。提到数据分析，大部分人首先想到的都是 Hadoop、流计算、机器学习等数据加工的形式。具体从整个过程来看，数据分析其实能够大抵分为四个步骤：数据采集，数据存储，数据计算，数据可视化。

其中大数据的数据采集这一过程是最根底，也是最重要的局部。针对具体的场景应用适合的采集工具，能够大大提高效率和可靠性，并升高资源老本。罕用的开源工具 Flume、Logstash 和 Fluentd 等都是能够作为日志采集的工具，本文将对罕用数据采集工具应用场景优缺点等进行介绍剖析。

Flume 是由 cloudera 软件公司产出的可分布式日志收集零碎，后与 2009 年被捐献了 apache 软件基金会，为 Hadoop 相干组件之一。尤其近几年随着 flume 的一直被欠缺以及降级版本的逐个推出，特地是 flume-ng; 同时 flume 外部的各种组件不断丰富，用户在开发的过程中应用的便利性失去很大的改善，现已成为 apache top 我的项目之一。

Flume 是一种具备分布式、可靠性和可用性的服务，能够无效地收集、聚合和迁徙大量日志数据，是一个简略和灵便基于流数据流架构。它具备较好的健壮性和容错性，具备可调的可靠性机制和许多故障转移和复原机制。通过一个简略的可扩大数据模型，容许在线剖析应用程序。

可靠性

当节点呈现故障时，日志可能被传送到其余节点上而不会失落。Flume 提供了三种级别的可靠性保障，从强到弱顺次别离为：end-to-end（收到数据 agent 首先将 event 写到磁盘上，当数据传送胜利后，再删除；如果数据发送失败，能够从新发送。），Store on failure（这也是 scribe 采纳的策略，当数据接管方 crash 时，将数据写到本地，待复原后，持续发送），Best effort（数据发送到接管方后，不会进行确认）。

可扩展性

Flume 采纳了三层架构，别离问agent，collector 和storage，每一层均能够程度扩大。其中，所有agent 和collector 由master 对立治理，这使得零碎容易监控和保护，且master 容许有多个（应用 ZooKeeper 进行治理和负载平衡），这就防止了单点故障问题。

可管理性

所有agent 和colletor 由master 对立治理，这使得零碎便于保护。用户能够在master 上查看各个数据源或者数据流执行状况，且能够对各个数据源配置和动静加载。Flume 提供了 web 和 shell script command 两种模式对数据流进行治理。

性能可扩展性

用户能够依据须要增加本人的 agent，colletor 或者 storage。此外，Flume 自带了很多组件，包含各种 agent（file，syslog 等），collector 和 storage（file，HDFS 等）。

Flume 采纳了分层架构，由三层组成，别离为 agent，collector 和 storage。其中，agent 和 collector 均由两局部组成：source 和 sink，source 是数据起源，sink 是数据去向。

agent

零碎中最外围的角色是agent，Flume 采集零碎就是由一个个agent 所连接起来造成。
每一个agent 相当于一个数据传递员，外部有三个组件：
- source: 采集源，用于跟数据源对接，以获取数据
- sink：传送数据的目的地，用于往下一级agent 或者最终存储系统传递数据
- channel：agent 外部的数据传输通道，用于从source 传输数据到sink

agent 的作用是将数据源的数据发送给collector，Flume 自带了很多间接可用的数据源（source），如：
- text(“filename”)：将文件 filename 作为数据源，按行发送
- tail(“filename”)：探测 filename 新产生的数据，按行发送进来
- fsyslogTcp(5140)：监听 TCP 的 5140 端口，并且接管到的数据发送进来
Flume 自带了很多sink，如：
- console[("format")]：间接将将数据显示在桌面上
- text(“txtfile”)：将数据写到文件 txtfile 中
- dfs(“dfsfile”)：将数据写到 HDFS 上的 dfsfile 文件中
- syslogTcp(“host”,port)：将数据通过 TCP 传递给 host 节点

collector
- collector 的作用是将多个agent 的数据汇总后，加载到storage 中。它的source 和sink 与agent 相似。
- 实例：
  - agent 监听 TCP 的 5140 端口接管到的数据，并发送给collector，由collector 将数据加载到 HDFS 上。

在大数据时代，平台会通过收集用户的在平台上操作，剖析用户的具体行为，而后推送个性化的信息。比方咱们在电商平台上搜寻一些商品后，首页会给用户推送相应品类的商品。而 Flume 在其中充当了一个数据采集的角色，通过疾速采集用户的信息，发送给数据计算平台剖析后，实现个性化推送。

Logstash 是一个具备实时流水线性能的开源数据收集引擎。Logstash 能够动静地对立来自不同起源的数据，并将数据规范化到咱们抉择的目的地。为各种高级上游剖析和可视化用例清理和遍及所有数据。任何类型的事件都能够通过大量的输出、过滤和输入插件来丰盛和转换，许多本机编解码器进一步简化了输出过程。

Logstash 是基于 pipeline 形式进行数据处理的，pipeline 能够了解为数据处理流程的形象。在一条 pipeline 数据通过上游数据源汇总到 音讯队列 中，而后由多个工作线程进行数据的转换解决，最初输入到上游组件。一个 Logstash 中能够蕴含多个 pipeline。

为 Elasticsearch 和更多的摄取工作的主力
- 具备弱小的 Elasticsearch 和 Kibana 协同性能的程度可扩大的数据处理管道
可拔插管道架构
- 混合、匹配和协调不同的输出、过滤器和输入，在管道中谐和地发挥作用
良好的社区生态系统
- 开发社区超过 200 个插件可用，能够扩大创立自定义的插件

处理过程

如上图，Logstash 的数据处理过程次要包含：Inputs, Filters, Outputs 三局部，另外在 Inputs 和 Outputs 中能够应用 Codecs 对数据格式进行解决。这四个局部均以插件模式存在，用户通过定义 pipeline 配置文件，设置须要应用的 input，filter，output, codec 插件，以实现特定的数据采集，数据处理，数据输入等性能

Inputs：用于从数据源获取数据，常见的插件如 file, syslog, redis, beats 等[具体参考]
Filters：用于解决数据如格局转换，数据派生等，常见的插件如 grok, mutate, drop, clone, geoip 等[具体参考]
Outputs：用于数据输入，常见的插件如 elastcisearch，file, graphite, statsd 等[具体参考]
Codecs：Codecs 不是一个独自的流程，而是在输出和输入等插件中用于数据转换的模块，用于对数据进行编码解决，常见的插件如 json，multiline[具体参考]

2. 执行模型：

每个 Input 启动一个线程，从对应数据源获取数据
Input 会将数据写入一个队列：默认为内存中的有界队列（意外进行会导致数据失落）。为了避免数失落 Logstash 提供了两个个性：Persistent Queues：通过磁盘上的 queue 来避免数据失落 Dead Letter Queues：保留无奈解决的 event（仅反对 Elasticsearch 作为输入源）
Logstash 会有多个 pipeline worker，每一个 pipeline worker 会从队列中取一批数据，而后执行 filter 和 output（worker 数目及每次解决的数据量均由配置确定）

Elasticsearch是以后支流的分布式大数据存储和搜索引擎，能够为用户提供弱小的全文本检索能力，广泛应用于日志检索，全站搜寻等畛域。Logstash作为 Elasicsearch 罕用的实时数据采集引擎，能够采集来自不同数据源的数据，并对数据进行解决后输入到多种输入源，是 Elastic Stack 的重要组成部分。

Fluentd 是一个开源的数据收集框架。Fluentd 应用 C /Ruby 开发，应用 JSON 文件来对立日志数据。它的可插拔架构，反对各种不同品种和格局的数据源和数据输入。最初它也同时提供了高牢靠和很好的扩展性。Treasure Data, Inc 对该产品提供反对和保护。

FLuentd 的扩展性十分好，客户能够本人定制（Ruby）Input/Buffer/Output。Fluentd 从各方面看都很像 Flume，区别是应用 Ruby 开发，Footprint 会小一些，然而也带来了跨平台的问题，并不能反对 Windows 平台。另外采纳 JSON 对立数据/日志格局是它的另一个特点。绝对于 Flumed，配置也绝对简略一些。

Fluentd 的长处：

装置不便
占用空间小
半结构化数据日志记录
灵便的插件机制
牢靠的缓冲
日志转发

Fluentd 的架构设计和 Flume 一模一样，Fluentd 的 Input/Buffer/Output 十分相似于 Flume 的 Source/Channel/Sink。

Input
- Input 负责接收数据或者被动抓取数据。反对 syslog，http，file tail 等。
Buffer
- Buffer 负责数据获取的性能和可靠性，也有文件或内存等不同类型的 Buffer 能够配置。
Output
- Output 负责输入数据到目的地例如文件，AWS S3 或者其它的 Fluentd。

框架间的优劣比照：

维度	Flume	Logstash	Fluentd
内存占用	大	大	小
框架分量	重量级	重量级	轻量级
语言	Java	JRuby	C 和 Ruby
性能	高性能	高性能	高性能
反对平台	全平台	全平台	不反对 windows
插件反对	多	较多	多
扩展性	个别	社区活跃度高	个别
集群	分布式	单节点	单节点

Flume 更重视于数据的传输，对于数据的预处理不如 Logstash。
在传输上 Flume 比 Logstash 更牢靠一些，因为数据会长久化在 channel 中。
数据只有存储在 sink 端中，才会从 channel 中删除，这个过程是通过事物来管制的，保障了数据的可靠性。
Logstash 是 ELK 组件中的一个，个别都是同 ELK 其它组件一起应用，更重视于数据的预处理，Logstash 有比 Flume 丰盛的插件可选，所以在扩大性能上比 Flume 全面。
Logstash 外部没有 persist queue，所以在异常情况下会呈现数据失落的问题
Fluentd 的宣传里有高性能这一项，可能绝对于 logstash 确实好很多，但还是不太够。在理论应用中，解析 -> 转换 -> 入库整个过程性能并不现实。
Fluentd 的性能既因为 Ruby 耗费过多计算和内存资源，又因为 Ruby 难以受害与多核。对数据吞吐量大的业务来说它是很低廉的。
Fluentd 的插件品质也不够好，第三方插件大多是使用者依据本人业务须要编写，只为实现特定需要，没有足够的泛化，也没有足够的测试和性能评估。

关于大数据:大数据工程师入门系列-常用数据采集工具FlumeLogstash-和-Fluentd

Flume

基本概念

框架个性

技术架构

利用场景

Logstash

基本概念

框架个性

工作原理

利用场景

Fluentd

基本概念

框架个性

技术架构

总结