关于大数据:大数据工程师入门系列-常用数据采集工具FlumeLogstash-和-Fluentd

作者：幻好
起源：恒生LIGHT云社区

大数据的价值在于把数据变成某一行为的论断，这一重要的过程成为数据分析。提到数据分析，大部分人首先想到的都是 Hadoop、流计算、机器学习等数据加工的形式。具体从整个过程来看，数据分析其实能够大抵分为四个步骤：数据采集，数据存储，数据计算，数据可视化。

其中大数据的数据采集这一过程是最根底，也是最重要的局部。针对具体的场景应用适合的采集工具，能够大大提高效率和可靠性，并升高资源老本。罕用的开源工具 Flume、Logstash 和 Fluentd 等都是能够作为日志采集的工具，本文将对罕用数据采集工具应用场景优缺点等进行介绍剖析。

Flume

Flume 是由 cloudera 软件公司产出的可分布式日志收集零碎，后与2009年被捐献了apache软件基金会，为 Hadoop 相干组件之一。尤其近几年随着 flume 的一直被欠缺以及降级版本的逐个推出，特地是flume-ng;同时flume外部的各种组件不断丰富，用户在开发的过程中应用的便利性失去很大的改善，现已成为apache top我的项目之一。

基本概念

Flume 是一种具备分布式、可靠性和可用性的服务，能够无效地收集、聚合和迁徙大量日志数据，是一个简略和灵便基于流数据流架构。它具备较好的健壮性和容错性，具备可调的可靠性机制和许多故障转移和复原机制。通过一个简略的可扩大数据模型，容许在线剖析应用程序。

框架个性

可靠性

当节点呈现故障时，日志可能被传送到其余节点上而不会失落。Flume 提供了三种级别的可靠性保障，从强到弱顺次别离为：end-to-end（收到数据agent首先将 event 写到磁盘上，当数据传送胜利后，再删除；如果数据发送失败，能够从新发送。），Store on failure（这也是scribe采纳的策略，当数据接管方crash时，将数据写到本地，待复原后，持续发送），Best effort（数据发送到接管方后，不会进行确认）。

可扩展性

Flume 采纳了三层架构，别离问agent，collector 和storage ，每一层均能够程度扩大。其中，所有agent 和collector 由master 对立治理，这使得零碎容易监控和保护，且master 容许有多个（应用 ZooKeeper 进行治理和负载平衡），这就防止了单点故障问题。

可管理性

所有agent 和colletor 由master 对立治理，这使得零碎便于保护。用户能够在master 上查看各个数据源或者数据流执行状况，且能够对各个数据源配置和动静加载。Flume提供了web 和shell script command两种模式对数据流进行治理。

性能可扩展性

用户能够依据须要增加本人的 agent ，colletor 或者 storage 。此外，Flume 自带了很多组件，包含各种 agent（ file， syslog 等），collector 和 storage（file，HDFS 等）。

技术架构

Flume采纳了分层架构，由三层组成，别离为 agent ，collector 和 storage 。其中，agent 和 collector 均由两局部组成：source 和 sink ，source 是数据起源，sink 是数据去向。

agent

零碎中最外围的角色是agent ，Flume 采集零碎就是由一个个agent 所连接起来造成。
每一个agent 相当于一个数据传递员，外部有三个组件：
- source: 采集源，用于跟数据源对接，以获取数据
- sink：传送数据的目的地，用于往下一级agent 或者最终存储系统传递数据
- channel：agent 外部的数据传输通道，用于从source 传输数据到sink

agent 的作用是将数据源的数据发送给collector ，Flume 自带了很多间接可用的数据源（source），如：
- text(“filename”)：将文件 filename 作为数据源，按行发送
- tail(“filename”)：探测 filename 新产生的数据，按行发送进来
- fsyslogTcp(5140)：监听 TCP 的5140端口，并且接管到的数据发送进来
Flume 自带了很多sink ，如：
- console[("format")]：间接将将数据显示在桌面上
- text(“txtfile”)：将数据写到文件 txtfile 中
- dfs(“dfsfile”)：将数据写到 HDFS 上的 dfsfile 文件中
- syslogTcp(“host”,port)：将数据通过 TCP 传递给 host 节点

collector
- collector 的作用是将多个agent 的数据汇总后，加载到storage 中。它的source 和sink 与agent 相似。
- 实例：
  - agent 监听 TCP 的5140端口接管到的数据，并发送给collector ，由collector 将数据加载到 HDFS 上。

利用场景

在大数据时代，平台会通过收集用户的在平台上操作，剖析用户的具体行为，而后推送个性化的信息。比方咱们在电商平台上搜寻一些商品后，首页会给用户推送相应品类的商品。而 Flume 在其中充当了一个数据采集的角色，通过疾速采集用户的信息，发送给数据计算平台剖析后，实现个性化推送。

Logstash

Logstash 是一个具备实时流水线性能的开源数据收集引擎。Logstash 能够动静地对立来自不同起源的数据，并将数据规范化到咱们抉择的目的地。为各种高级上游剖析和可视化用例清理和遍及所有数据。任何类型的事件都能够通过大量的输出、过滤和输入插件来丰盛和转换，许多本机编解码器进一步简化了输出过程。

基本概念

Logstash 是基于 pipeline 形式进行数据处理的，pipeline 能够了解为数据处理流程的形象。在一条 pipeline 数据通过上游数据源汇总到音讯队列中，而后由多个工作线程进行数据的转换解决，最初输入到上游组件。一个 Logstash 中能够蕴含多个 pipeline。

框架个性

为 Elasticsearch 和更多的摄取工作的主力
- 具备弱小的 Elasticsearch 和 Kibana 协同性能的程度可扩大的数据处理管道
可拔插管道架构
- 混合、匹配和协调不同的输出、过滤器和输入，在管道中谐和地发挥作用
良好的社区生态系统
- 开发社区超过200个插件可用，能够扩大创立自定义的插件

工作原理

处理过程

如上图，Logstash的数据处理过程次要包含：Inputs, Filters, Outputs 三局部，另外在Inputs和Outputs中能够应用Codecs对数据格式进行解决。这四个局部均以插件模式存在，用户通过定义pipeline配置文件，设置须要应用的input，filter，output, codec插件，以实现特定的数据采集，数据处理，数据输入等性能

Inputs：用于从数据源获取数据，常见的插件如 file, syslog, redis, beats 等[具体参考]
Filters：用于解决数据如格局转换，数据派生等，常见的插件如 grok, mutate, drop, clone, geoip 等[具体参考]
Outputs：用于数据输入，常见的插件如 elastcisearch，file, graphite, statsd 等[具体参考]
Codecs：Codecs 不是一个独自的流程，而是在输出和输入等插件中用于数据转换的模块，用于对数据进行编码解决，常见的插件如json，multiline[具体参考]

2.执行模型：

每个Input启动一个线程，从对应数据源获取数据
Input会将数据写入一个队列：默认为内存中的有界队列（意外进行会导致数据失落）。为了避免数失落Logstash提供了两个个性：Persistent Queues：通过磁盘上的queue来避免数据失落Dead Letter Queues：保留无奈解决的event（仅反对Elasticsearch作为输入源）
Logstash会有多个 pipeline worker ，每一个 pipeline worker 会从队列中取一批数据，而后执行 filter 和 output（worker数目及每次解决的数据量均由配置确定）

利用场景

Elasticsearch是以后支流的分布式大数据存储和搜索引擎，能够为用户提供弱小的全文本检索能力，广泛应用于日志检索，全站搜寻等畛域。Logstash作为Elasicsearch罕用的实时数据采集引擎，能够采集来自不同数据源的数据，并对数据进行解决后输入到多种输入源，是Elastic Stack 的重要组成部分。

Fluentd

基本概念

Fluentd 是一个开源的数据收集框架。Fluentd 应用C/Ruby开发，应用 JSON 文件来对立日志数据。它的可插拔架构，反对各种不同品种和格局的数据源和数据输入。最初它也同时提供了高牢靠和很好的扩展性。Treasure Data, Inc 对该产品提供反对和保护。

框架个性

FLuentd 的扩展性十分好，客户能够本人定制（Ruby）Input／Buffer／Output。 Fluentd从各方面看都很像Flume，区别是应用Ruby开发，Footprint 会小一些，然而也带来了跨平台的问题，并不能反对 Windows 平台。另外采纳 JSON 对立数据／日志格局是它的另一个特点。绝对于 Flumed ，配置也绝对简略一些。

Fluentd 的长处：

装置不便
占用空间小
半结构化数据日志记录
灵便的插件机制
牢靠的缓冲
日志转发

技术架构

Fluentd 的架构设计和Flume一模一样，Fluentd 的 Input／Buffer／Output 十分相似于 Flume 的 Source／Channel／Sink 。

Input
- Input 负责接收数据或者被动抓取数据。反对 syslog，http，file tail 等。
Buffer
- Buffer 负责数据获取的性能和可靠性，也有文件或内存等不同类型的 Buffer 能够配置。
Output
- Output 负责输入数据到目的地例如文件，AWS S3 或者其它的 Fluentd 。

总结

框架间的优劣比照：

维度	Flume	Logstash	Fluentd
内存占用	大	大	小
框架分量	重量级	重量级	轻量级
语言	Java	JRuby	C和Ruby
性能	高性能	高性能	高性能
反对平台	全平台	全平台	不反对windows
插件反对	多	较多	多
扩展性	个别	社区活跃度高	个别
集群	分布式	单节点	单节点

Flume 更重视于数据的传输，对于数据的预处理不如 Logstash 。
在传输上 Flume 比 Logstash 更牢靠一些，因为数据会长久化在 channel 中。
数据只有存储在sink 端中，才会从 channel 中删除，这个过程是通过事物来管制的，保障了数据的可靠性。
Logstash 是ELK组件中的一个，个别都是同 ELK 其它组件一起应用，更重视于数据的预处理，Logstash 有比 Flume 丰盛的插件可选，所以在扩大性能上比 Flume 全面。
Logstash 外部没有 persist queue，所以在异常情况下会呈现数据失落的问题
Fluentd 的宣传里有高性能这一项，可能绝对于 logstash 确实好很多，但还是不太够。在理论应用中，解析 -> 转换 -> 入库整个过程性能并不现实。
Fluentd 的性能既因为 Ruby 耗费过多计算和内存资源，又因为 Ruby 难以受害与多核。对数据吞吐量大的业务来说它是很低廉的。
Fluentd 的插件品质也不够好，第三方插件大多是使用者依据本人业务须要编写，只为实现特定需要，没有足够的泛化，也没有足够的测试和性能评估。

关于大数据:大数据工程师入门系列-常用数据采集工具FlumeLogstash-和-Fluentd

Flume

基本概念

框架个性

技术架构

利用场景

Logstash

基本概念

框架个性

工作原理

利用场景

Fluentd

基本概念

框架个性

技术架构

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:大数据工程师入门系列-常用数据采集工具FlumeLogstash-和-Fluentd

Flume

基本概念

框架个性

技术架构

利用场景

Logstash

基本概念

框架个性

工作原理

利用场景

Fluentd

基本概念

框架个性

技术架构

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复