乐趣区

关于大数据:大数据工程师入门系列-常用数据采集工具FlumeLogstash-和-Fluentd

作者:幻好
起源:恒生 LIGHT 云社区

大数据的价值在于把数据变成某一行为的论断,这一重要的过程成为数据分析。提到数据分析,大部分人首先想到的都是 Hadoop、流计算、机器学习等数据加工的形式。具体从整个过程来看,数据分析其实能够大抵分为四个步骤:数据采集,数据存储,数据计算,数据可视化。

其中大数据的数据采集这一过程是最根底,也是最重要的局部。针对具体的场景应用适合的采集工具,能够大大提高效率和可靠性,并升高资源老本。罕用的开源工具 Flume、Logstash 和 Fluentd 等都是能够作为日志采集的工具,本文将对罕用数据采集工具应用场景优缺点等进行介绍剖析。

Flume

Flume 是由 cloudera 软件公司产出的可分布式日志收集零碎,后与 2009 年被捐献了 apache 软件基金会,为 Hadoop 相干组件之一。尤其近几年随着 flume 的一直被欠缺以及降级版本的逐个推出,特地是 flume-ng; 同时 flume 外部的各种组件不断丰富,用户在开发的过程中应用的便利性失去很大的改善,现已成为 apache top 我的项目之一。

基本概念

Flume 是一种具备分布式、可靠性和可用性的服务,能够无效地收集、聚合和迁徙大量日志数据,是一个简略和灵便基于流数据流架构。它具备较好的健壮性和容错性,具备可调的可靠性机制和许多故障转移和复原机制。通过一个简略的可扩大数据模型,容许在线剖析应用程序。

框架个性

  1. 可靠性
  • 当节点呈现故障时,日志可能被传送到其余节点上而不会失落。Flume 提供了三种级别的可靠性保障,从强到弱顺次别离为:end-to-end(收到数据 agent 首先将 event 写到磁盘上,当数据传送胜利后,再删除;如果数据发送失败,能够从新发送。),Store on failure(这也是 scribe 采纳的策略,当数据接管方 crash 时,将数据写到本地,待复原后,持续发送),Best effort(数据发送到接管方后,不会进行确认)。
  1. 可扩展性
  • Flume 采纳了三层架构,别离问agentcollectorstorage,每一层均能够程度扩大。其中,所有agentcollectormaster 对立治理,这使得零碎容易监控和保护,且master 容许有多个(应用 ZooKeeper 进行治理和负载平衡),这就防止了单点故障问题。
  1. 可管理性
  • 所有agentcolletormaster 对立治理,这使得零碎便于保护。用户能够在master 上查看各个数据源或者数据流执行状况,且能够对各个数据源配置和动静加载。Flume 提供了 web 和 shell script command 两种模式对数据流进行治理。
  1. 性能可扩展性
  • 用户能够依据须要增加本人的 agent,colletor 或者 storage。此外,Flume 自带了很多组件,包含各种 agent(file,syslog 等),collector 和 storage(file,HDFS 等)。

技术架构

Flume 采纳了分层架构,由三层组成,别离为 agentcollectorstorage。其中,agentcollector 均由两局部组成:sourcesinksource 是数据起源,sink 是数据去向。

  1. agent
  • 零碎中最外围的角色是agent,Flume 采集零碎就是由一个个agent 所连接起来造成。
  • 每一个agent 相当于一个数据传递员,外部有三个组件:

    • source: 采集源,用于跟数据源对接,以获取数据
    • sink:传送数据的目的地,用于往下一级agent 或者最终存储系统传递数据
    • channelagent 外部的数据传输通道,用于从source 传输数据到sink

  • agent 的作用是将数据源的数据发送给collector,Flume 自带了很多间接可用的数据源(source),如:

    • text(“filename”):将文件 filename 作为数据源,按行发送
    • tail(“filename”):探测 filename 新产生的数据,按行发送进来
    • fsyslogTcp(5140):监听 TCP 的 5140 端口,并且接管到的数据发送进来
  • Flume 自带了很多sink,如:

    • console[("format")]:间接将将数据显示在桌面上
    • text(“txtfile”):将数据写到文件 txtfile 中
    • dfs(“dfsfile”):将数据写到 HDFS 上的 dfsfile 文件中
    • syslogTcp(“host”,port):将数据通过 TCP 传递给 host 节点
  1. collector

    • collector 的作用是将多个agent 的数据汇总后,加载到storage 中。它的sourcesinkagent 相似。
    • 实例:

      • agent 监听 TCP 的 5140 端口接管到的数据,并发送给collector,由collector 将数据加载到 HDFS 上。

利用场景

在大数据时代,平台会通过收集用户的在平台上操作,剖析用户的具体行为,而后推送个性化的信息。比方咱们在电商平台上搜寻一些商品后,首页会给用户推送相应品类的商品。而 Flume 在其中充当了一个数据采集的角色,通过疾速采集用户的信息,发送给数据计算平台剖析后,实现个性化推送。

Logstash

Logstash 是一个具备实时流水线性能的开源数据收集引擎。Logstash 能够动静地对立来自不同起源的数据,并将数据规范化到咱们抉择的目的地。为各种高级上游剖析和可视化用例清理和遍及所有数据。任何类型的事件都能够通过大量的输出、过滤和输入插件来丰盛和转换,许多本机编解码器进一步简化了输出过程。

基本概念

Logstash 是基于 pipeline 形式进行数据处理的,pipeline 能够了解为数据处理流程的形象。在一条 pipeline 数据通过上游数据源汇总到 音讯队列 中,而后由多个工作线程进行数据的转换解决,最初输入到上游组件。一个 Logstash 中能够蕴含多个 pipeline。

框架个性

  • 为 Elasticsearch 和更多的摄取工作的主力

    • 具备弱小的 Elasticsearch 和 Kibana 协同性能的程度可扩大的数据处理管道
  • 可拔插管道架构

    • 混合、匹配和协调不同的输出、过滤器和输入,在管道中谐和地发挥作用
  • 良好的社区生态系统

    • 开发社区超过 200 个插件可用,能够扩大创立自定义的插件

工作原理

  1. 处理过程

如上图,Logstash 的数据处理过程次要包含:Inputs, Filters, Outputs 三局部,另外在 Inputs 和 Outputs 中能够应用 Codecs 对数据格式进行解决。这四个局部均以插件模式存在,用户通过定义 pipeline 配置文件,设置须要应用的 input,filter,output, codec 插件,以实现特定的数据采集,数据处理,数据输入等性能

  • Inputs:用于从数据源获取数据,常见的插件如 file, syslog, redis, beats 等[具体参考]
  • Filters:用于解决数据如格局转换,数据派生等,常见的插件如 grok, mutate, drop, clone, geoip 等[具体参考]
  • Outputs:用于数据输入,常见的插件如 elastcisearch,file, graphite, statsd 等[具体参考]
  • Codecs:Codecs 不是一个独自的流程,而是在输出和输入等插件中用于数据转换的模块,用于对数据进行编码解决,常见的插件如 json,multiline[具体参考]

2. 执行模型:

  • 每个 Input 启动一个线程,从对应数据源获取数据
  • Input 会将数据写入一个队列:默认为内存中的有界队列(意外进行会导致数据失落)。为了避免数失落 Logstash 提供了两个个性:Persistent Queues:通过磁盘上的 queue 来避免数据失落 Dead Letter Queues:保留无奈解决的 event(仅反对 Elasticsearch 作为输入源)
  • Logstash 会有多个 pipeline worker,每一个 pipeline worker 会从队列中取一批数据,而后执行 filter 和 output(worker 数目及每次解决的数据量均由配置确定)

利用场景

Elasticsearch是以后支流的分布式大数据存储和搜索引擎,能够为用户提供弱小的全文本检索能力,广泛应用于日志检索,全站搜寻等畛域。Logstash作为 Elasicsearch 罕用的实时数据采集引擎,能够采集来自不同数据源的数据,并对数据进行解决后输入到多种输入源,是 Elastic Stack 的重要组成部分。

Fluentd

基本概念

Fluentd 是一个开源的数据收集框架。Fluentd 应用 C /Ruby 开发,应用 JSON 文件来对立日志数据。它的可插拔架构,反对各种不同品种和格局的数据源和数据输入。最初它也同时提供了高牢靠和很好的扩展性。Treasure Data, Inc 对该产品提供反对和保护。

框架个性

FLuentd 的扩展性十分好,客户能够本人定制(Ruby)Input/Buffer/Output。Fluentd 从各方面看都很像 Flume,区别是应用 Ruby 开发,Footprint 会小一些,然而也带来了跨平台的问题,并不能反对 Windows 平台。另外采纳 JSON 对立数据/日志格局是它的另一个特点。绝对于 Flumed,配置也绝对简略一些。

Fluentd 的长处:

  • 装置不便
  • 占用空间小
  • 半结构化数据日志记录
  • 灵便的插件机制
  • 牢靠的缓冲
  • 日志转发

技术架构

Fluentd 的架构设计和 Flume 一模一样,Fluentd 的 Input/Buffer/Output 十分相似于 Flume 的 Source/Channel/Sink。

  • Input

    • Input 负责接收数据或者被动抓取数据。反对 syslog,http,file tail 等。
  • Buffer

    • Buffer 负责数据获取的性能和可靠性,也有文件或内存等不同类型的 Buffer 能够配置。
  • Output

    • Output 负责输入数据到目的地例如文件,AWS S3 或者其它的 Fluentd。

总结

框架间的优劣比照:

维度 Flume Logstash Fluentd
内存占用
框架分量 重量级 重量级 轻量级
语言 Java JRuby C 和 Ruby
性能 高性能 高性能 高性能
反对平台 全平台 全平台 不反对 windows
插件反对 较多
扩展性 个别 社区活跃度高 个别
集群 分布式 单节点 单节点
  • Flume 更重视于数据的传输,对于数据的预处理不如 Logstash。
  • 在传输上 Flume 比 Logstash 更牢靠一些,因为数据会长久化在 channel 中。
  • 数据只有存储在 sink 端中,才会从 channel 中删除,这个过程是通过事物来管制的,保障了数据的可靠性。
  • Logstash 是 ELK 组件中的一个,个别都是同 ELK 其它组件一起应用,更重视于数据的预处理,Logstash 有比 Flume 丰盛的插件可选,所以在扩大性能上比 Flume 全面。
  • Logstash 外部没有 persist queue,所以在异常情况下会呈现数据失落的问题
  • Fluentd 的宣传里有高性能这一项,可能绝对于 logstash 确实好很多,但还是不太够。在理论应用中,解析 -> 转换 -> 入库 整个过程性能并不现实。
  • Fluentd 的性能既因为 Ruby 耗费过多计算和内存资源,又因为 Ruby 难以受害与多核。对数据吞吐量大的业务来说它是很低廉的。
  • Fluentd 的插件品质也不够好,第三方插件大多是使用者依据本人业务须要编写,只为实现特定需要,没有足够的泛化,也没有足够的测试和性能评估。
退出移动版