关于java:日志收集神器-Logstash闪亮登场~

39次阅读

共计 8981 个字符,预计需要花费 23 分钟才能阅读完成。

作者:废物大师兄 \
起源:www.cnblogs.com/cjsblog/p/9445792.html

Logstash 介绍


Logstash 是一个开源数据收集引擎,具备实时管道性能。

Logstash 能够动静地将来自不同数据源的数据对立起来,并将数据标准化到你所抉择的目的地。

集中、转换和存储你的数据


Logstash 是一个开源的服务器端数据处理管道,能够同时从多个数据源获取数据,并对其进行转换,而后将其发送到你最喜爱的“存储”。(当然,咱们最喜爱的是 Elasticsearch)

输出:采集各种款式、大小和起源的数据

数据往往以各种各样的模式,或扩散或集中地存在于很多零碎中。Logstash 反对各种输出抉择,能够在同一时间从泛滥罕用起源捕获事件。可能以间断的流式传输方式,轻松地从您的日志、指标、Web 利用、数据存储以及各种 AWS 服务采集数据。

过滤器:实时解析和转换数据

数据从源传输到存储库的过程中,Logstash 过滤器可能解析各个事件,辨认已命名的字段以构建构造,并将它们转换成通用格局,以便更轻松、更疾速地剖析和实现商业价值。

Logstash 可能动静地转换和解析数据,不受格局或复杂度的影响:

  • 利用 Grok 从非结构化数据中派生出构造
  • 从 IP 地址破译出地理坐标
  • 将 PII 数据匿名化,齐全排除敏感字段
  • 整体解决不受数据源、格局或架构的影响

输入:抉择你的存储,导出你的数据

只管 Elasticsearch 是咱们的首选输入方向,可能为咱们的搜寻和剖析带来有限可能,但它并非惟一抉择。

Logstash 提供泛滥输入抉择,您能够将数据发送到您要指定的中央,并且可能灵便地解锁泛滥上游用例。

装置 Logstash


首先,让咱们通过最根本的 Logstash 管道来测试一下方才装置的 Logstash

Logstash 管道有两个必须的元素,输出和输入,以及一个可选元素过滤器。输出插件从数据源那里生产数据,过滤器插件依据你的冀望批改数据,输入插件将数据写入目的地。

接下来,容许 Logstash 最根本的管道,例如:

bin/logstash -e 'input {stdin {} } output {stdout {} }'

(画外音:选项 -e 的意思是容许你从命令行指定配置)

启动当前,上面咱们在命令行下输出 ”hello world”

用 Logstash 解析日志


在上一大节中,你曾经创立了一个根本的 Logstash 管道来测试你的 Logstash 设置。在事实世界中,一个 Logstash 治理会略微简单一些:它通常有一个或多个input, filteroutput 插件。

在这一大节中,你将创立一个 Logstash 管道,并且应用 Filebeat 将 Apache Web 日志作为 input,解析这些日志,而后将解析的数据写到一个 Elasticsearch 集群中。你将在配置文件中定义管道,而不是在命令行中定义管道配置。

配置 Filebeat 来发送日志行到 Logstash

在你创立 Logstash 管道之前,你须要先配置 Filebeat 来发送日志行到 Logstash。Filebeat 客户端是一个轻量级的、资源敌对的工具,它从服务器上的文件中收集日志,并将这些日志转发到你的 Logstash 实例以进行解决。Filebeat 设计就是为了可靠性和低提早。Filebeat 在主机上占用的资源很少,而且 Beats input 插件将对 Logstash 实例的资源需要降到最低。

(画外音:留神,在一个典型的用例中,Filebeat 和 Logstash 实例是离开的,它们别离运行在不同的机器上。在本教程中,Logstash 和 Filebeat 在同一台机器上运行。)

第 1 步:配置 filebeat.yml

filebeat.inputs:
- type: log
  paths:
    - /usr/local/programs/logstash/logstash-tutorial.log

output.logstash:
  hosts: ["localhost:5044"]

第 2 步:在 logstash 装置目录下新建一个文件 first-pipeline.conf

(画外音:方才说过了通常 Logstash 治理有三局部(输出、过滤器、输入),这里 input 上面 beats {port => “5044”}的意思是用 Beats 输出插件,而 stdout {codec => rubydebug}的意思是输入到控制台)

第 3 步:查看配置并启动 Logstash

bin/logstash -f first-pipeline.conf --config.test_and_exit

(画外音:–config.test_and_exit 选项的意思是解析配置文件并报告任何谬误)

bin/logstash -f first-pipeline.conf --config.reload.automatic

(画外音:–config.reload.automatic 选项的意思是启用主动配置加载,以至于每次你批改完配置文件当前无需进行而后重启 Logstash)

第 4 步:启动 filebeat

./filebeat -e -c filebeat.yml -d "publish"

如果一切正常,你将会在 Logstash 管制台下看到相似这样的输入:

用 Grok 过滤器插件解析日志

当初你有了一个工作管道,能够从 Filebeat 读取日志行。然而你可能曾经留神到日志音讯的格局并不现实。你想要解析日志音讯,以便从日志中创立特定的、命名的字段。为此,您将应用 grok filter 插件。

grok 过滤器插件是 Logstash 中默认可用的几个插件之一。

grok 过滤器插件容许你将非结构化日志数据解析为结构化和可查问的数据。

因为 grok 过滤器插件在传入的日志数据中查找模式

为了解析数据,你能够用 %{COMBINEDAPACHELOG} grok pattern,这种模式(或者说格局)的 schema 如下:

接下来,编辑 first-pipeline.conf 文件,退出 grok filter,在你批改完当前这个文件看起来应该是这样的:

在你保留完当前,因为你曾经启动了主动加载配置,所以你不须要重启 Logstash 来利用你的批改。然而,你的确须要强制 Filebeat 从头读取日志文件。为了这样做,你须要在终端先按下 Ctrl+ C 停掉 Filebeat,而后删除 Filebeat 注册文件。例如:

rm data/registr

而后重启 Filebeat

./filebeat -e -c filebeat.yml -d "publish"

此时,再看 Logstash 控制台,输入可能是这样的:

用 Geoip 过滤器插件加强你的数据

而后,同样地,重启 Filebeat

Ctrl+C

rm data/registry

./filebeat -e -c filebeat.yml -d "publish"

再次查看 Logstash 控制台,咱们会发现多了地理位置信息:

索引你的数据到 Elasticsearch

在之前的配置中,咱们配置了 Logstash 输入到控制台,当初咱们让它输入到 Elasticsearch 集群。

编辑 first-pipeline.conf 文件,替换 output 区域为:

output {
    elasticsearch {hosts => [ "localhost:9200"]
    }
}

在这段配置中,Logstash 用 http 协定连贯到 Elasticsearch,而且假如 Logstash 和 Elasticsearch 容许在同一台机器上。你也能够指定一个近程的 Elasticsearch 实例,比方 host=>[“es-machine:9092”]

当初,first-pipeline.conf 文件是这样的:

同样,保留扭转当前,重启 Filebeat

(画外音:首先,Ctrl+ C 终止 Filebeat;接着 rm data/registry 删除注册文件;最初,./filebeat -e -c filebeat.yml -d “publish” 启动 Filebeat)

好了,接下来启动 Elasticsearch

(画外音:查看 Elasticsearch 索引,如果没有看到 logstash 的索引,那么重启 Filebeat 和 Logstash,重启之后应该就能够看到了)

如果一切正常的话,能够在 Elasticsearch 的控制台日志中看到这样的输入:

[2018-08-11T17:35:27,871][INFO][o.e.c.m.MetaDataIndexTemplateService] [Px524Ts] adding template [logstash] for index patterns [logstash-*]
[2018-08-11T17:46:13,311][INFO][o.e.c.m.MetaDataCreateIndexService] [Px524Ts] [logstash-2018.08.11] creating index, cause [auto(bulk api)], templates [logstash], shards [5]/[1], mappings [_default_]
[2018-08-11T17:46:13,549][INFO][o.e.c.m.MetaDataMappingService] [Px524Ts] [logstash-2018.08.11/pzcVdNxSSjGzaaM9Ib_G_w] create_mapping [doc]
[2018-08-11T17:46:13,722][INFO][o.e.c.m.MetaDataMappingService] [Px524Ts] [logstash-2018.08.11/pzcVdNxSSjGzaaM9Ib_G_w] update_mapping [doc]

这个时候,咱们再查看 Elasticsearch 的索引

申请:

curl 'localhost:9200/_cat/indices?v'

响应:

health status index                     uuid                   pri rep docs.count docs.deleted store.size pri.store.size
yellow open   bank                      59jD3B4FR8iifWWjrdMzUg   5   1       1000            0    475.1kb        475.1kb
green  open   .kibana                   DzGTSDo9SHSHcNH6rxYHHA   1   0        153           23    216.8kb        216.8kb
yellow open   filebeat-6.3.2-2018.08.08 otgYPvsgR3Ot-2GDcw_Upg   3   1        255            0     63.7kb         63.7kb
yellow open   customer                  DoM-O7QmRk-6f3Iuls7X6Q   5   1          1            0      4.5kb          4.5kb
yellow open   logstash-2018.08.11       pzcVdNxSSjGzaaM9Ib_G_w   5   1        100            0    251.8kb        251.8kb

能够看到有一个名字叫 ”logstash-2018.08.11″ 的索引,其它的索引都是之前建的不必管

接下来,查看这个索引下的文档

申请:

curl -X GET 'localhost:9200/logstash-2018.08.11/_search?pretty&q=response=200'

响应大略是这样的:

(画外音:因为输入太长了,这里截取局部)

{
    "_index" : "logstash-2018.08.11",
    "_type" : "doc",
    "_id" : "D_JhKGUBOuOlYJNtDfwl",
    "_score" : 0.070617564,
    "_source" : {
      "host" : {"name" : "localhost.localdomain"},
      "httpversion" : "1.1",
      "ident" : "-",
      "message" : "83.149.9.216 - - [04/Jan/2015:05:13:42 +0000] \"GET /presentations/logstash-monitorama-2013/images/kibana-search.png HTTP/1.1\"200 203023 \"http://semicomplete.com/presentations/logstash-monitorama-2013/\"\"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36\"","auth":"-","timestamp":"04/Jan/2015:05:13:42 +0000","input": {"type":"log"},"geoip": {"postal_code":"101194","region_name":"Moscow","timezone":"Europe/Moscow","continent_code":"EU","city_name":"Moscow","country_code3":"RU","country_name":"Russia","ip":"83.149.9.216","country_code2":"RU","region_code":"MOW","latitude": 55.7485,"longitude": 37.6184,"location": {"lon": 37.6184,"lat" : 55.7485}
      },
      "@timestamp" : "2018-08-11T09:46:10.209Z",
      "offset" : 0,
      "tags" : ["beats_input_codec_plain_applied"],
      "beat" : {
        "version" : "6.3.2",
        "hostname" : "localhost.localdomain",
        "name" : "localhost.localdomain"
      },
      "clientip" : "83.149.9.216",
      "@version" : "1",
      "verb" : "GET",
      "request" : "/presentations/logstash-monitorama-2013/images/kibana-search.png",
      "prospector" : {"type" : "log"},
      "referrer" : "\"http://semicomplete.com/presentations/logstash-monitorama-2013/\"","response":"200","bytes":"203023","source":"/usr/local/programs/logstash/logstash-tutorial.log","agent":"\"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36\""
    }
  }

再来一个

申请:

curl -XGET 'localhost:9200/logstash-2018.08.11/_search?pretty&q=geoip.city_name=Buffalo'

响应:

{
  "took" : 37,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 2,
    "max_score" : 2.6855774,
    "hits" : [
      {
        "_index" : "logstash-2018.08.11",
        "_type" : "doc",
        "_id" : "DvJhKGUBOuOlYJNtDPw7",
        "_score" : 2.6855774,
        "_source" : {
          "host" : {"name" : "localhost.localdomain"},
          "httpversion" : "1.1",
          "ident" : "-",
          "message" : "198.46.149.143 - - [04/Jan/2015:05:29:13 +0000] \"GET /blog/geekery/solving-good-or-bad-problems.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+semicomplete%2Fmain+%28semicomplete.com+-+Jordan+Sissel%29 HTTP/1.1\"200 10756 \"-\"\"Tiny Tiny RSS/1.11 (http://tt-rss.org/)\"","auth":"-","timestamp":"04/Jan/2015:05:29:13 +0000","input": {"type":"log"},"geoip": {"postal_code":"14202","region_name":"New York","timezone":"America/New_York","continent_code":"NA","city_name":"Buffalo","country_code3":"US","country_name":"United States","ip":"198.46.149.143","dma_code": 514,"country_code2":"US","region_code":"NY","latitude": 42.8864,"longitude": -78.8781,"location": {"lon": -78.8781,"lat" : 42.8864}
          },
          "@timestamp" : "2018-08-11T09:46:10.254Z",
          "offset" : 22795,
          "tags" : ["beats_input_codec_plain_applied"],
          "beat" : {
            "version" : "6.3.2",
            "hostname" : "localhost.localdomain",
            "name" : "localhost.localdomain"
          },
          "clientip" : "198.46.149.143",
          "@version" : "1",
          "verb" : "GET",
          "request" : "/blog/geekery/solving-good-or-bad-problems.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+semicomplete%2Fmain+%28semicomplete.com+-+Jordan+Sissel%29",
          "prospector" : {"type" : "log"},
          "referrer" : "\"-\"","response":"200","bytes":"10756","source":"/usr/local/programs/logstash/logstash-tutorial.log","agent":"\"Tiny Tiny RSS/1.11 (http://tt-rss.org/)\""
        }
      },。。。

命令行启动 Logstash


为了从命令行启动 Logstash,用上面的命令:

bin/logstash [options]

上面的例子展现了启动 Logstash,并制订配置定义在 mypipeline.conf 文件中:

bin/logstash -f mypipeline.conf

在命令行中设置的任何标记都会笼罩 logstash.yml 中的相应设置。然而文件自身的内容没有扭转。

Command-Line Flags

–node.name NAME

指定 Logstash 实例的名字。如果没有指定的话,默认是以后主机名。

-f, –path.config CONFIG_PATH

从指定的文件或者目录加载 Logstash 配置。如果给定的是一个目录,则该目录中的所有文件将以字典程序连贯,而后作为一个配置文件进行解析。

-e, –config.string CONFIG_STRING

用给定的字符串作为配置数据,语法和配置文件中是一样的。

–modules

运行的模块名字

-l, –path.logs PATH

Logstash 外部日志输入目录

–log.level LEVEL

日志级别

-t, –config.test_and_exit

查看配置语法是否正确并退出

-r, –config.reload.automatic

监督配置文件的扭转,并且当配置文件被批改当前主动从新加载配置文件。

-config.reload.interval RELOAD_INTERVAL

为了查看配置文件是否扭转,而拉去配置文件的频率。默认 3 秒。

–http.host HTTP_HOST

Web API 绑定的主机。REST 端点绑定的地址。默认是 ”127.0.0.1″

–http.port HTTP_PORT

Web API http 端口。REST 端点绑定的端口。默认是 9600-9700 之间。

–log.format FORMAT

指定 Logstash 写它本身的应用 JSON 格局还是文本格式。默认是 ”plain”。

–path.settings SETTINGS_DIR

设置蕴含 logstash.yml 配置文件的目录,比方 log4j 日志配置。也能够设置 LS_SETTINGS_DIR 环境变量。默认的配置目录是在 Logstash home 目录下。

-h, –help

打印帮忙

好了,对于 Logstash 介绍临时先写这么多吧!感激用心的本人!!!

近期热文举荐:

1.Java 15 正式公布,14 个新个性,刷新你的认知!!

2. 终于靠开源我的项目弄到 IntelliJ IDEA 激活码了,真香!

3. 我用 Java 8 写了一段逻辑,共事直呼看不懂,你试试看。。

4. 吊打 Tomcat,Undertow 性能很炸!!

5.《Java 开发手册(嵩山版)》最新公布,速速下载!

感觉不错,别忘了顺手点赞 + 转发哦!

正文完
 0