关于大数据:vivo大数据日志采集Agent设计实践

作者：vivo 互联网存储技术团队- Qiu Sidi

在企业大数据体系建设过程中，数据采集是其中的首要环节。然而，以后行业内的相干开源数据采集组件，并无奈满足企业大规模数据采集的需要与无效的数据采集治理，所以大部分企业都采纳自研开发采集组件的形式。本文通过在vivo的日志采集服务的设计实践经验，为大家提供日志采集Agent在设计开发过程中的要害设计思路。

一、概述

在企业大数据体系的建设过程中，数据的解决个别蕴含4个步骤：采集、存储、计算和应用。其中，数据采集，是建设过程中的首要的环节，也是至关重要的环节，如果没有采集就没有数据，更谈不上后续的数据处理与应用。所以，咱们看到的企业中的经营报表、决策报表、日志监控、审计日志等的数据起源都是基于数据采集。个别的，咱们对数据采集的定义是，把各种扩散的源头上的数据（能够包含企业产品的埋点的日志、服务器日志、数据库、IOT设施日志等）对立汇聚到大数据存储组件的过程（如下图所示）。其中，日志文件类型的采集场景，是各种数据采集类型中最常见的一种。接下来，将围绕该场景提出咱们的设计实际计划。

通常，日志采集服务能够分为几个局部（业界常见的架构如下图所示）：日志采集Agent组件（常见的开源采集Agent组件有Flume、Logstash、Scribe等）、采集传输与存储组件（如kafka、HDFS）、采集治理平台。Bees采集服务是vivo自研的日志采集服务，本文章是通过在Bees采集服务中的要害组件bees-agent的开发实际后，总结出一个通用的日志采集Agent设计中的核心技术点和一些要害思考点，心愿对大家有用。

二、个性&能力

具备根本的日志文件的实时与离线采集能力
基于日志文件，无侵入式采集日志
具备自定义的过滤超大日志的能力
具备自定义的过滤采集、匹配采集、格式化的能力
具备自定义的限速采集的能力
具备秒级别的实时采集时效性
具备断点续传能力，降级和进行不丢数据
具备可视化的、中心化的采集工作治理平台
丰盛的监控指标与告警（包含采集流量、时效性、完整性等）
低系统资源开销（包含磁盘、内存、CPU及网络等）

三、设计准则

简略优雅
强壮稳固

四、要害设计

目前业界风行的日志采集Agent组件，开源的有Flume、Logstash、Scribe、FileBeats、Fluentd等，自研的有阿里的Logtail。它们都有不错的性能与稳定性，如果想要疾速上手，能够无妨应用它们。然而个别大企业会有个性化的采集需要，比方采集工作大规模治理、采集限速、采集过滤等，还有采集工作平台化、工作可视化的需要，为了满足下面这些需要咱们自研了一个日志采集Agent。

在做所有的设计和开发之前，咱们设定了采集Agent最根本的设计准则，即简略优雅、强壮稳固。

日志文件采集的个别流程会包含：文件的发现与监听、文件读取，日志内容的格式化、过滤、聚合与发送。当咱们开始着手开始设计这样一个日志采集Agent时，会遇到不少要害的难点问题，比方：日志文件在哪里？如何发现日志文件新增？如何监听日志内容追加？如何辨认一个文件？宕机重启怎么办？如何断点续传？等等问题，接下来，咱们针对日志采集Agent设计过程中遇到的关键问题，为大家一一解答。（注：下文呈现的文件门路与文件名都为演示样例非实在门路）

4.1 日志文件发现与监听

Agent要如何晓得采集哪些日志文件呢？

最简略的设计，就是在Agent的本地配置文件中，把须要采集的日志文件门路都一一列举进去，比方 /home/sample/logs/access1.log、/home/sample/logs/access2.log、/home/sample/logs/access3.log 等，这样Agent通过读取配置文件失去对应的日志文件列表，这样就能遍历文件列表读取日志信息。然而理论状况是，日志文件是动静生成的，像个别tomcat的业务日志，每个小时都会滚动生成一个新的的日志文件，日志名字通常会带上工夫戳，命名相似 /data/sample/logs/access.2021110820.log，所以采纳间接配置固定的文件列表形式是行不通的。

所以，咱们想到能够应用一个文件夹门路和日志文件名应用正则表达式或者通配符来示意（为了不便，下文对立应用通配符来示意）。机器上的日志个别固定存在某一个目录下，比方 /data/sample/logs/ 下，文件名因为某种规定是滚动产生的（比方工夫戳），相似 access.2021110820.log、access.2021110821.log、access.2021110822.log，咱们能够简略粗犷应用 access.*.log 的通配办法来匹配这一类的日志，当然理论状况能够依据你须要的匹配粒度去抉择你的正则表达式。有了这个通配符办法，咱们的Agent就能的匹配滚动产生的一批日志文件了。

如何继续发现和监听到新产生的日志文件呢？

因为新的日志文件会由其余应用程序（比方Nginx、Tomcat等）继续的按小时动静产生的，Agent如何应用通配符疾速去发现这个新产生的文件呢？

最容易想到的，是应用轮询的设计方案，即是通过一个定时工作来查看对应目录下的日志文件是否有减少，然而这种简略的计划有个问题，就是如果轮询间隔时间太长，比方距离设置为10s、5s，那么日志采集的时效性满足不了咱们的需要；如果轮询间隔时间太短，比方500ms，大量的有效的轮询查看又会耗费许多CPU资源。幸好，Linux内核给咱们提供一种高效的文件事件监听机制：Linux Inotify机制。该机制可监听任意文件的操作，比方文件创建、文件删除和文件内容变更，内核会给应用层一个对应的事件告诉。Inotify这种的事件机制比轮询机制高效的多，也不存在CPU空跑节约系统资源的状况。在java中，应用java.nio.file.WatchService，能够参考如下外围代码：

/** * 订阅文件或目录的变更事件 */public synchronized BeesWatchKey watchDir(File dir, WatchEvent.Kind<?>... watchEvents) throws IOException {    if (!dir.exists() && dir.isFile()) {        throw new IllegalArgumentException("watchDir requires an exist directory, param: " + dir);    }    Path path = dir.toPath().toAbsolutePath();    BeesWatchKey beesWatchKey = registeredDirs.get(path);    if (beesWatchKey == null) {        beesWatchKey = new BeesWatchKey(subscriber, dir, this, watchEvents);        registeredDirs.put(path, beesWatchKey);        logger.info("successfully watch dir: {}", dir);    }    return beesWatchKey;} public synchronized BeesWatchKey watchDir(File dir) throws IOException {    WatchEvent.Kind<?>[] events = {            StandardWatchEventKinds.ENTRY_CREATE,            StandardWatchEventKinds.ENTRY_DELETE,            StandardWatchEventKinds.ENTRY_MODIFY    };    return watchDir(dir, events);}

综合以上思考，日志文件的发现和日志内容变更的监听，咱们应用的是"inotify机制为主+轮询机制兜底"、"通配符"的设计方案，如下图所示：

4.2 日志文件的惟一标识

要设计日志文件的惟一标识，如果间接应用日志文件的名称是行不通的，日志文件名可能被频繁重复使用，比方，一些应用程序应用的日志框架在输入日志时，对于以后利用正在输入的日志命名是不带任何工夫戳信息的，比方固定是 access.log，只有等到以后小时写入文件结束时，才把文件重命名为 access.2021110820.log，此时新生产的日志文件命名也是 access.log，该文件名对于采集Agent来说是反复的，所以文件名是无奈作为文件惟一标识。

咱们想到应用Linux操作系统上的文件inode号作为文件标识符。Unix/Linux文件系统应用inode号来辨认不同文件，即便挪动文件或重命名文件，inode号是放弃不变的，创立一个新文件，会给这个新文件调配一个新的不反复的inode号，这样就能与现有磁盘上的其余文件很好辨别。咱们应用 ls -i access.log 能够疾速查看该文件的inode号，如下代码块所示：

ls -i access.log62651787 access.log

一般来说，应用零碎的inode号作为标识，曾经能满足大多数的状况了，然而为了更谨严的思考，还能够进一步降级计划。因为Linux 的inode号存在复用的状况，这里的"复用"要和"反复"区别一下，在一台机器上的所有文件不会同一时刻呈现反复的两个inode号，然而当文件删除后，另一个新文件创建时，这个文件的inode号是可能复用之前删除文件的inode号的，代码逻辑解决不好，很可能造成日志文件漏采集，这一点是要留神的。为了躲避这个问题，咱们把文件的惟一标识设计为" 文件inode与文件签名组合"，这里的文件签名应用的是该文件内容前128字节的Hash值，代码参考如下：

public static String signFile(File file) throws IOException {        String filepath = file.getAbsolutePath();        String sign = null;        RandomAccessFile raf = new RandomAccessFile(filepath, "r");        if (raf.length() >= SIGN_SIZE) {           byte[] tbyte = new byte[SIGN_SIZE];           raf.seek(0);           raf.read(tbyte);           sign = Hashing.sha256().hashBytes(tbyte).toString();        }        return sign;    }

对于inode再补充点小常识。Linux inode是会满的，inode的信息存储自身也会耗费一些硬盘空间，因为inode号只是inode内容中的一小部分，inode内容次要是蕴含文件的元数据信息：如文件的字节数、文件数据block的地位、文件的读写执行权限、文件的工夫戳等，能够用stat命令，查看某个文件残缺的inode信息（stat access.log）。因为这样的设计，操作系统是将硬盘分成两个区域的：一个是数据区，寄存文件数据；另一个是inode区，寄存inode所蕴含的信息。每个inode节点的大小，个别是128字节或256字节。查看每个硬盘分区的inode总数和曾经应用的数量，能够应用df -i命令。因为每个文件都必须有一个inode，如果一个日志机器上，日志文件小而且数量太多，是有可能产生操作系统inode用完了即是inode区磁盘满了，然而咱们应用的数据区硬盘还未存满的状况。这时，就无奈在硬盘上创立新文件。所以在日志打印标准上是要防止产生大量的小日志文件的。

4.3 日志内容的读取

发现并且能无效监听日志文件后，咱们应该如何去读取这个日志文件中实时追加的日志内容呢？日志内容的读取，咱们冀望从日志文件中把每一行的日志内容逐行读取进去，每一行以\n或者\r为分隔符。很显然，咱们不能间接简略采纳InputStreamReader去读取，因为Reader只能依照字符从头到尾读取整个日志文件，不适宜读取实时追加日志内容的状况；最合适的抉择应该是应用RandomAccessFile。RandomAccessFile它为代码开发者提供了一个可供设置的指针，通过指针开发者能够拜访文件的随机地位，参考下图：

通过这种形式，当某一时刻呈现线程读取到文件开端时，只须要记录以后的地位，线程就进入期待状态，直到有新的日志内容写入后，线程又重新启动，启动后能够接着上次的尾部往下读取，代码参考如下。另外，在过程挂或者宕机复原后，也会用到RandomAccessFile来从指定点位开始读取，不须要从整个文件头部从新读取。对于断点续传的能力后文会提到。

RandomAccessFile raf = new RandomAccessFile(file, "r");byte[] buffer;private void readFile() {    if ((raf.length() - raf.getFilePointer()) < BUFFER_SIZE) {        buffer = new byte[(int) (raf.length() - raf.getFilePointer())];    } else {        buffer = new byte[BUFFER_SIZE];    }    raf.read(buffer, 0, buffer.length);}

4.4 实现断点续传

机器宕机、Java过程OOM重启、Agent降级重启等这些是常有的事，那么如何在这些状况下保障采集数据的正确呢？这个问题次要思考的是采集Agent断点续传的能力。个别的，咱们在采集过程中须要记录以后的采集点位（采集点位，即RandomAccessFile中最初的指针指向的地位，一个整型数值），当Agent把对应缓冲区的数据胜利发送到kafka后，此时能够先把最新点位的数值更新到内存，并且通过一个定时工作（默认是3s）长久化内存中的采集点位数值到本地的磁盘的点位文件中。这样，当呈现过程进行，重新启动时，加载本次磁盘文件中的采集点位，并应用RandomAccessFile挪动到对应的点位，实现了从上一次进行的点位持续往下采集的能力，Agent能够复原到原有的状态，从而实现了断点续传，无效躲避反复采集或者漏采集的危险。

Agent针对的每一个采集工作会有一个对应的点位文件，一个Agent如果有多个采集工作，将会对应多个点位文件。一个点位文件存储的内容格局为JSON数组（如下图所示）。其中file示意工作所采集的文件的名字，inode即文件的inode，pos即position的放大，示意点位的数值；

[    {        "file": "/home/sample/logs/bees-agent.log",        "inode": 2235528,        "pos": 621,        "sign": "cb8730c1d4a71adc4e5b48931db528e30a5b5c1e99a900ee13e1fe5f935664f1"    }]

4.5 实时数据发送

后面次要介绍了，日志文件的实时的发现、实时的日志内容变更监听、日志内容的读取等设计方案，接下来介绍Agent的数据发送。

最简略的模型是，Agent通过Kafka Client把数据间接发送到Kafka分布式消息中间件，这也是一种简洁可行的计划。实际上在Bees的采集链路架构中，在Agent与Kafka的数据链路中咱们减少了一个"组件bees-bus“（如下图所示）。

bees-bus组件次要起到汇聚数据的作用，相似于Flume在采集链路中聚合的角色。Agent基于Netty开源框架实现NettyRpcClient与Bus之间通信实现数据发送。网络传输局部开展讲内容较多，非本文章重点就此带过（具体可参考Flume NettyAvroRpcClient实现）。

这里略微补充下，咱们引入bees-bus的目标次要有以下几个：

收敛来自于Agent过多的网络连接数，防止所有Agent直连Kafka broker对其造成较大的压力；
数据汇聚到Bus后，Bus具备流量多路输入的能力，能够实现跨机房Kafka数据容灾；
在遇到流量陡增的状况下，会导致topic分区所在broker机器磁盘IO忙碌进而导致数据反压到客户端，因为kafka正本迁徙比拟耗时所以呈现问题后复原较慢，Bus能够起到一层缓冲层的作用。

4.6 离线采集能力

除了下面常见的实时日志采集的场景外（个别是日志采集到kafka这类消息中间件），Bees采集还有一个离线日志采集的场景。所谓离线日志采集，个别是指把日志文件是采集到HDFS下（参考下图）。

这些日志数据是用于上游的Hive离线数仓建设、离线报表剖析应用。该场景数据时效性没有那么强，个别是按天为单位应用数据（咱们常说的T+1数据），所以日志数据采集无需像实时日志采集一样，实时的一行一行的采集。离线采集个别能够依照固定工夫一个批次采集。咱们默认是每隔一小时定时采集上个小时产生的一个残缺的小时日志文件，比方在21点的05分，采集Agent则开始采集上个小时产生的日志文件（access.2021110820.log），该文件保留了20点内产生的残缺的（20:00~20:59）日志内容。

实现离线的采集能力，咱们的Agent通过集成HDFS Client的根本能力来实现，HDFS Client中应用 FSDataOutputStream 能够疾速的实现一个文件PUT到HDFS的目录下。

尤其要关注的一点是，离线采集须要特地的减少了一个限流采集的能力。因为离线采集的特点是，在整点左右的时刻，所有的机器上的Agent会简直同时全量开启采集，如果日志量大、采集速度过快，可能会造成该时刻公司网络带宽被疾速占用飙升，超出全网带宽下限，进一步会影响其余业务的失常服务，引发故障；还有一个须要关注的就是离线采集整点时刻对机器磁盘资源的需要是很大，通过限流采集，能够无效削平对磁盘资源的整点峰值，防止影响其余服务。

4.7 日志文件清理策略

业务日志源源不断的产生落到机器的磁盘上，单个小时的日志文件大小，小的可能是几十MB，大的能够是几十GB，磁盘很有可能在几小时内被占满，导致新的日志无奈写入造成日志失落，另一方面可能导致更致命的问题，linux 操作系统报 “No space left on device 异样"，引发其余过程的各种故障；所以机器上的日志文件须要有一个清理的策略。

咱们采纳的策略是，所有的机器都默认启动了一个shell的日志清理脚本，定期检查固定目录下的日志文件，规定日志文件的生命周期为6小时，一旦发现日志文件是6小时以前的文件，则会对其进行删除（执行 rm 命令）。

因为日志文件的删除，不是由日志采集Agent本身发动和执行的，那么可能呈现”采集速度跟不上删除速度（采集落后6小时）“的状况。比方日志文件还在采集，然而删除脚本曾经检测到该文件生命周期已达6小时筹备对其进行删除；这种状况，咱们只须要做好一点，保障采集Agent对该日志文件的读取句柄是失常关上的，这样的话，即便日志清理过程对该文件执行了rm操作（执行rm后只是将该文件从文件系统的目录构造上解除链接 unlink，理论文件还未从磁盘彻底删除），采集Agent继续关上的句柄，仍然能失常采集完此文件；这种"采集速度跟不上删除速度"是不能长时间存在，也有磁盘满的危险，须要通过告警辨认进去，基本上来说，须要通过负载平衡或者升高日志量的办法，来缩小单机器日志长时间采集不过去的状况。

4.8 系统资源耗费与管制

Agent采集过程是随着业务过程一起部署在一个机器上的，独特应用业务机器的资源（CPU、内存、磁盘、网络），所以在设计时，要思考管制好Agent采集过程对机器资源的耗费，同时要做好对Agent过程对机器资源耗费的监控。一方面保障业务有稳固的资源能够失常运行；另外能够保障Agent本身过程失常运作。通常咱们能够采纳以下计划：

1. 针对CPU的耗费管制。

咱们能够较不便采纳Linux零碎层面的CPU隔离的计划来管制，比方TaskSet；通过TaskSet命令，咱们能够在采集过程启动时，设定采集过程绑定在某个限定的CPU外围下面（过程绑核，即设定过程与CPU亲和性，设定当前Linux调度器就会让这个过程/线程只在所绑定的核下面去运行）；这样的设定之后，能够保障采集过程与业务过程在CPU的应用下面相互不影响。

2. 针对内存的耗费管制。

因为采集Agent采纳java语言开发基于JVM运行，所以咱们能够通过JVM的堆参数配置即可管制；bees-agent个别默认配置512MB，实践上最低值能够是64MB，能够依据理论机器资源状况和采集日志文件大小来配置；事实上，Agent的内存占用绝对稳固，内存耗费方面的危险较小。

3.针对磁盘的耗费管制。

因为采集Agent是一个IO密集型过程，所以磁盘IO的负载是咱们须要重点保障好的；在零碎层面没有成熟的磁盘IO的隔离计划，所以只能在应用层来实现。咱们须要分明过程所在磁盘的基准性能状况，而后在这个根底上，通过Agent本身的限速采集能力，设置采集过程的峰值的采集速率（比方：3MB/s、5MB/s）；除此之外，还须要做好磁盘IO负载的根底监控与告警、采集Agent采集速率大小的监控与告警，通过这些监控告警与值班剖析进一步保障磁盘IO资源。

4.针对网络的耗费管制。

这里说的网络，重点要关注是跨机房带宽下限。防止同一时刻，大批量的Agent日志采集导致跨机房的带宽达到了下限，引发业务故障。所以，针对网络带宽的应用也须要有监控与告警，相干监控数据上报到平台汇总计算，平台通过智能计算后给Agent下发一个正当的采集速率。

4.9 本身日志监控

为了更好的监控线上所有的Agent的状况，可能不便地查看这些Agent过程本身的log4j日志是很有必要的。为了达成这一目标，咱们把Agent本身产生的日志采集设计成一个一般的日志采集工作，就是说，采集Agent过程本身，本人采集本人产生的日志，于是就能够把所有Agent的日志通过Agent采集汇聚到上游Kafka，再到Elasticsearch存储引擎，最初通过Kibana或其余的日志可视化平台能够查看。

4.10 平台化治理

目前的生产环境Agent实例数量曾经好几万，采集工作数量有上万个。为了对这些扩散的、数据量多的Agent进行无效的集中的运维和治理，咱们设计了一个可视化的平台，治理平台具备以下Agent控制能力：Agent 的现网版本查看，Agent存活心跳治理，Agent采集工作下发、启动、进行治理，Agent采集限速治理等；须要留神的是，Agent与平台的通信形式，咱们设计采纳简略的HTTP通信形式，即Agent以定时心跳的形式（默认5分钟）向平台发动HTTP申请，HTTP申请体中会蕴含Agent本身信息，比方idc、ip、hostname、以后采集工作信息等，而HTTP返回体的内容里会蕴含平台向Agent下发的工作信息，比方哪个工作启动、哪个工作进行、工作的具体参数变更等。

五、与开源能力比照

bees-agent与flume-agent比照

内存需要大大降低。bees-agent 采纳无 Channel 设计，大大节俭内存开销，每个 Agent 启动，JVM 堆栈最低理论值能够设置为64MB；
实时性更好。bees-agent 采纳Linux inotify事件机制，相比 Flume Agent 轮询机制，采集数据的时效性能够在1s以内；
日志文件的惟一标识，bees-agent 应用inode+文件签名，更精确，不会呈现日志文件误采重采；
用户资源隔离。bees-agent 不同 Topic 的日志采集工作，采纳不同的线程隔离采集，相互无影响；
真正的优雅退出。bees-agent 在失常采集过程中，随时应用平台的"进行命令"让 Agent 优雅退出，不会呈现无奈退出的难堪状况，也能保障日志无任何失落；
更丰盛的指标数据。bees-agent 包含采集速率、采集总进度，还有机器信息、JVM 堆状况、类数量、JVM GC次数等；
更丰盛的定制化能力。bees-agent 具备关键字匹配采集能力、日志格式化能力、平台化治理的能力等；

六、总结

前文介绍了vivo日志采集Agent在设计过程中的一些核心技术点：包含日志文件的发现与监听、日志文件的惟一标识符设计、日志文件的实时采集与离线采集的架构设计、日志文件的清理策略、采集过程对系统资源的耗费管制、平台化治理的思路等，这些要害的设计思路笼罩了自研采集agent大部分的外围性能，同时也笼罩了其中的难点痛点，能让后续的开发环节更加畅通。当然，还有一些高阶的采集能力未涵盖本文介绍在内，比方"如何做好日志采集数据的完整性对账"，"数据库类型的场景的采集设计"等，大家能够持续摸索解决方案。

从2019年起，vivo大数据业务的日志采集场景就是由Bees数据采集服务撑持。bees-agent在生产环境继续服务，至今已有3年多的稳固运行的记录，有数万个bees-agent实例正在运行，同时在线撑持数万个日志文件的采集，每天采集PB级别的日志量。实践证明，bees-agent的稳固行、健壮性、丰盛的性能、性能与正当的资源状况，都合乎最开始设计的预期，本文的设计思路的也一再被证实卓有成效。