关于运维自动化:智能运维时代如何做好日志全生命周期管理

45次阅读

共计 4102 个字符,预计需要花费 11 分钟才能阅读完成。

云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的 AIOps 开发者生态。

本文将从平台架构登程,具体讲解云智慧是如何疾速高效地解决日志全生命周期问题。

智能日志平台架构概览

  • 分布式可扩大架构组件反对多 采集、解决、存储、查问

云智慧日志平台架构的次要特点是可能对接多日志源的日志。此外,云智慧采纳的是分布式可扩大组件,当组织须要扩容、运维对象减少时,企业能够疾速地去扩大,适应新的变动。日志采集局部应用的是自研的日志采集器,采集器能够对接日志、数据库、音讯队列等。与此同时,云智慧提供了批量化部署和治理采集器的能力。日志解决方面,云智慧应用的是 Kafka 音讯队列和 Flink 流式解决组件,满足海量数据接管的同时反对横向扩大。底层存储同时反对 Elasticsearch 和 Clickhouse,帮忙企业笼罩结构化与非结构化双重解决场景。

  • 开箱即用的日志采集模版,反对 25+ 种采集形式

目前云智慧的日志采集均是制作成了规范的采集模版,可间接对接数据源,通过配置就能满足日志的接入。

  • 利用可拖拽编排的解决组件实现日志数据的标准化

日志数据采集胜利后,将进入数据处理环节。云智慧利用可拖拽编排的数据处理组件实现日志数据的标准化。例如,当有来自不同日志源的日志且工夫格局不同时,运维人员便能够通过“日期转换”组件将固定格局的日期字段转换为工夫戳格局。在整体数据处理编排中,反对单步流程调试性能。

  • 日志平台性能:毫秒级查问响应、高压缩比列式存储

存储方面下面曾经提到过,云智慧的底层存储能够做到同时反对 Elasticsearch 和 Clickhouse 双引擎存储通过自有环境的性能测试,在日志搜寻性能上 ES 引擎实现了一倍多的提速。而 Clickhouse 不仅具备高达 30% 的数据压缩比,在固定字段剖析上也展示了数倍的性能劣势。上述剖析后果体现了 Elasticsearch 和 Clickhouse 在不同场景的适用范围,也让云智慧的日志产品领有了不同场景下的最佳实际。

下图为云智慧在某第三方领取平台和某航空信息企业解决能力展现。从下图可的云智慧日志平台在 3 秒钟就能够撑持 3 亿条以上的数据查问。云智慧在某航空信息企业的采集日志节点就有超过 10000 个,这都依附云智慧的采集管制平台进行批量的治理。数据的存储量方面,在高压缩比的条件下,云智慧仍能够管制在老本敌对的量级。

应用场景介绍

在介绍了日志是如何从采集到存储后,接下来将分享云智慧智能日志平台能够有哪些应用场景。

  • 纳管日志的全文搜寻 —— 查问日志不用东奔西找

当初通过云智慧的智能日志平台将不同零碎的日志胜利纳管后,运维人员能够在智能日志平台中疾速便捷的进行全文搜寻查问,查问日志时无需逐台机器登录。平台反对 SPL 语法查问、联想搜寻、划词剖析等性能,能够晋升整体的查问效率。

  • 关联日志查问 —— 串联服务间关联日志,疾速定位故障

运维人员在排查故障时常常会因为查看的日志不蕴含全局信息而无从下手,而云智慧智能日志平台则通过将日志中的关联字段进行串联,能够造成残缺的日志上下游信息,给运维人员一个全局直观的展现,帮忙运维人员将故障相干的问题日志全副出现,有助于疾速查问和排障。

  • 智能日志模式识别 —— 无需人工配置即可自动识别日志异样

当日志规定监控伎俩繁多全面时误报率就会变高,模式识别是云智慧的日志“转化场景”之一。在传统运维中,因须要运维人员做大量手动配置,所以日志治理剖析显得十分麻烦。而云智慧的计划无需企业做任何配置即可享受到智能化计划带来的效率晋升。

同一类型模式的日志往往具备某类独特的特色,例如类似的日志构造。日志模式识别利用聚类算法将日志文本中类似度高的数据聚合在一起,提取独特的日志模式,无需运维人员配置,便能够主动疾速发现异常模式日志。并且能够辅助根因剖析,通过配置的聚合关键字生成的“饼状图”、“柱状图”等,帮忙企业管理人员理解异样时段的具体情况,从而放大排障范畴。

  • 构建链路拓扑 —— 提供直观牢靠的排障根据

基于日志的链路拓扑是一种无侵入的日志转化形式,不须要装置探针、日志的链路便能够给运维人员提供全链路追踪排障能力。

  • 搭建全局服务监控 —— 节点运行状态和盘托出,辞别被动监控

如下图所示,运维人员能够具体地看到每一条申请相干的日志组成的调用链,此外,每一个可观测到的节点都会以不同色彩标识出本身的衰弱度。与此同时,云智慧日志治理平台还反对点击节点下钻,以便运维人员查看节点具体的运行状态。

  • 日志审计 —— 为企业 信息安全 保驾护航

日志审计次要面向的内容是各种操作日志、流量日志、会话日志、原始报文等,外围难点在于大数据的汇聚、存储(保留 6 个月)、索引和剖析技术。云智慧认为日志审计应该具备数据脱敏、历史日志疾速查问且存储成本低等能力。此外,还应按网络安全法要求,数据至多存储 6 个月,同时可能查问指定工夫范畴的日志数据以便监管部门调取。与此同时,云智慧还认为日志审计应该具备对安全事件的预警和剖析能力,让企业在对日志实现统管后,还具备平安合规的能力。

劣势及价值剖析

智能日志异样检测 VS 传统日志异样检测

较比传统日志异样检测,智能日志在人力老本、告警准确率、异样定位方面都具备显著的劣势。基于规定的传统日志异样检测,告警准确率仅在 20% 左右,而云智慧的智能日志,能够达到 70%。

模式识别在日志剖析中的价值

  • 高性能:作为利用于异样检测场景的算法,模式识别具备十分高的时效性及低耗能的双重长处。在 3 台 16C32G 的物理节点上,每天可解决 500-1000GB 的日志量,每 5 分钟可解决 13000+ 条日志,内存占用仅 0.28g。
  • 强鲁棒:对日志中存在的粒度不稳固、反复、缺失、乱序等状况,都能够很好的适应。
  • 可解释:算法具备较强可解释性,模式识别的成果以不便自然人了解的模式展现给运维人员,不便继续优化模型成果,算法对于运维人员不再是黑盒。
  • 重成果:简略易用,无需任何人工配置便可实现对日志状态的监控,在定位故障的同时亦为企业提供了更多的排障根据,帮忙企业解决理论问题,使智能化对企业不再是一个扑朔迷离的概念。

案例分享

  • 案例 1:券商用户行为日志辅助根因剖析

下图为云智慧服务的国内某顶级券商实在案例。为了更好的保障系统稳定性,云智慧将业务零碎中蕴含用户行为的日志进行采集并对立纳管进入日志智能剖析平台。上面咱们比照失常与异样时段日志的散布趋势图,尝试进行辅助根因定位。

先看失常时段日志的日志散布趋势以及用户登录客户端以及版本号的散布状况(左图所示)。接下来再看异样时段的日志散布趋势图(右图所示),在异样时间段,日志量相较失常时段暴增 10 倍多,用户登录客户端占比及版本号占比产生了显著变动,安卓占比从 68% 变成了 95%。异样时段 7.2.4 版本产生了 12000+ 次日志。依此咱们不难推断出该故障极有可能是因为 Android 客户端的 7.2.4 版本引起。经排查确认,证实了上述论断。只有 3min,云智慧即可给出问题的根因方向。

案例 2:运营商携号转网行为日志辅助根因剖析

下图为云智慧服务运营商企业的实在案例,日志为携号转网业务产生的服务器日志。下图能够看到异样产生的工夫是在 2021 年的 8 月 2 日 15:35,这时候运维人员在零碎中间接点击该异样点,就能够看到这个异样点的剖析页面。图片右侧能够看到的日志原始信息,显示信息是团体服务器在申请某一 IP 时产生异样,传统运维中运维人员排障就只能停留在这一步了,然而借助云智慧的智能日志平台,运维人员能够对这些日志进行聚合剖析。右下方的环形图能够十分清晰的看到申请 10.255.95.104 这个 IP 占比达到 99.85%,简直所有异样申请均是此 IP 导致。

  • 案例 3: 某银行基于日志链路的辅助根因定位

该场景为调用链的应用。在某银行,云智慧帮忙企业建设了从前端到后端的调用链路(通过的是 Opentracing 协定)。某日 APP 发放领取满 39 立减 9.9 元的优惠券,因为 APP 呈现卡顿、响应慢导致优惠券无奈应用而引起大量用户投诉电话。云智慧通过调用链路察看问题呈现时间段,上述投诉问题是因为外围零碎响应慢呈现 HTTP500 谬误。

案例 4: 某资管公司基于日志的零碎衰弱度剖析

下图为某资管公司案例。该公司零碎均来自内部洽购,企业运维人员想要对立纳管所有零碎的日志。次要蕴含两方面需要,一方面心愿收到告警时,能够疾速解决问题,升高运维难度,另一方面心愿可能清晰理解零碎的健康状况。基于上述需要,云智慧给出了日志 + 对立告警 + 监控核心零碎墙的计划,对日志中的关键字进行监控告警,通过事后保护的知识库来匹配告警信息的关键字,在收回告警告诉时,给出举荐常识(常识举荐为客户定制性能),以便让对系统信息理解有余的值班人员也能够疾速解决问题。

写在最初

近年来,在 AIOps 畛域疾速倒退的背景下,IT 工具、平台能力、解决方案、AI 场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在 2021 年 8 月公布了 AIOps 社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。

社区先后 开源 了数据可视化编排平台 -FlyFish、运维治理平台 OMP 、云服务治理平台 - 摩尔平台、 Hours 算法等产品。

可视化编排平台 -FlyFish:

我的项目介绍:https://www.cloudwise.ai/flyF…

Github 地址:https://github.com/CloudWise-…

Gitee 地址:https://gitee.com/CloudWise/f…

行业案例:https://www.bilibili.com/vide…

局部大屏案例:

请您通过上方链接理解咱们,增加小助手(xiaoyuerwie)备注:飞鱼。退出开发者交换群,可与业内大咖进行 1V1 交换!

也可通过小助手获取云智慧 AIOps 资讯,理解云智慧 FlyFish 最新进展!

正文完
 0