关于监控:多维度监控智能监控的数据基础

2次阅读

共计 2184 个字符,预计需要花费 6 分钟才能阅读完成。

前言

以组件监控为例,介绍监控产品的路线图

运维监控零碎的作用显而易见,贯通运维的 5 项职能:公布、变更、故障解决、体验优化、日常需要,保障上述职能的服务可用性。

从大数据的个性 (数据量大、 多维度 、齐备性)[1] 来看,运维监控零碎的建设能够分为 2 个阶段:多维度监控 (积攒数据)和 智能监控(应用数据),通过多维度监控实现出了故障能看、能查,智能监控提前发现危险、找出故障本源。


组件监控是多维度监控体系的第 3 层,次要对 常见开源组件、中间件的性能指标做监控,比方 Nginx 的性能指标有 Active Connections(以后客户端连接数)、Waiting(期待中的连接数)等,Oracle 的性能指标有 SQL 硬解析率、表空间使用率等。

通过采集组件的要害性能指标,实时获悉组件的运行状况,提前发现问题,而不是仅监控过程或端口是否存活(过程或端口都失常时,不代表能够提供服务)。

本文以建设组件监控为例,从 多维度监控的组成、监控产品要解决的 3 个问题、组件监控的技术选型、云端下发采集器配置、社区的凋谢能力 来介绍监控产品设计路线图。


1. 多维度监控的组成

从用户拜访链路的角度,将监控指标的维度分为 用户层、应用层、组件层、主机层、网络层

用户层,通过服务拨测等形式模仿用户的拜访行为,不必等用户投诉上门;应用层,通过调用链等形式追踪利用的调用状态;其余三层较为容易了解就不做介绍了。

通过这 5 层 + 其余要害指标(如日志、业务 KPI 曲线等),构筑监控零碎的多维度监控能力,为第二阶段的智能监控提供数据撑持


2. 监控产品要解决的 3 个问题

除了获取要害的性能指标外,监控产品还须要解决 3 个问题,退可做故障关联剖析,进可建设运维的智能化场景

2.1 对 IT 零碎的自主掌控能力

因为 对 IT 零碎自主掌控能力的不足,” 正在更换 IT 零碎 ” 和 “ 走向更换 IT 零碎的路上,是局部中、大型企业在 ” 互联网 +” 浪潮下踊跃拥抱互联网的现状。

鉴于这种状况,局部行业已明确已表明 2,必须加大对 IT 零碎自主掌控的能力。

于是,产品设计时,需思考能让监控零碎的使用者能够参加到监控零碎的开发或局部开发.

2.2 回绝再造一个烟囱

竖井式的构造预计是大部分企业构建 IT 零碎的现状,每个零碎间毫无关联,每买一套零碎等于多构建一个信息孤岛,附加值极低。

如果想实现退可做故障关联剖析,进可建设运维的智能化场景,可在基于 PaaS 的运维平台上建设[4],通过 iPaaS 买通企业外部的各个 IT 经营零碎。

2.3 组件繁多,齐全自研不太事实

行业中利用的组件品种繁多,从数据库、存储、HTTP 服务到音讯队列等共 100+,齐全自研必定不事实。

好的方法是自研外围、行业撑持不好的组件,剩下的借助行业多年积攒的能力,少造一点轮子,为社会省点电。


3. 组件监控的技术选型

在 2.3 中提到自研 + 第 3 方开源采集器的思路,这里以开源采集器 Prometheus Exporter 为例。

Prometheus Exporter 的社区很沉闷[5],反对 100+ 常见开源组件,局部大厂甚至专门编写对应的 Prometheus Exporter,比方 Oracle 编写的 Weblogic Exporter,IBM 编写的 IBM MQ exporter,k8s、etcd 甚至内置基于 Exporter 标准的 metrics。

依照这种计划,只须要做一个 协定转换 即可把指标入库


4. 体验优化:云端下发采集器配置

解决根底需要后,须要马上来优化下体验。

把采集器或配置下发至被监控的主机上,个别须要手动部署或应用第三方的工具(如 Ansible)。

切换多个零碎来实现一件事件,体验十分不好。

有一个优化计划,通过 iPaaS 应用管控平台层的文件散发和命令执行能力[4],让用户在一个页面实现配置流程,晋升效率。


5. 社区的凋谢能力

在满足根底性能和优化产品体验后,接下来思考 产品的可扩展性

先解决用户一键导入自研组件的便利性,接下来提供一个交流平台让社区用户能够自在分享。

在取得社区开源能力的同时,也须要反哺社区


6. 结尾

属于根底监控范畴的多维度监控绝对智能监控来说,不太光鲜,但 它是智能监控的数据根底,没有多维度监控提供的数据,无奈落地故障预测、故障根因剖析等智能监控场景。

传统企业或互联网企业在拥抱互联网改革时,需沉着思考,依照路线图逐渐实现。


7. 参考文献

[1] 吴军. 智能时代:大数据与智能反动从新定义将来 [M]. 北京:中信出版团体,2016-8.

[2] 中国人民银行. 中国金融业信息技术“十三五”倒退布局 [EB/OL]. 2017.06

[3] 中国银监会. 中国银行业信息科技“十三五”倒退布局监管领导意见(征求意见稿)[EB/OL]. 2016.07.15

[4] 中国通信标准化协会. 云计算运维平台参考框架及技术要求 [EB/OL]. 2017.11.16

[5] Prometheus. EXPORTERS AND INTEGRATIONS [EB/OL].


蓝鲸智云

本文由腾讯蓝鲸智云编辑公布,腾讯蓝鲸智云(简称蓝鲸)软件体系是一套基于 PaaS 的技术解决方案,致力于打造行业当先的一站式自动化运维平台。目前曾经推出社区版、企业版,欢送体验。

  • 官网:https://bk.tencent.com/
  • 下载链接:https://bk.tencent.com/download/
  • 社区:https://bk.tencent.com/s-mart/community/question
正文完
 0