前言
企业随着业务的倒退以及新 IT 技术的一直引入,利用零碎的 IT 资源规模是越来越大,IT 架构的复杂性也一劳永逸。这种状况下,须要通过多种监控零碎,不同的路径来感知业务零碎活没活,活的好不好,用户体验怎么。常见的监控零碎类型就包含:根底环境监控、网络监控、系统监控、数据库监控、利用监控、用户体验监控等等。
在这种场景下,咱们在之前的文章《如何改善监控问题,试试打造企业对立监控平台体系!》一文中探讨过,就须要一个对立的监控中台来对下治理多个告警源,两头进行告警数据的解决,对上提供可生产的监控数据。
整体架构图如下所示:
这里就会存在一个问题,监控和企业的 CMDB 之间是怎么的关系呢?
CMDB 与监控
咱们的了解有如下两层关系:
- CMDB 须要为监控零碎提供必要的撑持数据,来收敛、立体化、标准化告警信息。
- CMDB 也须要买通到监控零碎的通道,在新的对象退出 CMDB 的时候可能主动将该对象退出监控零碎;同时在配置数据发生变化的时候,可能通过监控零碎收回必要的告警信息。
咱们先开展聊下第一层关系。监控零碎,比方 zabbix,在某个对象的某个监控指标达到阈值时候,会登程告警:XX 对象的 XX 指标告警和详情信息等。并且能够在 zabbix 中配置监控项之间的依赖关系,实现告警的收敛和关联。
然而这里有一个问题,咱们构想一个场景:你是一家大型 2C 公司的 DBA,冬夜凌晨 3 点钟,里面西北风凛冽,忽然手机铃声大作,有告警信息提醒利用零碎 A 数据库节点 01 呈现连贯异样告警。告警信息提醒内容无限,此时的你是否要起来关上电脑做进一步的解决呢?
很纠结,对吧。其实作为管理员,收到这条告警信息的时候,除了须要晓得这个数据库有问题,其实还想晓得更多的信息,比方:这个数据库属于什么利用零碎、位于什么环境、是否是高可用的集群、利用负责人是谁、哪些利用零碎须要依赖这个利用零碎、这个数据库最新是否有配置变更产生等等,以便做出进一步的判断和安顿下一步的操作:比方在大冬天的凌晨,要不要起来关上电脑。那么这个时候,咱们就须要一个零碎可能提供:利用档次拓扑、集群信息、模块信息、资源实例、关联关系等信息,这个零碎就是 CMDB。
两者的集成与交融
有了 CMDB 之后,在告警产生的时候呢,咱们就能够让告警零碎返回 CMDB 中查问跟这一告警对象无关的综合配置信息,以便提供最为精确、丰盛和规范的告警信息。举例来说,上个场景中,如果咱们晓得数据库实例 01 是属于利用零碎 A 的测试环境的,并且有高可用集群,以后实践上是没有用户拜访这个数据库的,管理员又何苦受冻起床开电脑呢?
反过来讲,如果发现这个数据库是零碎 A 的生产环境的数据库,并且因为最近在降级,以后是单点模式,同时还有零碎 B 和 C 须要依赖零碎 A,那就连忙麻溜的起来解决故障,并告诉 B 和 C 启动相应的预案机制以尽可能升高影响。
这里,就须要 CMDB 具备提供数据给监控零碎的能力,须要具备相应的数据查问、读取的接口信息,并且可能不便的集成。
另外一方面,CMDB 也须要被动同步本人的数据到监控零碎中。举个例子,咱们上线了某个零碎的一批新的虚拟机节点,提竣工单,录完 CMDB 配置信息,再手动到监控外面配置一遍吗?显然不是很正当,对吧?这个时候就须要 CMDB 可能被动将新的对象信息推送给监控零碎,监控零碎依照既有监控模板,下发 agent、配置监控协定、启动监控等。
另外,如果 CMDB 通过扫描发现某个主机的理论配置信息与以后 CMDB 库中存储的信息不统一,是不是也应该通过监控零碎告警进去,告诉到管理员进一步解决呢?
所以这里你看,监控零碎与 CMDB 之间是严密关联的。而更要命的是企业外面往往监控零碎不只一个,如果每个监控零碎都要与 CMDB 做一遍集成,非累死不可。这外面就须要有监控中台和对立告警治理的概念,咱们不须要每个监控零碎间接与 CMDB 集成,只须要把所有的监控零碎接入到对立告警核心模块中来,由对立告警模块来与 CMDB 监控对接,共享信息。这样,咱们的每一条告警在收回的时候,都能够根据 CMDB 中的信息,变成标准化、立体化的告警,而不是扁平的告警。这样的告警能力真正凸显价值。
本文由腾讯蓝鲸智云编辑公布,腾讯蓝鲸智云(简称蓝鲸)软件体系是一套基于 PaaS 的技术解决方案,致力于打造行业当先的一站式自动化运维平台。目前曾经推出社区版、企业版,欢送体验。
官网:https://bk.tencent.com/
下载链接:https://bk.tencent.com/download/
社区:https://bk.tencent.com/s-mart/community/question