简介:「智能运维大数据平台」是一款开箱即用的运维监控平台,通过特有的平台性能能够将企业的基础架构、应用程序、日志治理联合在一起,提供对立采集、对立存储、关联剖析、对立监控企业业务保障能力,保障企业业务稳固高效运行,同时利用离线计算、实时计算、机器学习等技术,实现运维数据共享、数据开发和加工能力,让开发人员、经营团队和业务团队协同工作,构建和改良软件应用程序,并帮忙企业理解业务和用户应用状况。
导语
从马车到汽车是为了晋升运输效率,而随着时代的倒退,现在咱们又心愿用主动驾驶把驾驶员从开车这项体力劳动中解放出来,减少运行效率,同时也可缩小交通事故发生率,这也是企业对于智能运维的诉求。
从人工运维到自动化运维是为了缩小人力老本,升高操作危险,进步运维效率,但自动化运维的实质仍然是人与自动化工具相结合的运维模式,仍有局限性。为了继续高空向大规模、高复杂性的零碎提供高质量的运维服务,智能运维(AIOps)应运而生。
本文,袋鼠云将跟大家分享智能运维大数据平台(一款开箱即用的运维监控平台)在 Oracle 数据库运维场景下的具体利用。
数据采集
应用平台第一步是数据接入。要做好 Oracle 的运维,须要哪些数据撑持?依据咱们运维 Oracle 日常的经验总结,以下几类数据是特地重要的:
- 实例和数据库根底信息
包含实例的版本、Patch、启动工夫、实例参数、主机根本配置信息。 - 数据库健康检查
查看数据库是否能失常连贯,读写响应工夫是否失常。 - 实例根底性能数据
包含业务的 QPS、TPS,实例和主机的 CPU 使用率、内存使用率、连接数使用率,SQL 解析状况,数据库的逻辑读、物理读,数据库锁期待情况,以及 RAC 集群间的通信情况。 - Oracle 期待事件
采集 Oracle 外部期待事件的类型、期待次数和耗费工夫。从期待事件能够判断实例运行的整体健康状况,定位实例瓶颈。 - 数据库空间应用信息
包含表空间文件占用空间、表空间应用空间、长期表空间应用状况、UNDO 表空间应用状况。须要实时监控表空间应用状况,防止表空间占满引起故障。 - 数据库 Session 信息
Session 信息记录了实例以后运行的 SQL 状况,记录了以后阻塞 Session 的具体信息,比拟常见的如锁期待。通过 Session 信息,不便疾速定位实例中的阻塞景象。 - 数据库备份状况
在数据库运维畛域,备份重于泰山。每天都须要查看数据库的备份状况,包含备份是否胜利,备份耗时,备份占用空间等。 - DataGuard 运行状况
DataGuard 是 Oracle 高可用最罕用的计划之一。须要实时检测 Oracle DataGuard 的运行状况,包含日志传输是否失常,日志利用提早。 - 日志信息
数据库的告警日志、TNS 监听日志。从日志中能够发现数据库外部运行谬误、异样的客户端连贯信息等。
上述的数据采集,曾经集成在产品中。用户只须要在数据库性能采集模块配置接入信息,就会主动采集这些数据。
数据接入之后,产品上会从几个方面来应用这些数据:
- 仪表盘
零碎默认带了 Oracle 场景的通用仪表盘。用户也能够依据本人的应用习惯,通过 SPL 的形式配置自定义仪表盘。 - 监控告警
零碎内置常见的监控告警。也能够通过 SPL 的形式配置自定义告警项。数据只有采集到了,就能够用于配置告警。 - 智能巡检
零碎反对配置自定义巡检规定,按用户定义的工夫距离,定期进行数据库巡检。 - 日志剖析
基于零碎采集的 Oracle 告警日志、TNS 监听日志,除了应用根本的日志搜寻、监控告警,也能够配置一些日志剖析的场景。
本文重点介绍仪表盘的应用。
Oracle 仪表盘
仪表盘是数据可视化展示的根本模式,便于用户从直观上理解零碎的整体运行状况。
3.1 Oracle 实例总览
Oracle 总览 Dashboard 次要包含这几个局部:
实例统计,包含实例总数,异样实例数,数据库数量,实例版本散布。通过这几个指标,能对接入零碎中的实例有一个大体的理解。
TOP 实例,包含忙碌率 TOP 实例,沉闷会话数 TOP 实例。
通过这 2 个指标定位忙碌的实例。
- 异样实例列表
这个表格展现所有无奈连贯的实例,包含连贯报错信息。 -
TOP 性能趋势图
选取数据库的外围指标,对整体实例的运行状况有一个整体的理解。选取的指标:- DB Time 使用率:体现实例整体忙碌水平
- DB CPU 使用率:CPU 资源的使用率。
- 流动会话数:是否后 SQL 积压
- 会话数使用率:Session 资源使用率
- QPS/TPS:展示业务申请吞吐量
3.2 Oracle 实例详情
该仪表盘用于展示单个实例的运行具体情况。仪表盘次要分如下几个局部。
- 实例信息
显示实例的根本信息,包含主机状况,实例运行状态,实例的版本,数据库的角色,读写模式等 -
实例运行状况
展示实例的外围运行指标。- 阻塞会话数/沉闷会话数
- DB Time 使用率
- 实例以后会话数使用率
- CPU 使用率趋势
- 实例会话数趋势
- SQL 执行量/SQL 解析量
- 实例逻辑读/物理读
- 实例网络流量
- 实例 IO 申请次数
3.3 Oracle 实例空间总览
该仪表盘展示实例的空间应用状况。次要包含几个局部:
- 实例总空间散布
展示所有实例的空间散布状况。 - 实例应用空间 TOP
展示空间使用率 TOP 实例的空间变化趋势。 - 实例表空间相干信息
展示所选实例的表空间数量、实例总空间以及空间同比和环比、UNDO 空间和 TEMP 空间、闪回区空间应用状况。
- 实例表空间使用率和占用空间排名。
- 实例表空间使用率 TOP 趋势
- 实例表空间列表
展示实例所有表空间的空间应用状况。
3.4 Oracle 阻塞会话
该仪表盘展示实例中阻塞会话的状况,仪表盘次要有几个局部组成。
- TOP 阻塞会话趋势图
展示零碎中所有实例的阻塞会话数变化趋势。如有阻塞会话,须要特地关注。 - 实例等等事件分布图
展示所选实例的阻塞会话的期待事件散布状况。 - 阻塞源剖析
展示哪些 Session 引起了其它 Session 阻塞 - 期待事件趋势
实例期待事件趋势
-
阻塞会话列表
以表格的模式展示阻塞会话的详细信息,包含:- Session ID
- 会回登陆机会
- 会回以后状态
- 引起阻塞的会话 ID
- 阻塞对象 ID
- 期待事件
- 等待时间
- 登陆用户信息,包含用户名,登陆终端,应用程序名称。
- 执行的 SQL 信息,包含 SQL ID,SQL 语句。
通过下面这些仪表盘,既能从总体上把握所有实例的根本运行状况,也能在单个实例上进行深刻的剖析,细到具体执行的 SQL。能从总体上把握所有数据库的空间应用趋势,也能看到单个表空间的数据应用状况。
总结
下面的案例,是智能运维大数据产品在 Oracle 数据库运维场景下的一个具体利用。
其实整个产品,齐全不局限于数据库运维这个场景。
产品在数据采集和数据利用上,具备弱小的扩大能力。
- 主动巡检
所有的指标,都能够配置成巡检项,零碎反对自定义调度周期(小时粒度),定期巡检零碎的运行状况,以钉钉音讯或邮件的形式发送进去。 -
全链路的监控
下面只介绍了数据库的场景,其实零碎反对整个链路上的数据采集、剖析。目前零碎反对的采集包含:- 物理设施信息采集(物理机 CPU 风扇、磁盘、温度、电源状态)
- 网络设备(交换机、防火墙、无线 AP)
- 阿里云云产品数据采集,反对几十种云产品的数据集成。
- 通用软件(Docker,Tomcat,消息中间件)
- WEB 拜访日志、防火墙日志、主机日志
- 利用日志数据
- APM 利用调用联路数据采集
- 智能算法
主动基线学习,无需配置告警,就能主动监测零碎运行异样情况。
「智能运维大数据平台」
「智能运维大数据平台」是一款开箱即用的运维监控平台,通过特有的平台性能能够将企业的基础架构、应用程序、日志治理联合在一起,提供对立采集、对立存储、关联剖析、对立监控企业业务保障能力,保障企业业务稳固高效运行,同时利用离线计算、实时计算、机器学习等技术,实现运维数据共享、数据开发和加工能力,让开发人员、经营团队和业务团队协同工作,构建和改良软件应用程序,并帮忙企业理解业务和用户应用状况。被各大企业用于实现数字转型和云迁徙,推动开发,经营和业务团队之间的合作,放慢应用程序的上线工夫,缩短解决问题的工夫,理解用户行为和跟踪要害业务指标。