乐趣区

关于程序员:GaussDBDWS数据库智能运维系统页面与指标映射关系

前言
数据库智能运维的外围的性能是运维,数据库运维是零碎的本职工作必须做好,而智能则次要体现在“易用性”上。GaussDB(DWS)数据库智能运维零碎将通过一系列伎俩,优化数据库的运维效率和用户体验。包含但不仅限于,监控数据可视化,根因剖析智能化以及运维过程自动化。通过数据库运维逐渐的智能化革新,进步数据库运维工具的易用性,从而节俭运维人员在运维过程中的工夫耗费。

本文将从运维数据可视化和进步运维工具的易用性角度来尝试剖析如何构建 GaussDB(DWS)数据库智能运维零碎的页面。

数据库智能运维零碎页面的逻辑划分
通过剖析数据库智能运维零碎的用户角色,咱们发现对于数据库系统存在三种用户角色,利用开发,SRE 与 DBA。他们关注数据库运维的不同侧面,依据用户角色所处的地位不同,咱们又能够把他们辨别为前台用户和后盾用户,本文将重点探讨 SRE 和 DBA 角色相干的后盾用户的应用需要及页面。SRE 和 DBA 两个角色同属于后盾运维角色而又有所区别,一个关注于数据库故障发现,一个专一于数据库故障根因定位。然而,在现网场景中,为了节俭人力老本,SRE 角色和 DBA 角色往往是同一个人,他须要整体关注数据库的方方面面。因而,咱们在设计页面时顺便将页面形象为主题页面和工具页面两种类型,从而兼顾了这两种角色在发现问题,定位问题过程中,思维的连续性。

这里的主题页面与工具页面的定义如下:

主题页面

承载某个监控主题(集群概览,节点概览,实例概览,查问,会话,事务,等等)
负责围绕监控主题组织数据展现数据
帮忙用户疾速认知该主题的零碎状态和定位问题根因
工具页面

帮忙用户简化某个场景的问题发现和根因定位(比方历史曲线对工具)
无固定页面入口,多以弹窗的模式呈现
用完即销毁,工具式取用,不存储任何长久化数据
咱们将尝试以主题页面为骨架,以工具页面为血肉,逐渐把用户的运维场景和需要以工具页面的模式固化下来,丰盛 GaussDB(DWS)数据库智能运维零碎目前的监控运维能力。将来能够进一步将其中的一些成熟工具或者场景自动化,逐渐实现云上数据库全自动化运维。

数据库智能运维状态监控页面的组织逻辑
之前,简略介绍了 GaussDB(DWS)数据库智能运维零碎的工具化设计思维,上面咱们将开展来看看每一个工具的具体设计方案。GaussDB(DWS)数据库属于 MPP DB 分布式数据库,这种集群结构复杂,档次维度多,物理维度和逻辑维度混淆,比拟难以全面展示集群的状态。因而,咱们设计了如下图所示模式的页面逻辑关系来全面展现数据库集群的运行状态。

状态监控工具页面组织逻辑

咱们将要设计一个集群概览页面,该页面中将展现如下 4 个品种的集群信息:

集群资源:展现集群整体资源的实时和历史耗费信息。(集群资源包含:CPU,内存,磁盘,磁盘 I /O,网络 I /O)
集群负载:展现数据库集群的业务负载状况,包含,并发连接数,并发查问数,慢 SQL,工作负载队列等聚合信息。反对按数据库分类,点击数据库名称能够下钻到下一层数据库概览页面展现更具体的信息。
节点列表:展现集群的物理拓扑构造,将提供两种模式的展现形式(列表,拓扑图),每一个节点名称点击后能够下钻,下钻页面为节点概览页面,该页面能够展现节点的更多信息。
实例列表:展现集群的逻辑拓扑构造,将提供两模式的展现形式(列表,拓扑图),每一个实例点击后能够下钻,下钻页面为实例概览页面,该页面将展现以后实例的详细信息。
报表:展现以后集群一天之内重点监控指标的统计值(通常为最大值和平均值)也能够展现明天集群重点指标与昨天相比的变化率曲线。

根因剖析工具页面组织逻辑

监控页面
集群状态:在“集群状态”一栏,您能够浏览以后集群的状态以及可用资源数量,其中包含“节点数量”、“CN 数量”、“数据库数量”。

资源耗费:在“资源耗费”一栏,您能够浏览以后集群实时的资源耗费状况,包含“CPU 使用率(%)”、“内存使用率(%)”、“磁盘使用率(%)”、“磁盘 I /O(KB/s)”。

TOP SQL:在“TOP SQL”一栏,您能够查问到以后集群中耗时最长的以及下盘量最大的 SQL 语句。

工作负载指标:

主机监控:

性能监控:

会话监控:

查问监控:

实例监控:

负载监控:

本文是介绍云上的数据库监控运维体系设计的外围概念的三篇文章之三,尝试从概念和逻辑上推导了基于用户角色的数据库智能监控零碎的可能利用场景。有了这个根本框架,则咱们后续所须要做的工作和工具都变得清晰可见。愿咱们的期待早日成为显示,让云端的数据库运维工作变得更轻松与智能。

退出移动版