运维自动化
关于运维自动化:新尝试我用-Serverless-部署了一个更稳定的游戏后端
异星工厂(Factorio)是我在 Steam 上游戏工夫最长的游戏,这是一个无关设计自动化流水线、察看流水线运行并一直地进行改良和扩容的游戏,在这样一个沙盒里能够施展你的创造力来建造工厂、解决工厂内的物流需要,一直超过本人,The Factory Must Grow! 异星工厂也反对多人游戏,和敌人们一起联机建工厂就更加乏味了,但因为家用网络的多层 NAT,想要和敌人们在互联网上相互直连是一个比拟麻烦也很不稳固的事件。刚好前一阵云引擎增加了 托管游戏后端 的能力,能够部署基于 UDP 的游戏(或其余类型的服务),于是我就开始尝试在云引擎上运行一个连接起来更稳固的服务器和大家一起玩耍。异星工厂的 多人模式 是一个十分典型的 Lockstep 架构(步进锁定,有时也称为帧同步),所有玩家连贯到房主(可能是一个玩家也可能是一个服务器),通过 UDP 向房主发送本人的动作,房主会收集每个 tick(1/60 秒)中玩家的动作来确认先后顺序,而后播送给其余玩家,最初实现所有玩家的游戏状态齐全同步的成果。 部署到云引擎因为云引擎提供的是规范的 Linux 运行环境,并不限度运行在其中的过程应用什么技术栈,因而很容易将既有的游戏后端部署下来,云引擎提供了 leanengine.yaml 来自定义构建过程,所以咱们只须要几行脚本就能够从异星工厂的官网下载到游戏的服务器版本: install: - curl -Lo factorio.tar.xz https://www.factorio.com/get-download/1.1.61/headless/linux64 - tar --strip-components 1 -xf factorio.tar.xz - rm factorio.tar.xz - use: defaultextraPorts: - name: factorio protocol: udp containerPort: 34197云引擎反对通过 Git 或命令行工具等多种形式部署,这里不再开展介绍,详见 疾速开始部署游戏后端 的文档页面。 leanengine.yaml 中的 extraPorts 局部用于定义游戏服务器监听的端口,在这里是 UDP 34197 端口,云引擎会将其映射至一个公网端口上。 因为云引擎被设计用来反对可横向扩大的游戏后端,所以游戏后端的每个实例都会被调配一个独自的公网地址和端口供客户端连贯(只管异星工厂只能单实例运行),咱们须要通过一个 HTTP API 来获取公网连贯地址(相干文档): $ curl -H 'X-LC-Id: SJjoXHWuhewHKV4Ojw' \ 'https://shared.cloud.tds1.tapapis.cn/1.1/engine/gateway/route?groupName=factorio&prod=1'[ { "name": "factorio", "protocol": "udp", "publicPort": 10280, "publicIp": "106.75.48.157" }]而后就能够在游戏中连贯了: ...
关于运维自动化:Terraform-系列什么是-IaC
系列文章 Terraform 系列文章 前言聊到 Terraform, 必然绕不开 IaC 这个概念?那么,什么是 IaC? 基本概念基础架构即代码 (Infrastructure as Code, IaC) 是指通过代码而不是手动流程/控制台点击来治理和配置基础架构。 这里有 2 个关键词: InfrastructureCodeInfrastructure 是被治理对象,在这里,次要是指私有云(还有公有云、混合云等).Code 是治理形式,即像治理代码一样治理私有云资源。那么治理代码最重要的局部: 版本治理是绕不开的。 应用 IaC,创立的配置文件蕴含了基础设施的 spec,这使得编辑和散发配置变得更加容易。IaC 还确保每次都提供雷同的环境、雷同的资源、雷同的配置。通过编辑和记录配置的 spec,IaC 有助于防止未记录的、长期的配置更改(当然,前提是所有人都应用 IaC,而不是还会有人在控制台点击批改导致配置漂移)。 版本控制是 IaC 的重要组成部分,配置文件应该像任何其他软件源代码文件一样受到源代码管制。另外,随着私有云的倒退,私有云的标准化的 API 也使得将基础架构组件模块化 (Terraform 里叫做 modules) 成为可能,使用者能够像搭积木一样组合这些根底的组件。比方:在 AWS 上建个动态博客,就能够组合以下组件: Route53CloudFrontS3IaC 的两种实现形式有两种实现 IaC 的办法:申明式和命令式。 申明式办法定义了零碎的现实状态,包含须要的资源以及它们应该具备的任何属性,IaC 工具将主动配置它。 Terraform 就是基于 IaC 申明式的理念。在 Terraform 风行之前,另一个将申明式发扬光大的当然是:Kubernetes! 申明式办法还保留零碎对象以后状态的列表,这使得拆除基础架构更易于治理。 相同,命令式办法定义了实现所需配置所需的特定命令,而后须要以正确的程序执行这些命令。 典型的就是 Ansible. IaC 工具通常可能在两种办法中运行,但往往更喜爱一种办法而不是另一种办法。 如 Terraform, 它更喜爱申明式的办法,然而它的 Provider、Modules、函数中依然残留不少命令式的办法, 如:local-exec IaC 的益处IaC(特地是申明式的)是随着私有云而倒退起来的。 置备基础设施从来是一个耗时且老本昂扬的手动过程。当初基础设施治理曾经从数据中心的物理硬件、虚拟化转移到容器和云计算。 借助云计算,基础设施组件的数量一直减少,每天都有更多的应用程序公布到生产环境中,并且基础设施须要可能频繁地启动、扩大和敞开。如果没有适当的 IaC 实际,治理当今基础设施的规模会变得越来越艰难。 ...
关于运维自动化:WGCLOUD的配置使用-导入sql文件
WGCLOUD的数据库初始化sql文件,就在安装包里,解压后就能够看到,如下图 三个sql文件别离为MySQL,PostgreSQL,Oracle的数据库初始化sql脚本 我个别用MySQL数据库,所以就导入wgcloud-MySQL.sql文件,导入有多种形式,个别用数据库客户端工具导入就行,如果是mysql命令导入的话,如下 [root@vultr bin]# mysql -uroot -pEnter password:Welcome to the MySQL monitor. Commands end with ; or \g.Your MySQL connection id is 4Server version: 5.7.24 MySQL Community Server (GPL)Copyright (c) 2000, 2018, Oracle and/or its affiliates. All rights reserved.Oracle is a registered trademark of Oracle Corporation and/or itsaffiliates. Other names may be trademarks of their respectiveowners.Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.mysql> CREATE DATABASE wgcloud DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;Query OK, 1 row affected (0.01 sec)mysql> use wgcloud;Database changedmysql> source /wgcloudTest/wgcloud-MySQL_v3.3.7.sql;Query OK, 0 rows affected (0.01 sec)Query OK, 0 rows affected, 1 warning (0.00 sec)mysql>这样,WGCLOUD的数据库就创立实现了,就能够失常运行程序了 ...
关于运维自动化:转载运维自动化概述
看到一篇文章,切实写得很好,所以筹备全篇转载以备用。运维与自动化概述 一:运维工作内容分类: 1).机房运维(负责服务器高低架、IP配置与划分、服务器打标签、机房定期巡检、服务器故障报修、服务器硬件监控)2).基础设施运维(零碎装置及初始化、网络保护) 3).监控运维(7×24运维值班、简略故障解决、告诉相干业务负责人) 4).根底服务运维(蕴含运维开发)(外部DNS治理、负载平衡配置、系统监控报警、硬件资产治理平台、监控平台搭建、代码公布平台) 5).利用运维(精通公司业务、各种服务零碎部署、业务零碎部署、版本治理、灰度公布、利用监控) 6).零碎运维(架构层面的分布式缓存、分布式文件系统、日志收集与剖析、业务环境规划(测试、开发、生产)、业务架构设计与布局施行、服务器零碎性能调优) 7).平安运维(整体的平安计划、标准、破绽监测、DDOS防护、病毒防护及解决、要害程序包更新、破绽扫描与修补等) 二:运维的倒退线路: 1).搭建服务–能够装置服务并运行,因为是加入工作没有相干服务装置和部署教训,所以此阶段的次要目标是能够把服务装置并能够运行起来。 2).用好服务–适当对服务优化,工作一两年后能够依据业务的理论需要对服务做适当的优化,比方能够对nginx做调优和监控。 3).自动化–自动化服务的部署或监控,工作三到五年后能够联合自动化部署工具或编写脚本实现业务的自动化部署。 4).产品设计(如何设计一个监控零碎),能够依据须要设计和部署大型业务零碎,当初很多公司都在用云服务,比方阿里云、Amazon的AWS,微软的Azure,以及腾讯云、青云等等各种云计算,云计算的外围竞争力是运维,其始终离不开运维对业务的技术撑持,比方搭建云服务时的服务器选型、网络布局、物理机系统部署与优化、监控零碎的装置配置等等。 三:自动化运维之运维标准化 1.物理设施层面: 1).服务器标签化(IP地址/与交换机接口/以后服务/)、设施负责人(治理人)、设施洽购详情(保修日期)、设施摆放规范(服务器之间距离1U通风)。2).网络划分、近程控制卡、网卡端口。3).服务器厂商机型号同一、硬盘大小转速同一、内存统型号大小频率一、服务器课依据业务分类,有的要求IO高(存储服务器),有的要求内存大(缓存服务器),有的要求CPU块(代理服务器),有 的对CPU和IO要求CPU和内存都高(数据库服务器)。 4).资产命名标准、编号标准、类型标准。 5).监控规范(对立阈值和监控类型)。 2.操作系统层面: 1).操作系统版本(不要混合应用linux和windows,linux发行版尽量对立)2).零碎初始化(IP、网关、掩码、DNS、NTP、内核参数调优、rsyslog、主机名标准、工作打算) 3).根底Agent装备(Zabbix Agent、Logstash Agent、Saltstack minion) 4).系统监控规范(CPU使用率、内存使用率、硬盘使用率、IO延时、网络情况、过程数与僵尸过程、运行工夫等) 3.应用服务层面:1).Web服务器选型(LNMP/LAMP/Tomcat/MySQL) 2).过程启动用户身份及目录、端口监听标准、日志收集标准(拜访日志、谬误日志、运行日志、系统日志)3).配置管理(配置文件标准、脚本标准)4).架构标准(Nginx+Keepalived、LVS+Keepalived、Haproxy+Keepalived、阿里云SLB、Ucloud ULB等等)5).部署标准(地位、包命名等) 4.运维操作层面: 1).机房巡检流程(巡检周期、巡检内容、硬件报修流程)2).业务部署流程(先在开发环境和测试环境测试、最初后在生产环境部署、如呈现问题立刻回滚、呈现问题先回滚再修复)3).故障解决流程(紧急故障解决、故障降级流程及工夫、重大故障治理、责任调配)4).工作日志规范(如何编写工作日志周报、月报)5).业务上线流程(1.我的项目发起人 2.零碎装置部署优化 3.部署Nginx及相干拜访 4.备案及解析域名 5.上线测试 6.对服务和主机加监控 7.数据定期备份)6).业务下线流程(谁发动,下线工夫,服务器和数据如何解决。)7).运维平安标准(明码复杂度、更改周期、VPN应用标准、服务登录标准、命令应用标准、备份还原标准)运维标准化实现业务规范化,最终达到文档化的目标,即所有和业务相干的都有文档可查,包含技术文档、降级文档、故障文档等,也不会导致因为某员工到职而导致业务中断。 四:自动化运维之工具化:通过相干运维工具,代替须要人工须要屡次执行繁多的工作内容,如: 1).Shell或Python脚本(简略性能配置或批改的脚本,如主动批改配置文件、流程执行的脚本,如须要先批改完配置文件能力重启服务、查看性,如查看配置文件是否批改,日志是否生成、报表性的脚本,如生成自定义数据的文本文档并主动发送到邮箱)2).开源监控工具:Zabbix ELKStack SaltStack Cobbler 3).开源部署工具:cobbler、walle、jenkins等4).开源跳板工具:jumperserver等 运维工具化带来的益处:1).促成标准化的施行2).将反复的操作,简单化3).将屡次操作,流程化4).缩小人为操作的低效和升高故障率 运维工具化遇到的问题:1).你至多要ssh到服务器执行。可能犯错2).多个脚本有执行程序的时候,可能犯错。3).权限不好治理,日志没法统计。4).无奈防止手工操作。 例子:比方某天某台Web服务器磁盘可能产生问题,要在访问量较低的凌晨要将服务器的数据导出来放在其余服务器代替,那么须要思考的是:1).是否有由其余服务器连贯此服务器取数据或此服务器是否到其余服务器取数据。2).此服务器是否有定时工作打算到其余服务器执行或有其余服务器连贯到此服务器执行。3).工作打算索要波及的内容,以及停服务是否影响其余服务器。4).后续的代码更新问题。 五:自动化运维之web化公司基于php等语言本人开发的能够在web通过鼠标点击就能实现代码公布和回滚等性能的web界面的操作平台。1).招聘开发运维做成Web界面。2).web界面的登录权限管制。 3).操作日志记录。4).一键部署所有指定服务器,弱化操作流程。5).不必ssh到每台后端服务器,缩小人为误操作的故障率。例如:1).DNS Web治理 bind-DLZ 2).负载平衡Web治理3).Job治理平台4).监控平台 Zabbix5).操作系统装置平台 六:自动化运维之服务化(API化) 1).DNS Web治理 ———->bind-DLZ dns-api(bind)2).负载平衡Web治理——>slb-api(haproxy、LVS、Nginx)3).Job治理平台————->job-api(php自主开发) 4).监控平台 Zabbix ——->zabbix-api(zabbix、nagios、cacti)5).操作系统装置平台——>cobbler-api(cobbler、kickstack)6).部署平台——————>deploy-api(装置服务软件nginx+php)7).配置管理平台————>saltstack-api(saltstack、ansible)8).自动化测试平台———>test-api(自主开发测试) 通过调用相干api实现服务器从零碎装置到上线齐全自动化:1).调用cobbler-api主动装置指定的操作系统2).调用saltstack-api进行零碎初始化和配置3).调用dns-api 解析域名和主机名4).调用zabbix-api 讲该新上线机器加上监控5).再次调用saltstack-api 部署拜访软件(装置Nginx+PHP,Tomcat,Mysql)6).调用deploy-api 将以后最新稳固版本的代码部署到服务器上的指定目录。7).调用test-api 测试以后服务运行非常失常,如有异样,则执行报警等操作8).调用slb-api 将该节点退出集群 七:自动化运维之智能化:能依据肯定的策略或条件,智能化的自动化扩容、缩容、(服务降级、故障自修复),包含主动公布代码加进负载集群等一些列操作触发:指的是触发当时定义的一个阈值,可能是CPU使用率80%,也可能是并发超过100000,也可能是web拜访响应工夫超过5s,这是一个触发机制,而后要定义要做的决策,如:1).当某个集群的访问量超过最大撑持量,比方100001.1 CPU使用率达到xx% 内存使用率达到xx% 响应工夫> x秒2).此状态曾经继续5分钟。3).判断不是攻打4).扩张资源池有可用资源4.1).以后网络带宽使用率4.2).如果是私有云(钱够不够)5).以后后端服务撑持量是否超过阈值 如果超过应该后端先扩容6).数据库是否能够撑持以后并发7).以后自动化扩大队列,是否有正在扩容的节点8).其它业务相干的。 ...
关于运维自动化:行业方案|医疗行业智能运维解决方案介绍
行业背景倒退要求近年来,在若干政策指引下,医院信息化管理系统、电子病历零碎、区域医疗信息互联互通等重点工作逐渐失去欠缺。国家卫健委开始着手细化医院的评审和评级品种,明确了验收细则和工夫点,考核日趋严格。例如,卫健委要求到2022年,全国二级和三级公立医院电子病历利用程度均匀级别别离达到3级和4级,智慧服务力争达到2级和3级,智慧治理争达到1级和2级,可能撑持线上线下一体化的医疗服务新模式。实现“以评带建,以评促改”。 因为,“互联互通+智慧医院+精细化治理=医院各类零碎的融合度、复杂度将继续加大”,评审的趋严间接给信息中心的IT运维带来微小压力及艰难。 平安要求2019年12月1日起,网络安全等级爱护2.0相干规范正式施行,实现对新技术、新利用平安爱护对象和平安爱护畛域的全笼罩,因为目前医院纷纷上云,虚拟化的平安防护尤为重要,因而等保2.0尤其强调网络安全防护,强化“一个核心,三重防护”的平安爱护体系。 等保要求的晋升,给医院信息系统的平安工作迎来新挑战。因为随着信息技术的一直倒退,特地是云计算、物联网等新技术的不断涌现和利用,在带给医疗行业疾速、便捷的同时,也让边界防护变得含糊,黑客攻击、勒索软件、蠕虫病毒以及系统漏洞导致的数据失落与业务进展已成为各级医院亟待解决的难题。如何实现全方位主动防御、动静进攻、整体防控和精准防护是医院的挑战,“十四五”期间,5G 等新型网络基础设施也面临着更高平安要求。 因而,医院信息中心,岂但要承接越来越多的零碎运维压力,还要依照等保要求,晋升平安防护能力,未然分身乏术。 运维现状目前,为响应国家政策,简化看病就医流程,买通医疗大数据,增强业务利用与医院治理,医院一整套业务流程囊括了预约挂号零碎、电子病历零碎、测验化验零碎、影像平台零碎、财务信息系统等一系列相干零碎,实现医院次要患诊数据的互联互通。但因为各类零碎须要同时对接患者、医生、医院各科室等多个端口,作为医院运行的神经中枢。对各零碎的稳定性要求极高,一旦某套零碎呈现故障,会整体业务流程造成影响。 因而,就目前医院零碎笼罩的业务量,互通紧密度,都导致信息中心有大量且琐碎的运维工作,而信息化最好的三甲医院最多也就10人左右的运维团队,80%的三甲医院只有3-5人的运维人员,二级医院只有2-3人,剩下的就更少。面对如此庞杂的零碎运维工作,疲于奔命,成果还不好。 需要形容三级医院 集中管理需要:智慧医院建设推动,大部分三甲医院曾经实现HIS、LIS、PACS、EMR、体检零碎、对立领取等外围业务零碎的建设,且已配套肯定规模的网络、服务器、动环等零碎。各厂商独立监控、数据割裂,不足对立监管工具。问题发现需要:新业务零碎上线检测、现有零碎问题排查都是信息中心预先发现问题,且仰赖人工摸排、摸排工夫长、问题解决效率低下,运维管理工作功效不显著。根因定位需要:少部分三甲医院曾经不满足于只是发现问题,他们须要排查到问题的本源,进步问题处理的精准度,因而对异样检测、日志审计能力要求较高。二级医院 集中管理需要:随着二级医院业务扩大和信息化建设的继续深刻,尤其疫情促使二级医院提速业务线上化过程,上新利用和现有系统优化需要较多,IT零碎运行的稳定性、可靠性问题较多。加之只有2-3人的运维人员,无论技术能力+数量都无奈满足当下运维工作须要。评审达标需要:为能升三级医院,须要达到相干平安评审规范,运维监控是达标要求的一部分。医院运维平安 目前,因为等保2.0的要求晋升,根据《全国医院信息化建设规范与标准(试行)》、《卫生行业信息安全等级爱护工作的领导意见》等规定,须要医院实现网络安全体系中堡垒机和日志审计、网络管理控制系统的建设,大多数医院医疗网络目前无网络安全体系中堡垒机和日志审计、网络管理控制系统安全设备。 要害指标运维平安治理 可能提供集账号治理、身份认证、单点登录、资源受权、访问控制和操作审计为一体的运维平安审计服务;可能对服务器、网络设备、安全设备、数据库等资产的运维操作过程进行无效的运维操作审计,使运维审计由事件审计晋升为操作内容审;通过内控治理平台的事先预防、事中管制和预先审计来全面解决运维平安问题。日志审计 可能实时不间断地采集汇聚医院网络中不同厂商不同品种的安全设备、网络设备、主机、操作系统、生产业务零碎的日志信息,帮助技术人员进行平安剖析及合规审计,及时、无效地发现异常安全事件及审计违规;可能提供泛滥基于日志剖析的弱小性能,如平安日志的集中采集、剖析开掘、合规审计、实时监控及平安告警等,为安全事件的剖析、溯源提供无力撑持;可能同时满足医院理论运维剖析需要及审计合规需要,是医院日常信息安全工作的重要撑持平台。网络管理管制 可能面向医院园区网络的新一代网络管理控制系统,是集治理、管制和剖析性能于一体的网络自动化与智能化平台;可能提供园区网络的全生命周期自动化、基于大数据和 AI 的故障智能闭环能力,帮忙医院升高运维老本,减速医院数字化转型,让医院网络管理更主动、网络运维更智能。痛点剖析定位问题难: 局部医院带有华为网络监控零碎(监控医院网络、交换机状况),但对物理服务器的硬件信息、操作系统、服务中间件、挪动端利用和数据库等不足无效对立管理手段,难以被动发现问题与故障。无奈满足现有IT设施的运维监控要求。问题发现滞后: 门诊楼、住院楼等用户通过专网拜访各类业务零碎,之间的网络链路状况、零碎拜访可用性、响应工夫等不足无效伎俩进行实时感知,往往接管到投诉后才进行排查,耗时耗力,还成果不被认可。须要借助工具晋升异样检测的准确率。运维负荷高: 只有3-5人配置,日常运维通过人工形式进行机房巡检,通过观察设施指示灯判断故障,对服务器、网络等基础设施层以及利用业务层无巡检。疲于奔命,无奈满足现有IT设施的运维监控要求新零碎上线: 医院处于上新零碎期间,可能呈现比拟多不确定因素。须要利用apm通过抓取服务端的数据,将异样数据作为医院验证新零碎性能的指标评判,心愿业务问题可能间接定位,辅助新零碎调优,须要间接部署在生产环境中。资源管理难: 医院数据中心对服务器CPU、内存等计算资源,磁盘空间、磁盘I/O等存储资源大多没有无效办法实现科学管理及布局,对系统利用节点和数据的各项性能参数配置等数据把控有余。告警风暴: 局部医院带有动环、基础设施监控,但因为医院业务零碎简单,会产生过多告警信息,使运维人员吞没在告警风暴中无从判断起因。厂商监控独立: 尽管有局部厂商能够提供监控工具,但各工具之间绝对独立,仅能提供自有产品的状态监测。短少对外围业务零碎(如:HIS、PACS等)全链路进行监控,当业务零碎产生异样时仅能从设施层和零碎层剖析问题,很难定位到业务或利用的问题根因。平安评审要求不达标: 因为等保2.0进步了医院的信息化平安要求规范,局部医院须要依据相应平安评审要求,利用运维监控平台进行撑持。网络性能不稳固: 因为目前各大医院都仰赖网络,尤其上云的医院,一旦呈现网络性能问题,就必然导致大面积的业务瘫痪,所以网络性能的监控及平安危险评估,都是重中之重。但因为医院运维我的项目广泛估算无限,NPM价格绝对较高,比拟难cover住老本,所以卖的不多。 产品列表DOIM : 私有化部署,次要围绕客户HIS、LIS、PACS零碎波及到的设施层,包含数据库、操作系统、服务器硬件、存储磁盘阵列、数据库和虚拟化平台等进行对立监控。APM : 私有化部署,次要围绕HIS\EMR\LIS\PACS\体检零碎\对立领取零碎等外围后端利用进行监控检测。在测试场景中、生产环境中均有部署。DOLA : 次要依靠云智慧在智能算法、日志剖析方面的能力,帮忙医院在业务零碎运维监控方面做好事先预防工作,缩小问题发现和故障排除的时长,晋升异样检测的准确率。 日志扩散在各类服务器主机、容器、网络设备中,需通过CDC进行日志的采集,采集对象是IAAS层所有设施。DOEM : 通过邮件、第三方Push等形式进行告警告诉。整体计划云智慧提供面向“智慧医疗”畛域的一体化智慧运维实际。利用场景蕴含被动监控、疾速排障、集中告警、价值出现、集中管理、日志剖析、被动巡检、服务治理。此外,云智慧一体化智能运维监控计划领有全栈监控、自主可控、成熟计划、大量实际、以客户为核心、全国服务网络、算法能力当先、ITIL v4官网认证等外围劣势。 整体架构设计下图为云智慧一体化智能运维解决方案整体架构设计。 次要利用场景全栈监控 通过 Agent、SNMP(V1、V2、V3)、WMI、SSH、Telnet、IPMI、ILO、北向接口、 串口、ODBC/JDBC、自定义 SQL、URL、WMI、Java 连贯等形式对上百家厂商的服务器、 网络设备、操作系统、存储、虚拟化、中间件、数据库、Web 服务等资源的配置数据和指标数据进行对立采集。最终实现资源管理与拓扑治理。 资源管理:包含网络设备治理、主机治理、数据库治理、中间件治理、存储管理、硬件治理、规范服务治理、日志治理(syslog、snmp trap)。拓扑治理:具备主动网络拓扑的性能,采纳先进的网络拓扑发现算法和数据采集协定实现网络拓扑发现,包含基于路由层链接生成网络拓扑图;基于网段的连贯生成物理网络拓扑图;基于VLAN和子网生成各子网逻辑拓扑图。此外,全栈监控还蕴含实现以下监控指标: 一体化监控:内置120+种开箱即用资源模型、10000+监控指标,能全面疾速地对接上百家厂商的老旧设施、IT资源、动环设施、IOT设施,以此进行集中式采集监控和告警治理,同时反对对接其余零碎数据。异构云环境治理:采纳云模式架构设计,利用云节点的采集处理器和代理形式,实现在多种云异构模式下,跨平台/网络/安全策略/域对支流云厂商的 IT 资源进行对立监控和集中管理,监控范畴可扩大。国产化适配:反对支流国产化设施、操作系统、数据库、中间件的建模和指标采集监控,不限于达梦、金碟、保兰德、人大金仓、达梦、西方通、神通、麒麟、飞腾等,自研数据库不受国内环境影响。开箱即用:领有数百种开箱即用指标采集和CI数据采集模型,采集Sever端的搭建最快可在几分钟内实现,应用简略不便。 全年365天7*24小时实时展现各项资源和利用零碎的整体运行状况,通过智能化运维使原来盘根错节的运维管理工作变的简略和轻松,真正实现职责明显、平安高效、稳固牢靠、智能管控的指标。 集中管理 IP地址治理。通过IP地址治理性能能够帮忙数据中心正当的对网络地址的日常及长期应用做出布局,进步网络安全性。通过工具定时扫表,发现网段中的IP地址的状态。包含:应用中、未应用、治理IP、保留IP等。依据IP地址状态进行实时归类,以视图的形式出现,依据不同的色彩辨别不同状态,实时统计,保障网络地址的正当应用。 疾速排障 利用拓扑主动发现:全自动发现利用所有技术栈及其关联关系,帮忙用户从宏观把握一个利用及其关联利用的整体状态以及申请数、响应工夫、谬误等的变化趋势,疾速定位各层级问题。 针对单次申请,通过根本信息和业务拓扑发现潜在问题,追踪慢元素和堆栈详情,剖析谬误和异样信息及堆栈,剖析SQL语句、API调用与申请参数等的执行状况。 日志剖析 日志审计次要依靠云智慧在智能算法、日志剖析方面的能力,帮忙医院采集、整合、剖析扩散在各类服务器主机、容器、网络设备中的日志,在业务零碎运维监控方面做好事先预防工作,缩小问题发现和故障排除的时长,晋升异样检测的准确率。 集中告警 ...
关于运维自动化:WGCLOUD进阶笔记-监测oracle表空间
咱们最近在我的项目中部署了WGCLOUD平台,它能够监测主机、服务器、过程利用、端口、日志、docker、数据库、服务接口、PING、SNMP等等 还能够批量下发指令,相当不便 本文中次要介绍下如何监测oracle的表空间大小,有趋势图表 首先咱们须要下载和部署WGCLOUD,实现后登录,能够在左侧菜单看到【数据监控】 咱们点击【增加】数据源,输出如下数据库连贯信息 增加数据源实现后,咱们点击【数据表治理】 点击【增加】,输出如下信息 数据源增加实现后,咱们就能够增加数据表了,数据表最大的益处就是能够本人写sql统计,只有返回数字即可 留神sql语句,就是统计表空间大小的sql,咱们能够自定义编写 保留后,就能够了 数据监控是默认1小时(能够批改)扫描一次,因而刚增加实现,须要等一会才会有数字,随着时间推移,咱们能够看到趋势图,如下 WGCLOUD是十分优良的一款监测工具,本地部署比较简单,简直能够监测咱们的所有设施
关于运维自动化:高校行业智能运维解决方案解析含落地实践
背景与挑战自信息化“十二五”以来,“三通两平台”成为教育行业信息化建设畛域的重点。在以上背景下,各地教育部门和学校纷纷发展了大量建设实际。 随着以后教育利用翻新的层出不穷,高校信息化建设也从数字校园向智慧校园转变时校园IT零碎也面临着新的改革与挑战,次要蕴含以下两方面: 利用平台层面:教育资源公共服务平台、教育治理公共服务平台中的重要业务零碎如一卡通、财务、查分系统等对可用性和敏捷性均提出了更高的要求;IT运维层面: 大量的零碎和设施对运维提出了更高的要求,零碎简单难有无效的监控工具,因而导致运维问题难以疾速定位,运维成果难以无效评估。此外,随着数字校园向智慧校园的转变,该过程给校园IT运维也带来了以下痛点: 衰弱度感知:教育资源公共服务平台、教育治理公共服务平台整体健康度体系难以建设,无量化指标治理;定位难:因为第三方提供的零碎品质难以保障,导致师生在应用各零碎平台(如备课零碎、自主学习零碎、校园综合管理系统等)时呈现的问题难以复现,难以定位;高并发:难以提前评估零碎的并发瓶颈,导致阶段性暴发的考生查分热潮,时常引发零碎宕机。 解决方案高校智能业务运维三大阶段蕴含运维工具补全阶段、IT运维治理标准化阶段以及智能运维阶段。 高校运维工具补全运维工具补全阶段次要蕴含基础设施监控,业务利用监控、用户体验监控、集中告警等校园IT基础设施监控的补全。 此外,随着智慧校园的的建设,学校IT根底建设的逐步欠缺,多校区共用同一机房的特点,使得IT基础设施的实时在线与平安性能显得尤为重要。 基于以上背景,云智慧基础设施监控通过丰盛的协定接入能力以及模型化定义能力,可疾速反对新资源,实现资源的一体化监控,实时理解把握服务器网络硬件软件等基础设施以后的健康状况,以便评估掂量基础设施使用率,为用户基础设施优化和理解基础设施设施的解决能力提供精确的数据,预测潜在的故障,进行提前预警。 校园机房可视化实时告警方面,云智慧提供机房的三维全景视图,包含机柜、机柜外独自设施;温湿度采集模块采集机房区域温湿度状态后接入该机房的串口服务器,串口服务连贯网络后可将温湿度状态数据传送到云智慧服务器对立监控。 指标检测方面,云智慧内置了上万指标项,胜利做到了开箱即用。 云智慧可被动发现业务问题,保障各园区教学楼专线高可用。一方面,云智慧通过全国乃至寰球节点对高校对外业务进行7*24小时被动拨测,以便及时发现问题,被动告警;另一方面,通过在各校区办公楼安排云智慧监控魔盒,实时监控专线品质,进步用户体验。 随着校园各业务零碎的逐步欠缺,业务和业务之间的调用关系也逐步复杂化,因而导致业务零碎呈现问题时难以疾速定位。基于上述因素,面对简单多样化的零碎时,学校业务零碎须要可视化的工具进行集中管理,同时量化第三方提供的业务零碎品质,以便学校业务系统故障定位和剖析。 云智慧领有端到端全技术栈利用性能治理,蕴含反对挪动和智能设施以便更好的了解实在用户体验;反对端到端高度虚拟化利用来跟踪负载变动;以及反对私有云、公有云及混合云的跨云环境部署形式。以上性能可疾速定位教务零碎问题,蕴含以下几方面: 精密运维:蕴含主动发现全局拓扑图、疾速定位性能问题、利用间关联剖析;用户体验:蕴含主动获取所有用户行为、细粒度追踪实在的用户行为、操作及流程性能;深度诊断:蕴含代码级问题诊断、剖析堆栈语句性能影响、数据库SQL细化剖析;行为剖析:蕴含业务行为统计分析、端到端事务追踪、疾速定位性能问题。 业务剖析方面,云智慧可基于惟一的申请ID标识主动串接整个申请,从前端到后端利用代码以及基础设施,基于单次申请序列还原问题快照,帮忙高校从外到内逐渐分析师生应用零碎的问题本源,以此达到师生应用问题疾速复现的目标。 云智慧高效解决方案可疾速定位代码级问题。蕴含基于业务拓扑发现问题、挪动端代码解体问题剖析、Web端实在用户体验监控剖析、申请与要害事务剖析以及单次申请剖析。 云智慧可基于各教务零碎整合梳理利用以及IT资源情。一方面,零碎架构拓扑图分层展现零碎所有对象的衰弱水平及相互之间的依赖关系。另一方面,用户可依据资源疾速查看纵向依赖关系以及剖析关联的对象,从而减速根因排查过程。 云智慧提供告警的对立进口,以此实现告警集中化、自动化、多样化、智能化、人性化。次要蕴含以下几方面: 汇聚扩散告警,进行规范格式化,实现集中化解决;告警处理的自动化,确认、派单、降级、复原;告警告诉性能反对多种告诉形式,确保问题事件告诉可能被即时送达;基于规定对海量的、继续的冗余音讯进行告警压缩和告警合并,克制告警音讯的数量,缩小告警音讯的频率;提供告警静默选项,对系统维护工夫窗口内的告警进行静默解决,从而缩小不必要的告警骚扰。高校运维治理标准化高校运维治理标准化阶段蕴含ITSM、CMDB、运维自动化等方面技术的实现。云智慧通过基于标准化的治理流程,标准第三方服务,以此优化师生用户体验。 IT服务治理(ITSM)总体设计方面,通过云智慧数字化经营服务治理产品能够满高校IT服务管理系统的建设。通过现有产品性能+零碎API接口+自定义流程+局部性能二次开发定制即能够满足对智慧校园我的项目的建设内容。 信息化资产集中管控方面,云智慧领有基于主动发现的CMDB数据保护。通过Agent、API等多种形式,主动采集Iaas、Pass、Saas层的配置项信息。反对多数据源联邦采集,并和谐各数据源的采集数据,确保CMDB中配置项信息的全面和精确。 下图为CMDB整体架构设计图。通过云智慧CMDB,能够实现对IaaS、PaaS到SaaS层的运维元数据的全面治理,为运维监控、服务治理和自动化等零碎提供残缺而精确的元数据撑持。 以下是CMDB利用于监控告警解决与自动化平台的数据良性循环过程。CMDB作为各种资源的配置信息库,为监控告警信息提供信息下钻能力,让单点告警信息拓展到具体影响面。自动化平台通过告警自愈触发零碎修复,此时将通过CMDB取得工作执行的指标列表,进步工作执行的准确性与可性行。待问题零碎修复后,CDBM将主动采集零碎信息并更新原库中信息,实现信息归档。 信息办工单可视化方面,云智慧通过工单统计,使得高校信息办工作有迹可循,从而达到继续优化的目标。 高校运维智能化高校运维智能化蕴含智能剖析、预测剖析、机器学习、AI等技术的实现。一方面,通过实现AIOps智能运维场景,转变运维管理模式,从而进步智能化和自动化程度。另一方面,使用人工智能算法基于数据特色感知业务隐患,从而可基于历史数据预测故障产生。 云智慧提供的指标异样检测旨在通过算法发现KPI(要害效益指标)工夫序列上的异样点,而后通过告警告知运维人员相干危险。与此同时,指标异样检测也是其余AIOps场景的前置场景,其检测后果为后续的告警收敛、根因定位、故障自愈等场景提供输出信息。 单指标智能异样检测具体如下图所示: 多指标智能根因剖析具体如下图所示: 智能日志异样检测蕴含日志异样模式检测、日志统计异样检测、日志程序异样检测以及其余异样检测等。 云智慧提供基于用户体验的运维思路。从数据监控,到剖析优化,到治理领导,最终晋升了师生的总体满意度。达到了从根底、晋升、治理、高级4个阶段的转变,实现从工具化运维接到智慧化运维的演进。 落地实际某高校对立监控平台案例需要痛点业务零碎泛滥,调用关系难以可视化;难以感知用户拜访体验;呈现问题,无奈疾速定位本源;零碎泛滥须要集中管理和集中监控。计划亮点对已有业务零碎建设的对立监控平台应用APM探针技术对业务零碎的用户体验进行端到端的追踪计划价值治理价值:对宏大、多样、简单的业务零碎可能有全局上的把控;运维与开发价值:可能无效监控业务零碎的全量拜访数据,从全局到部分做到精准定位、深刻问题诊断。(譬如,业务零碎运行拓扑、拜访效率、数据库查问语句、主机信息等)整体价值:疾速晋升业务零碎的性能,满足全校师生的用户体验,保障失常教学活动的发展。 FlyFish开源福利云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。 同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置, 面向简单需要场景可能保障高效开发与交付。 如果喜爱咱们的我的项目,请不要遗记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,咱们须要您的激励与反对。此外,即刻参加 FlyFish 我的项目奉献成为 FlyFish Contributor 的同时更有万元现金等你来拿。 GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish ...
关于运维自动化:深度解析智能运维场景下港口行业解决方案
行业趋势基于十四五对“新基建”的要求,联合我国港口倒退的阶段性特点,目前智慧港口建设可分为三大方向。一方面是以5G通信、物联网等新一代信息技术与港口服务深度交融,大力发展智能港口基础设施,生产智能主动,做强智慧港口的“信息基础设施”;另一方面是通过区块链、数据分析等技术利用,实现港口因素自我感知、宽泛互联,港口经营决策主观智慧,客户服务麻利高效,搭建智慧港口“服务平台”,做优智慧港口的“交融基础设施”;第三方面是基于港口各种资源、技术、服务、治理深度交融,实现凋谢共享、零碎高效、绿色环保、可继续倒退的现代化港口状态,做新智慧港口的“翻新基础设施”。 “十三五”期间,全国港口重点围绕港口作业自动化、港口陆运业务协同、信息互联共享、港口物流链、翻新技术利用五大方向倒退转型,智慧港口工程建设在全国有序发展。 2019年12月1日起,网络安全等级爱护2.0相干规范正式施行。规范强调实现对新技术、新利用平安爱护对象和平安爱护畛域的全笼罩,强化“一个核心,三重防护”的平安爱护体系,这无疑对港口信息系统运维保障工作提出更高要求 以后港口行业信息现状可体现为以下几点: 港口对外服务:在该平台实现全副港外物流、港内物流、通关、交易、货运自动化、行政服务等相干港口业务办理。港口生产综合管控:实现港口商务、总调度及各码头调度、堆场库场、设施治理保护培修、车队车辆、船舶治理、泊位航道治理、平安生产、能源能耗、计费结费、气象水文、日常办公等全过程的自动化一体化治理。码头智能化自动化作业:实现码头现场作业的自动化智能化,对作业的各机械设备、车辆、船舶、货物、磅场、库场、卡口、作业人员、生产平安、联检等作业的智能化自动化治理。提供各类作业人员智能终端、机械作业数据主动采集终端、机械自动化管制终端等。港口安全监管及应急指挥:实现港口安全监管、危险源被动防控、突发事件处理、应急指挥通信、安全监控预警、平安巡检、应急事件的实时公布、应急通信等综合安全监管应急指挥平台。港口行政治理:次要针对港航局,提供港口政务治理,包含行政许可申请、审批、行政执法、政令公布、公文下达流转等。提供挪动APP、行政执法终端等。现有信息化系统集成:实现对港口已有各类信息化系统集成到一体化平台。港口大数据分析:实现对港外客户、港内生产、国内外港口及相干行业等各方面的信息数据资源收集和剖析,建设大数据平台。利用数据挖掘、模型剖析等技术手段,丰盛大数据分析应用服务,实现多种数据源的拜访、决策反对智慧化。口岸通关一体化对接:船舶联检一体化,在口岸业务网上申报根底上对接口岸零碎,实现海关、测验检疫、海事、边检等部门跨部门数据共享、监管互认。代理企业可一次性录入申报信息,别离发送到各家联检单位零碎,“一单多报”。网上结算及货运担保:提供网上金融结算、货运担保等业务,开启多种网络领取模式,与保险公司买通接口,一站式购买保险,实现港杂费结算。提供金融、保险资源查问、挪动领取等。港口增值服务:基于港口资源,实现跨境电商、港口金融、港口社区、大数据服务等增值服务。跨境电商:提供针对性的特色跨境电商。港口金融:为各类金融资产提供从注销、交易到结算的全程式服务,推出基于港口劣势的金融翻新产品,向贸易型和金融型转变。港口社区:为来港客户、承运人、码头企业、公众等相干群体提供港口交通、游览、购物、餐饮、住宿、教育、金融等智慧社区服务。 挑战剖析现如今,随着港口信息化的疾速倒退,港口行业IT运维保障工作同时也面临着来自政策、监管、用户体验、上级领导等方面的规范降级,从而导致运维保障工作的挑战加大。具体蕴含以下几方面: 人工巡检迟缓,集中管理艰难;业务零碎繁多,流程关联严密;平安规范晋升、平安防护面广;业务利用新增,根底适配承压。 解决方案云智慧作为国内当先的“全栈智能业务运维解决方案服务商”,通过多年自主研发,为金融、政府、运营商、能源、交通、制作等数十个行业的客户提供“数字化运维体系建设+全生命周期运维治理”解决方案。包含围绕业务特色打造行业场景的数字化业务的运维治理(Biz Ops); 围绕用户体验进行危险防控的数字化利用零碎的运维治理(App Ops);围绕IT基础设施保障的数字化基础设施的运维治理(Infra Ops)。 与此同时,为充分发挥IT服务治理的效力,云智慧将智能运维演进路线从Level 0到Level 5分为6个阶段,即人力运维、辅助运维、一体化运维、初步智能化运维、高度智能化运维以及齐全智能化运维。目前港口行业运维则根本处于LEVEL0-LEVEL1之前,具体如下图所示: 行业利用场景云智慧提供面向“智慧港口”畛域的一体化智能运维解决方案,蕴含全面监控、智能预警、精准定位、高效派单、标准变更、迷信处理等劣势。 解决门路方面次要蕴含全面集中管控、平安稳固经营、全景态势剖析、实时精准告警、迷信服务治理等次要场景的解决方案。 全面集中管控全景监控方面,云智慧通过Agent、SNMP(V1、V2、V3)、WMI、SSH、Telnet、IPMI、ILO、北向接口、串口、ODBC/JDBC、自定义SQL、URL、WMI、Java 等连贯等形式对上百家厂商的服务器、网络设备、操作系统、存储、虚拟化、中间件、数据库、Web服务等资源的配置数据和指标数据进行对立采集。此外,云智慧领有成熟的建模能力和指标采集适配能力,为多类型设施全方面运维管控提供强有力的数据源撑持。提供集群化采集能力,扩大监控规模,实现监控零碎高可用性。 资源配置管理方面,配置资源图谱故障场景次要是依靠CMDB的层级拓扑,对故障CI进行定位。买通事件与CMDB,将CMDB中的相干CI要害属性信息,如IP地址、主机名、利用标识、负责人、电话、资源的所属地位等相干信息丰盛到告警事件中,增强告警的易读性和准确性。此外,通过告警生成工单,在处理过程中通过关联CI保障数据的准确性,对故障进行闭环治理,增强CMDB配置数据的流动性和唯一性。最终实现通过配置资源图谱拓扑可视化能力,帮忙运维人员对故障进行根因剖析、故障主动处理,以疾速复原业务。需注意,CMDB的资源层级拓扑与DOEM的互通,另一方面通过DOSM做资源的管控,保障数据的准确性以及对故障进行闭关治理。 监控状态治理方面,云智慧反对对业务服务器、数据库、中间件等离散的系统资源对立纳管,全年365天7*24小时实时展现各项资源和利用零碎的整体运行状况。可基于零碎架构构建系统资源的层级化拓扑, 便捷查看高低依赖关系,例如利用所依赖的容器、虚拟机。此外,拓扑节点的色彩展现了各对象的衰弱水平,使原来盘根错节的运维管理工作变的简略和轻松。 告警治理能依据告警相干的根本规定,通过主动学习算法能力,如:集群合并、IP合并等将同一时间内与该告警相关联的其余告警进行了聚合。通过对告警的智能剖析,企业能够防止有效告警、告警风暴的产生,以疾速对故障的排查和定位,全面晋升告警治理能力。 平安稳固经营零碎性能剖析方面,云智慧基于端到端的服务申请链路细化追踪、剖析代码及SQL执⾏性能,提供了利用拓扑及代码层事务追踪。针对单次申请,云智慧通过根本信息和业务拓扑发现潜在问题,追踪慢元素和堆栈详情,剖析谬误和异样信息及堆栈,以及剖析SQL语句、API调用与申请参数等执行状况。 系统日志审计方面,次要依靠云智慧在智能算法、日志剖析方面的能力,帮忙港口在业务零碎运维监控方面做好事先预防工作,以此升高问题发现和故障排除的时长,从而晋升异样检测的准确率。 日志扩散在各类服务器主机、容器、网络设备中时需通过CDC进行日志的采集,采集对象是IAAS层所有设施。 主动巡检方面,为预防运维事变的产生,企业运维人员需每天对大量设施逐个巡检。在传统运维模式下,运维人员必须顺次登录设施实现巡检,该操作不仅须要消耗大量工夫,而且手工操作的形式也更容易出错。 通过云智慧主动巡检,企业可疾速聚焦问题以晋升效率。 全景态势剖析下图为云智慧全栈式监控场景,它可能对IDC基础设施到下层业务的全方位监控:包含面向机房能源环境设施、服务器硬件、操作系统、网络、利用、业务等运行衰弱度状态以及性能情况进行实时监控与治理。 此外,平台可提供有代理(即Agent)、无代理(即Snmp、Wmi、Syslog、Jdbc等协形式)两种监控形式,当代理采集的监测指标无奈满足企业监控需要时,企业能够通过云智慧产品提供的凋谢采集能力,开发相干指标来满足本身个性化的监控需要。目前云智慧企业客户数据中心均是两地三核心模式,为满足企业业务的连续性,云智慧提供分布式、跨核心的部署,来满足企业多核心监管须要。 迷信服务治理企业要实现运维问题疾速、无效的处理修复,必然须要基于科学化的IT服务管理体系。云智慧是通过AXELOS(ITIL版权所有方)认证的中国首家官网受权的IT服务治理征询合作伙伴 (ACP)。这意味着行业内,云智慧将能为有志愿引入ITIL的企业提供更加权威的IT服务治理征询与服务,并进一步增强该实践的本地化实际。值得一提的是,云智慧现有产品框架也是遵循新一代ITIL理念打造的。 智能客服:利用自然语言辨认技术,帮忙用户解决常见问题,疾速响应用户的同时极大缩小运维工程师工作量。坐席监控:可实时查看坐席的接待数、对话数、均匀响应工夫、均匀对话时长、音讯总数等信息以及某个坐席的详情数据。挪动提单:灵便对接企业微信、钉钉等企业 IM 以及企业客户自有 APP,反对用户通过挪动端拜访智能客服和在线服务台,反对用户自助提交工单、查问工单解决进度。服务目录:提供服务目录的对立定义和治理性能,为企业的服务提供统一精确的信息源,为其余服务治理流动提供撑持。流程表单:提供可视化工单流程定义面板、丰盛的可视化控件和功能强大的表单设计器,可能满足各种场景下工单定制的要求。知识库链接:平台内置大量常识条目,集中管理历史积淀文档及罕用场景常识,便于常识利用即查即用,晋升问题解决效率,缩小对专业人才的依赖。工单看板:对IT服务治理中波及到的各类工单数据进行直观监测,实时展现服务危险点、服务质量、服务效率以及服务水平,帮忙管理层从全局视角对IT服务的品质进行感知与管控。 一体化智能运维解决方案云智慧遵循以数据为根底、以算法为撑持、以场景为导向的核心理念,利用先进的实时大数据处理和机器学习技术,联合行业教训的最佳实际,帮忙用户建设贴合实战的全栈数字化运维管理体系。在保障业务连续性的同时,赋予业务疾速迭代和创新能力,从而带来业务与IT治理效力的晋升。 案例分享某港口团体IT智能对立运维我的项目我的项目背景 某港口已在数字化转型方面获得了可喜成绩,但随着业务规模扩充,港口企业业务需要逐步减少,因而造成了企业运维治理复杂度减少,现有监控工具不能满足倒退要求。企业需整合现有监控工具的指标数据,构建运维数据中台,优化监控工具,联合智能化的技术手段,保障业务利用的稳固、高效和倒退。 现状痛点 零碎问题定位艰难:零碎性能显著降落,且受零碎架构局限(异构、扩散),从而无奈保障系统间(尤其异构零碎间)文件互通稳固,无奈无效晋升性能;不足对立数据分析:以后运维零碎能力弱,团队对系统可控性不高;扩散分权治理,难以疾速无效地实现用户需要及问题解决。计划亮点 全笼罩监控:扩充根底层面监控范畴,补救利用性能监控和日志监控,实现监控工具全面笼罩;建设指标体系:买通各类筒仓数据,实现监控核心对立数据分析及驾驶舱可视化展现;初步智能化建设:利用算法平台能力实现肯定的单指标异样检测等场景。实现价值 促成多部门协同合作:实现联响核心、运保核心、软研核心及各业务部门对立视角进行零碎运维,从而晋升企业运维效率;助力企业智能化运维建设:助力建设一套适宜该港口团体“新运维”的运维数据中台,联合算法能力,助力企业迈向智能化运维畛域。 某港口团体智能监控案例我的项目背景 某港口地处浙江南部、西北沿海黄金海岸线中部,是中国二十五个次要港口之一,是中国的重要枢纽港。 现状痛点 不足根底监控:该港口业务稳固且高速倒退,然而对于基础设施软硬件以及动环设施不足对立的治理;动环监控:上司多个点位机房短少动环监控和平台。计划亮点 对立监控:助力建设整套对立监控平台,蕴含基础设施、动环设施、虚机等,软硬件联合对立监控;告警克制:对所有告警进行优化,从而晋升港口效力。实现价值 对立监控:一个平台,一套零碎。告警治理:告警对立治理。状态展现:仪表盘展现所有基础设施监控状态。 FlyFish开源福利云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。 同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置, 面向简单需要场景可能保障高效开发与交付。 如果喜爱咱们的我的项目,请不要遗记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,咱们须要您的激励与反对。此外,即刻参加 FlyFish 我的项目奉献成为 FlyFish Contributor 的同时更有万元现金等你来拿。 ...
关于运维自动化:阿里云弹性计算技术专家樊毅伟云上成本优化实践
摘要:2022 年 8 月 16 日,高效能,才经济 | 云上自动化运维 CloudOps 系列沙龙_第三弹正式开启,阿里云弹性计算技术专家樊毅伟,为咱们带来了题为“云上老本优化实际”的主题分享,以下是他的演讲内容整顿,本篇内容次要分为五个局部: 1.云上老本管制的必要性2.付费形式与资源规格选型3.晋升资源利用率4.老本治理5.用户问答 01 云上老本管制的必要性 如上图所示,Flexera 2022 年云状态报告数据显示,受访企业认为他们云开销里有 32%是节约的,高于去年的 30%。 依据中国信息通信研究院的云 MSP 服务倒退调查报告显示,老本优化成为企业云治理的首要需要。云上老本管制是很多企业面临的难题、痛点。 云上和云下的老本管理体系有很大的差异。在云下,企业对 IT 资产是一次性洽购,一次性领取金额。在云上,企业的 IT 资产变成按需索取,按量付费。 目前,企业在云上的老本管制面临很大的挑战。首先,云上老本治理须要多部门合作。比方财务/洽购、技术/运维、产品/业务等团队进行合作。各部门在合作过程中,造成实时的决策体系。因为云资源的计费形式多种多样,所以企业须要深度了解云资源计费。 其次,企业须要及时的老本报告、监控体系。 最初,企业须要实现多云场景适配。面对多云场景,各个云有不同的计费形式,企业须要针对性地进行适配,管制本人的老本。 企业的云上老本管制的办法,次要分为四个模块。第一,抉择适合的付费形式;第二,抉择适合的资源规格;第三,晋升资源利用率;第四,老本剖析与监控。 02 付费形式与资源规格选型 以阿里云的 ECS 为例,ECS 次要有三种产品状态,别离是按量付费、包年包月、抢占式实例。 这三种产品状态对应了不同的产品性能,实质是经济性、灵活性和确定性三者的均衡。 按量付费的灵活性十分高,能够随时创立、开释、升配、降配,没有任何限度。但它的毛病是比拟贵,经济性较差。 包年包月是预付机制,它的经济性较好,价格便宜。但它的灵活性较差,资源跟财务绑定。抢占式实例的经济性十分好,价格十分便宜,但确定性较差。 抢占式实例有两个特点。 第一,比按量付费的价格更便宜,最低能够达到一折。第二,确定性较差。它在稳固运行一小时后,随时可能被零碎开释。应用抢占式实例,适宜无状态的工作型场景,能够大幅降低成本。 接下来,介绍一下预留实例券。包年包月的资源跟财务绑定在一起,退款、降配有很多限度。按量付费的 ECS 加预留实例券,次要解决包年包月的灵活性问题。 当 ECS 的实例规格和预留实例券匹配,按量付费的 ECS 就不会出账,只会收取 ECS 预留实例券的费用。 因为预留实例券是预付或锁定时长的理念,所以它比按量付费更便宜,极大降低成本。预留实例券有零预付、局部预付和全预付。 按量付费的 ECS 能够每小时出账,随时开释,也是零预付的形式,但预留实例券的零预付与此不同,是指用户购买了肯定的时长,不能随时退款或退订。当用户承诺应用一年,每个小时付款,就必须应用一年。 局部预付是指用户先付一部分,零碎会每小时扣除剩下的金额。全预付和包年包月一样,一次性付清所有的钱。 为了解决预留实例券不够灵便的问题,阿里云推出了节俭打算。相比预留实例券,它可能满足 DevOps,容器化,多规格族,多地区部署等场景下,资源购买账单抵扣需要。 节俭打算分为两种,即通用型和 ECS 型。通用型没有任何限度,能够间接抵扣 ECS 的按量付费账单。ECS 型有一小部分的限度,即地区规格族的限度。与此同时,节俭打算反对多种产品,如 ECS、ECI、RDS 等等。 ...
关于运维自动化:阿里云林小平如何实现资源高效运维及成本分析
摘要:2022 年 8 月 16 日,高效能,才经济 | 云上自动化运维 CloudOps 系列沙龙_第三弹正式开启,阿里云弹性计算技术专家林小平,为咱们带来了题为“如何实现资源高效运维及老本剖析”的主题分享,以下是她的演讲内容整顿,本篇内容次要分为五个局部: 1.企业资源管理面临问题2.高效实现资源运维门路3.高效运维及老本剖析实际4.场景标签设计实际5.用户问答 01 企业资源管理面临问题随着企业 IT 能力成熟度晋升以及云上资源规模不断扩大,企业须要灵便、快捷、不便的资源管理伎俩,应答日益增多云上资源和频繁变动的业务场景。 随着企业倒退,企业云上资源数量一直减少,云上资源出现多区域、多类型散布,分账视角呈现差异化,疾速治理场景显得越发重要。标签是大客户批量治理资源的必需品;标签是人、财、物治理的重要伎俩;横向拉通云产品的分组工具。 02 高效实现资源运维门路 上图显示了实现高效资源管理的逻辑门路,当企业须要疾速查找一批有问题的资源,能够用标签对这批资源进行长期标记。 企业须要以问题,场景,价值为导向,确认资源运维的目标。将流程和技术作为执行保障,通过需要调研,数据设计,数据梳理。依据调研后果,对相干标签进行设计,确定数据应用方向以及数据的可视范畴。 在业务应用方面,企业须要着重思考资源的运维门路、保障信息安全,将运维老本管制在正当区间。 云上标签的应用次要分为三个阶段。 第一阶段是按需设计,按需应用,做到面向业务可了解;第二阶段是疾速迭代,精确应用,实现数据的规模化复用;第三阶段是自动化,可衍生数据,做到数据资源价值可掂量。 03 高效运维及老本剖析实际 为了帮忙用户实现资源的高效运维,让标签更标准。目前,阿里云的标签策略性能,收费凋谢应用。 当用户通过控制台或者 API 形式进行资源创立或资源打标操作时,如果不合乎标签策略的标准,则资源不能被生产或者绑定标签失败。 资源生产后,标签策略监听资源配置信息及时进行资源检测;如果发现不合乎标签策略的标准,则会生成不合规的报告;如果设置了主动修复,则会对不合规资源进行修复。 标签岂但能够进行资源运维,还可能进行精细化的权限治理。对于企业的我的项目开发人员,用户能够依据不同的身份,给予不同的权限。 除此之外,企业还能够利用标签,从多个维度查看资源老本的摊派状况进行老本优化。 04 场景标签设计实际 标签必须思考业务需要,将业务数据作为载体。将业务与相干操作进行串联,把简单的问题简单化。企业的标签设计须要辨认设计对象,而后设计对象标签、场景标签、利用标签。 企业的标签设计必须思考理论的业务需要,其目标是将简单的问题简单化。 标签的设计对象个别包含人,物以及二者的关系。其中,人作为标签设计对象,通常具备主动性是关系的发起者。 物作为标签的设计对象,具备被动性,通常是关系的接受者。二者的关系体现了,两个实体的间接关联及连贯。 以直播电商精准营销场景为例,营销流动是客户与商品之间的关系。其中,客户是关系的发起者,具备肯定的主动性,商品作为这段关系的接受者具备肯定的被动性。由此可见,用户能够通过标签将简单的营销问题简单化。 标签设计能够疾速欠缺企业的数据管理体系。解决企业不足用户画像及标签体系、经营不够精密、经营老本高、经营数据获取效率低等问题。从理论登程,将业务简单的问题简单化。 如上图所示,在直播电商精准营销场景中,客户的标签设计能够围绕其基本特征,偏好特色,行为习惯和资产信用进行布局。 商品的标签设计须要依照其基本特征隶属特色、营销属性、服务属性、评论属性等方向进行布局。商品和客户之间的营销关系能够围绕基本特征、指标特色、条件特色、过程特色以及成果特色进行相干的标签设计。 在标签设计的过程中,须要确认指标、剖析对象,即人物关系。而后,辨认场景的相干指标,比方客户的活跃度、商品内容产生的价值、客户的参与度、音讯揭示的有效性等等。 综上所述,在标签设计中,企业须要从多个维度收集对象、资源、关系的相干信息。其中,对象信息常见的信息有名字、工号、地位、流程、行为、偏好等等。 在资源信息中,常见的有资源 ID、IP、资源性能是否包年包月,是否被监控,是否被审计,最终评估该资源是否可用等等。 在关系信息中,常见的有相干对象、相干的资源关系、筹备定时条件、订单记录、购买记录、购买行为等等。 05 Q&A 环节,用户问答Q1 在标签设计的过程中,对人物关系的大量合成,会不会升高工作效率? 答:标签设计以按需应用,按需设计为主,切忌不要适度设计。企业须要依据本身的业务倒退,具体问题具体分析。Q2 在做我的项目之前,特定场景中,人和物的属性都是提前预设好的吗? 答:在应用我的项目的过程中,是否须要预设场景,取决于我的项目的复杂度。如果我的项目的复杂度较低,则不须要预设场景。点击这里,查看云上自动化运维 CloudOps 系列沙龙精彩回放合集 &讲师材料下载。
关于运维自动化:智能运维场景解析如何通过异常检测发现业务系统状态异常
通常状况下,业务零碎出现异常,最间接、最直观反映就是要害业务指标出现异常稳定。以保险行业为例,当业务零碎出现异常时,零碎解决保单的能力会显著降落,对应到业务指标形容,即:业务零碎呈现问题时,“保单量”会呈现降落。 如何正确判断“保单量”呈现降落呢?传统的形式就是设置一个固定的阈值,例如:定义在失常状况下,零碎每分钟能够解决的保单量应该在200~600之间。当实时监控到的保单量超出上述阈值时,即认为保单量出现异常。传统监控零碎的固定阈值告警,就是通过设置固定的告警阈值与实在数据进行比照产生告警信息。 这个逻辑外表看上去没有问题,然而认真想一下,每天凌晨的时候,会有多少新的保单提交到零碎中呢(假如保险公司只受理国内的业务)?显然,每天上午10点到12点之间新提交到零碎中的保单量要远远多于每天凌晨提交到零碎中的保单量。 以此类推,业务零碎在节假日和工作日解决的保单量也存在显著的差异。如果据此逻辑进行深入分析,会发现,企业很难用事后设定的规定(阈值)来判断业务零碎保单量指标的是否出现异常。 为了解决上述问题,云智慧DOCP平台的DOEM数字化运维事件治理产品采纳多算法集成学习模式,并引入3种针对时序型监控指标进行异样检测的办法:动静基线、同比/环比和指标异样检测。 动静极限基于历史数据,利用智能算法进行深度学习后,对将来一段时间内的每个工夫点的数值进行精准预测,以预测值作为基线,并通过比拟理论值与基线的偏离度(百分比差别)来监控和告警。 动静基线实用于已知某数据指标呈周期性变动且没方法给出每个周期的精确值或者周期内的数据变动过多的场景。以保险行业业务场景为例,咱们依据历史保单量的学习,辨认出历史数据的趋势性和周期性的变动,预测将来一段时间保单量的变动。同时依据历史数据的散布状况,给出将来一段时间的上上限的变动状况。当待检测指标高于基线高于下限/低于上限时,即判断为出现异常。监测发现预测理论值数据频繁小于预测数据,咱们无效的检测到这种异样,并追踪到事件的本源。 同/环比异样检测用于发现某个待监测指标的变化趋势是继续变好还是继续变坏。将指标监控值与历史同期数据的散布和同环比的变动状况进行比照,依据数值或百分比差别状况判断新进数据是否异样,并作出判断是否进行告警。 单/多指标异样检测为了应答不对业务模式的差异化数据特点,DOEM采纳无监督集成学习算法进行指标异样检测,无需人工设置固定阈值和定义基线偏离度,零碎依据不同的数据特点,抉择不同算法去做针对性的检测,并对异样进行整体的评估,自动识别出不合乎冀望的数据后产生告警音讯。 云智慧DOEM(Digital Operation Event Management的缩写)数字化运维事件治理产品面向技术和治理,以事件为外围,实现问题事件全生命周期的全局管控。DOEM基于大数据技术和机器学习算法,对来自于各种监控零碎的告警音讯与数据指标进行对立的接入与解决,反对告警事件的过滤、告诉、响应、处理、定级、跟踪以及多维分析。DOEM产品基于动静基线等多种算法,可能实现事件的告警收敛、异样检测、根因剖析、智能预测,帮忙企业买通数据孤岛,对立运维的规范与治理标准,缩小对运维的事务性烦扰,晋升运维的整体管理水平。 开源福利云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。 同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置, 面向简单需要场景可能保障高效开发与交付。 点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。 GitHub 地址: https://github.com/CloudWise-... Gitee 地址:https://gitee.com/CloudWise/f... 超级体验官流动: http://bbs.aiops.cloudwise.co... 万元现金流动: http://bbs.aiops.cloudwise.co... 微信扫描辨认下方二维码,备注【飞鱼】退出AIOps社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~
关于运维自动化:值得一看的智能运维AIOps关键核心技术概览
作者:Neeke Gao,云智慧企业效力高级总监 前言传统运维治理的人工及被动响应形式,曾经无奈撑持数字化业务灵便、疾速的倒退,要靠智能运维(AIOps)能力来取得数据分析和决策反对。而从传统ITOM到智能运维的演进过程中,须要一系列关键技术的撑持。本文试图就智能运维落地过程所需关键技术点进行概要阐明。 图片起源:Gartner 从智能运维的平台架构来看,可形象为几个层面:数据采集层、数据汇聚层、数据存储层、建模应用层、剖析学习层、利用反馈层。这是一个十分现实的档次划分,但在智能运维实际落地过程中,却存在着诸多坑壑,须要咱们正视和解决。 数据采集与传输运维数据的产生和采集来自于ITOM监控工具集,通常包含:根底服务可用性和性能监控、网络性能监测与诊断、中间件服务可用性和性能监控、利用性能治理、零碎运行日志治理、IT资产治理、IT服务反对治理等。 这些根底监控工具采集的运行状态数据和运行性能数据,须要具备足够存量的数据和数据增量;以及足够的数据维度覆盖度(工夫维度、空间维度、零碎级维度、利用级维度等)能力进行建模利用。与此同时,运维数据的时效性强、多维数据源割裂采集的现状、以及如何在后续建模过程中进行多维数据的高效关联,因而智能运维平台对数据采集层提出以下技术要求: 跨平台、跨语言栈、高兼容性的多模式对立采集质量标准;兼容多种非容器化与容器化运行环境;统一的维度关联属性;在资源占用、数据压缩比、时效性之间可衡量、可调节的传送机制;牢靠的熔断和止损机制;易于部署和保护、对立的配置和工作治理。数据汇聚、存储与建模数据的增量是迅猛的,或将达到网络的上行极限或磁盘的写入极限,因而对汇聚层的服务本身可用性和吞吐性能要求极高。汇聚层更像"数据湖",提供元数据限度更为宽松的数据写入和获取路径、繁难的数据荡涤工作创立与治理、灵便的数据访问控制和应用行为审计、具备从原始数据的挖掘中更便当的进行价值挖掘、具备更麻利的扩大个性等。 同时,在设计汇聚存储层的建设计划时,须要防止数据泥沼、无奈自助建模、无奈执行权限管控等窘境。在智能运维实际落地时,要由一组大数据业务专家/架构师,明确地为汇聚与存储层设计一系列的能力项,这些能力项不仅要满足"数据湖"的诸多特色,还要具备便捷的开发和施行敌对性,升高数据接入与抽取荡涤的老本,它应该具备至多以下关键技术能力: 多数据源、海量数据的疾速接入能力;元数据提取和治理能力;极其繁难的、高性能的数据荡涤转换能力;可依据数据字典或特色算法对数据进行关键字辨认、模式识别的标记能力;主动的、自助的,对敏感数据进行脱敏或加密解决能力;对数据质量检验并对质量标准进行归一化处理的能力;数据可根据某种维度或特色进行所属和利用权限管制的能力;主动的、自助的,数据建模摸索能力;对已建设的搜寻、过滤、关联、摸索模型,敌对的进行数据输入能力;主动的、自助的,分布式集群伸缩能力;对外提供高效、麻利数据服务的能力; 图:DODB逻辑架构 云智慧业余运维数据库DODB(Digital Operation Database)正是合乎上述设计指标的一款业余运维数据库,根底运行环境搭建在CDH/HDP之上,蕴含了HDFS、Kafka集群、Zookeeper集群以及Spark集群。 DODB可不便地进行采集工作的配置和治理,反对数百种数据源,包含日志数据采集、数据库和中间件数据性能数据采集、数十种数据库中表数据采集、数十种数据消息中间件中数据采集等,反对集群部署、中心化配置管理、状态自监控与高效熔断等能力,反对高可扩展性,同时奇妙的解决了数据泥沼和无奈自助建模的困扰。 算法体系建设在智能运维(AIOps)落地实际中,算法体系的建设是至关重要的一个环节。算法体系建设方面,应从三个角度来去思考实现思路: 感知:如异样检测、趋势预测、问题定位、智能告警;决策:如弹性扩缩容策略、告警策略;执行: 如扩缩容执行、资源调度执行;智能剖析零碎将感知、决策、执行三个角度落地到智能运维解决方案中,造成发现问题、产生告警事件、算法模式定位问题、依据剖析后果解决问题的闭环性能。 因而,智能剖析平台应具备交互式建模性能、算法库、样本库、数据筹备、可扩大的底层框架反对、数据分析摸索、模型评估、参数及算法搜寻、场景模型、实验报告、模型的版本治理、模型部署利用等性能或模块。 云智慧智能剖析平台DOIA ( Digital Operation Intelligent Analysis ) ,依靠DODB业余运维数据库提供的根底大数据资源,赋予智能运维的能力,包含动静基线、异样检测、根因剖析、智能合并、智能故障预测、常识工程等。智能剖析平台是产出算法,满足跨平台、多样化的客户现场环境,从最小单元化部署到大规模集群式部署的可行性计划。 算法和数据的工程交融在智能运维(AIOps)平台落地的实际中,算法和数据的交融,第一步是数据的采集和汇聚,通过前文介绍的关键技术,咱们曾经取得了质量标准归一化的、通过了提取和转换的、工夫/空间/业务维度标记分明的数据,须要补充的是数据预处理相干的外围要点。 数据预处理在数据挖掘中,海量原始数据中存在大量不残缺(有缺失值)、不统一或有异样的数据,重大影响到数据挖掘建模的执行效率,甚至可能导致开掘后果的偏差。数据预处理的目标是进步数据品质,从而晋升数据挖掘的品质。办法包含数据荡涤、数据集成和转换,以及数据归约。 通过数据预处理,能够去掉数据中的乐音,纠正不统一;数据集成将数据由多个源合并成统一的数据存储,如数据仓储或数据立方;数据变换(如规范化)也能够应用,例如规范化能够改良波及间隔度量的开掘算法的精度和有效性;数据规约能够通过合并、删除冗余特色或聚类来压缩数据。这些数据处理技术在数据挖掘之前应用,能够大大提高数据挖掘模式的品质,升高理论开掘所须要的工夫。 须要留神,有些算法对异样值十分敏感。任何依赖均值/方差的算法都对离群值敏感,因为这些统计量受极值的影响极大。另一方面,一些算法对离群点具备更强的鲁棒性。数据分析中的描述性统计分析认为:当咱们面对大量信息的时候,常常会呈现数据越多,事实越含糊的状况,因而咱们须要对数据进行简化,形容统计学就是用几个要害的数字来形容数据集的整体状况。 算法工程集成在智能运维(AIOps)算法剖析零碎中,不同算法对应不同的适配场景,须要依据数据特色模式来抉择适合的算法利用。如指标异样算法的利用:针对周期稳定性数据,咱们采取动静极限的模型;针对周期不不稳固的数据,采⽤频域剖析的模型;针对稳定性的数据采⽤极限阈值判断的模型。通过模型抉择的算法,对不同的数据的模型进行适配,达到最优的成果。 因而,想要以开箱即用的形式、采纳某种规范的机器学习算法间接利用,而不思考业务特色,通常并不可行。 咱们须要首先思考该组业务指标间的关联性,如果有利用或零碎间的调用链或调用拓扑供参考,这是最好不过的。如果没有调用链或拓扑,则须要先依据已知可能的业务相关性,进行曲线稳定关联、回归剖析等算法剖析,取得极限阈值尝试失去因果匹配,通过一系列的事件归集失去相关性,再对每一次反馈进行适应,尝试主动匹配更为精确的算法和参数,才可能达到冀望的异样检测指标。 智能运维的工程化过程,是一个算法、算力与数据相结合,平台本身与业务零碎反馈相结合的简单过程。在与业务场景联合的前提下,灵便的算力组织、高效的数据同步、可插拔的服务化、模型利用过程中的高精度与高速度,是AI工程化自身的外围诉求。 总结和瞻望智能运维(AIOps)落地的过程中的坑十分多,这是云智慧过来几年大量行业实际失去的实在体验。它对数据平台搭建、数据采集与传输、数据汇聚、存储与建模、数据计算、AI体系化、场景与工程化交融等方面提出了极其刻薄的要求,须要更业余的、更高质量规范的运维数据库,还须要一支强有力的剖析、架构和开发团队撑持,能力真正带来生产力的进步。 开源福利云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。 同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置, 面向简单需要场景可能保障高效开发与交付。 点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。 GitHub 地址: https://github.com/CloudWise-... Gitee 地址:https://gitee.com/CloudWise/f... 超级体验官流动: http://bbs.aiops.cloudwise.co... 万元现金流动: http://bbs.aiops.cloudwise.co... 微信扫描辨认下方二维码,备注【飞鱼】退出AIOps社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~
关于运维自动化:搭上数字化列车带你看看智能运维的新景象
前言近两年国内频繁提及“数字化”,其中着重提到要倒退数字经济,推动数字产业化和产业数字化,增强数字社会、数字政府建设,晋升公共服务、社会治理等数字化智能化程度。随着数字化浪潮的来袭,数字化运维也成为IT零碎建设中必不可少的重要环节。 数字化的零碎建设是第一步且一次性的,而运维则是全年不停,7*24小时,每时每刻都不能短少的。就像行业中流传的那句经典表述:“三分建设、七分运维”。当绝对短暂的零碎建设实现后,就进入到了漫长的运维与经营阶段——也就是“建转运”的产生时。 目前中国数字化在停顿到“建转运”时,各行业倒退的状态绝对不平衡,但随着宏观政策层面的领导,以及企业本身的业务倒退和技术的推动,能够预感,数字化运维的重要意义以及运维的价值将在一直的实际中愈发凸显。 然而,随着区块链、虚拟化、容器、IoT等新技术的利用,IT规模和复杂度呈指数增长,现如今的智能运维是否满足企业对运维的需要呢?如果想要答复这个问题,无妨先来看一下智能运维倒退到了何种水平。 认知一直降级的“智能运维”智能运维的概念最早由Gartner在2016年提出,从这时开始,智能运维进入了概念启蒙阶段。到2018年~2019年期间,市场普遍认为智能运维次要依赖算法,各大厂商也在积极探索并在小范畴内利用。到了2020年,市场慢慢回归感性。随着人们对智能运维认知水平的加深,行业内达成了更加面向事实的共识:智能运维要以数据为根底、以场景为导向、以算法为撑持。 也就是说,智能运维肯定来源于十分好的数据根底,并应该依据用户的利用场景和需要,将适宜的算法和模式匹配到用户的场景中。工程化算法要拟合数据,依据数据和场景需要抉择或研发适合的算法。只有具备上述三个条件,能力真正造成一个真正工程化落地的智能运维。因而,对于智能运维服务商来说,既要有十分好的算法能力,又要对用户的利用场景有十分好的理解力,还要有工程化落地的能力。这几种能力都具备,能力帮用户解决问题。 对于云智慧来说,“以数据为根底、以场景为导向、以算法为撑持”解决的是智能运维方法论的“战术”问题,而要为用户真正做好智能运维,还要解决“策略”问题。 过来,IT运维的关注点在于底层设施的高可用和稳定性,而现在,用户的关注点更集中到业务层面,掂量IT对业务影响水平的指标变成了MTTR(Mean Time to Recovery,均匀故障修复工夫),这就须要智能运维平台可能从业务的视角,实现笼罩所有业务链路的端到端全局监控、治理和剖析,并与业务指标进行关联。IT零碎要以保障业务连续性为指标,同时要为更高层面的业务决策赋能。这也是云智慧对运维最外围和实质的了解——所有源于业务而又归于业务。所以说,智能业务运维是IT运维与互联网深度交融的产物,以用户体验为外围,以业务价值为导向,是运维治理在云计算、大数据技术推动下的必然结果。 站在业务视角看智能运维痛点当咱们站在业务管理的视角从新扫视智能业务运维的建设时,咱们发现,随着IT和互联网的倒退,上线的业务零碎逐步增多,外围业务越来越依赖IT零碎的稳固运行,要害利用的不间断运行成为企业放弃高效运行的基石,因而,智能业务运维要以“实现业务连续性”为最高指标,以可用性保障为重点,整合监控体系、配置管理、服务台、服务管理系统等模块的数据和业务流程,落实可用性治理、平安合规治理、连续性治理和应急治理。 其次,运维工作波及到整个运维治理的全生命周期与全闭环,而且每个场景之间从业务流程与数据角度是高度对立交融的,这种状况就主观上要求智能业务运维可能为每一个潜在的人工或低效环节赋能。因而,智能运维须要涵盖运维工作在布局筹备、监控、事件治理、日志剖析与服务治理的方方面面,而且操作上要更加简略易用,从而帮忙运维人员更精准和疾速地排查与剖析问题,更加高效地解决运维过程中面临的问题。 此外,智能运维的技术要害不是算法,因为用户的利用场景千差万别,需要也各不相同。基于明确的智能运维工程化落地场景,疾速搭建人工智能工程化技术计划,才是算法工程化的最大挑战。因而,要将智能运维的算法平台化,通过算法平台来满足简单的检测、预测与剖析类智能研发需要,笼罩从业务场景剖析、数据获取到模型部署、性能监控的全流程,买通算法开发、训练、公布各环节,让平台具备优良的算法扩大能力,满足更多产品对算法服务的调用,撑持更多智能运维场景。 新一代智能业务运维平台问世鉴于上述用户在运维过程中面临的痛点和难点,云智慧站在用户视角,遵循“以数据为根底、以算法为撑持、以场景为导向”的核心理念推出了新一代智能业务运维平台。该平台充分考虑到可落地的运维场景,笼罩整个运维治理的全生命周期,帮忙用户构建从技术到业务的残缺监控体系,在保障业务连续性的同时赋予业务疾速迭代和创新能力,带来业务与IT治理效力的晋升。 该平台由立体化监控与治理工具集、数字化运维数据中台和数据价值利用与治理产品集组成。其中,立体化监控与治理工具集从基础设施、利用性能到用户体验,涵盖从业务到基础设施的各个监控层面,帮忙用户构建从技术到业务的残缺监控体系。 数字化运维数据中台通过买通后盾IT撑持零碎与前台业务利用之间的信息断层和治理断层,向上提供数据与能力撑持,在疾速响应前台的变动和翻新需要的同时,向下保障系统稳固牢靠运行。 • 采控平台 : 一站式提供各类采集工作的配置与自动化部署,提供针对各类日志、IT根底设施等数据的采集、荡涤、监控、告警等性能,同时对采集工作和采集行为进行对立标准的调度和管控。 • 业余运维数据库: 提供高性能的一站式运维数据服务,实时高效地接入用户环境中的IT数据和业务数据,进行低成本存储、高效计算、关联剖析建模,并通过接口的形式利用规范查询语言提供各类数据检索服务。 • 算法核心: 提供算法治理、算法配置等性能,反对算法接入,智能化的数据分析、模型试验训练与调优,反对算法泛型的公布与利用,具备高可用、高并发的性能,为下层业务以及产品提供弱小的算法能力。 • 配置核心: 全面治理企业IT运维的元数据并确保数据的准确性和唯一性,以可配置、可保护的数据撑持力量促成运维监控、服务治理、运维自动化以及经营剖析相干的数据生产场景落地施行。 • 指标管理体系 : 分层构建与治理来自客户离散监控零碎的数据,针对不同对象提供指标、指标阈值规定与业务衰弱度的对立定义,并利用智能算法实现异样指标的问题排查与定位,为管理决策提供数据撑持。 此外,数据价值利用与治理产品集依据用户的不同业务场景和畛域,提供一系列运维数据价值开掘与剖析能力。用户可在基于指标体系的监控核心对运维大数据进行对立演绎、梳理,依据业务零碎架构进行层次化建模、剖析,并进行集中展现;通过事件核心接入来自于各种监控零碎的告警音讯,反对事件的告诉、响应、处理、跟踪以及多维分析,实现面向告警事件全生命周期的闭环管控。 新一代智能业务运维平台具备以下六大特点: • 全栈解决方案: 采纳面向运维监控、服务治理、可视化的all in one技术底座,提供智能业务运维全栈解决方案。 • 国产化适配: 适配国产的支流CPU、操作系统、数据库、中间件等,以反对国家信创产业的倒退,构建平安、自主、可控的信息技术利用翻新体系。 • 组件化: 提供一站式、可配置、组件化的开发能力,可疾速搭建简单的剖析与管理系统。 • 灵便,可扩大: 提供面向不同行业、数百个利用场景的模版,可疾速交付我的项目进行定制开发,撑持用户翻新利用。 • 一站式: 提供从数据采控、存储、解决、建模、智能剖析到数据利用的一站式运维数据服务,升高数据治理的总成本。 • 自监控: 具备欠缺的自监控和自运维能力,保障平台稳固牢靠运行。 凭借多年来在智能运维畛域的深耕与实际,云智慧的智能业务运维平台已帮忙各行业泛滥用户构建和施行数字化运维。新一代智能业务运维平台也将更加聚焦用户业务,具备更高与更全面的施行规范,用更加精细化与麻利化的解决方案攻破用户在运维过程中面临的未知新老问题。 开源福利云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。 同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置, 面向简单需要场景可能保障高效开发与交付。 点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。 ...
关于运维自动化:AIOps场景下指标预测算法基础知识全面总结
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。一、前言随着企业踊跃实际数智化转型降级,运维行业高速倒退推动着自动化成为数字时代不可或缺的因素,深受各行各业的注目。明天咱们就来与大家聊聊智能运维中的“自动化”算法。 在日常运维中,运维人员须要通过对基础设施,零碎服务等的监测来进行日常保护和培修保障工作。运维监控指标个别包含硬件监控,系统监控,利用监控,网络监控,流量剖析,日志监控,安全监控,API 监控,性能监控,业务监控等设施,其中大多数监控数据均以工夫序列指标的模式采集。因而指标数据在这些海量运维数据中占据着不容忽视的位置。 传统上,运维人员通过监测重要工夫序列指标的以后状态,联合历史数据的变化规律的办法来判断与监测指标相干(工作)的运行状况。如果只简略依赖人工进行预测和判断的话,不仅须要付出极大的人工成本,也难以笼罩全副监控指标,失去绝对精准的判断。这样的背景之下,针对指标的预测服务逐步变成运维服务使用者的刚需,预测场景也随着各行业数字化的倒退变得越来越清晰与多样。同时,在传统统计类、时序合成类、机器学习类、深度学习类等算法百花齐放的当下,为了令算法追随产品落地并产生相应的商业价值,既须要有对相干算法的深刻了解以及对行业业务知识的粗浅认知,更须要可能将两者深度联合。因而运维的智能化路线任重道远。 二、运维畛域的预测场景指标预测在运维畛域里有丰盛的利用场景,最常见的预测场景有根底监控资源(比方磁盘使用量、CPU、内存应用)的预测,业务量(比方银行交易量、银行跑批工夫、证券成交量等)的预测。前述预测场景在行业内曾经胜利落地,除此之外,预测算法在容量布局场景的利用中也将具备广大的利用空间 场景一:根底监控指标预测磁盘占用率预测磁盘是常见的根底监控资源,当磁盘占用率过高时可能导致系统运行迟缓甚至造成事变,因而须要运维人员监控磁盘占用率。个别状况下,当磁盘占用率超过警戒线时(如 90%)运维人员会收到邮件告诉,及时排查问题并疾速解决,以保证系统的失常运行。然而对事变的产生传统办法只能被动应答,如何变被动为被动呢? 算法能够学习磁盘使用率历史数据的增长状况,对将来一段时间的磁盘使用率进行预测,一旦发现在邻近的某个工夫点(比方四天后)磁盘使用率将超过警报线时,就能提前一周通过预警通知运维人员四天后磁盘将满,这将给运维人员足够的工夫进行动静扩容,以避免出现资源匮乏而引发损失的问题,最终防止运维故障的产生。 CPU 使用率预测CPU 的使用率因相干业务的不同会产生形态各异的应用曲线,在某些时候会体现出较为显著的周期性(例如执行定时的跑批工作),这要求咱们在 CPU 使用率的预测中也能展现出这种周期性,为特定工作预留足够的 CPU 资源以使工作稳固运行。 场景二:业务场景在智能运维利用场景中,业务预测是企业依据工夫序列数据的预测后果,来制订业务将来倒退(支出、销售、对资源的需要、产品可交付成绩)的工具。精确的预测能为企业的战略决策提供数据撑持,使企业可能无效的进行资金估算及资源分配,因而精确的预测对企业布局及其重要。企业往往亲密关注支出的期望值,会每月/季度进行预测,而后将预测与理论后果进行比拟,以尽早批改某些要害过程。 场景三:容量布局在传统的容量布局中,为了升高容量决策的危险通常会提供肯定的冗余容量,而这会升高资源应用效率,减少企业的经营老本。另一方面,人工手动形式进行容量布局效率低,且强烈依赖于人工的教训,难以做到定量标准化。通过对业务机器资源应用状况的剖析,联合预测算法对资源利用率的预测后果,可能在保障不影响业务稳固运行的状况下,弹性对调配的机器资源进行扩/缩容,以最大化机器资源使用率,升高经营老本。 三、指标预测算法运维畛域的预测次要针对的是工夫序列数据,工夫序列是指将同一统计指标的数值按其产生的工夫先后顺序排列而成的数列。工夫序列数据个别具备趋势性、季节性、周期性和随机性等特点。现有的时序预测办法大抵分为四类,传统的统计类办法如线性回归、ARIMA;古代的机器学习类/深度学习类办法如 SVM、LSTM;工夫序列合成类办法如 Prophet;深度学习类算法如 CNN、RNN。 统计类办法统计类办法次要钻研数据点之间的线性关系,捕获其线性法则。大部分统计类算法要求时序数据不含缺失值,并且在统计视角是安稳的,或者通过一些安稳化操作后是安稳的,所以只实用于有显著线性关系的数据。 时序合成类办法时序合成类办法常见的有 HoltWinters、 Propeht 等,这类算法通过将数据合成为趋势性重量,周期性重量,安稳重量等三个正交的局部后,对各重量进行预测。因为其具备较高的可解释性并在周期类数据中具备良好的体现,而在理论生产中失去广泛应用。 机器学习类办法机器学习能够承受尽可能多的输出,包含数据、数据特色及对其的影响因素(如经营流动、天气、地理位置等)),选取适合的特色有助于进步预测准确性。罕用的机器学习类预测办法有决策树、奢侈贝叶斯、K 近邻、反对向量回归等。然而在应用机器学习类办法时须要人工结构数据的特色属性,因而对运维畛域状态多样的指标数据,如何自动化的针对不同数据进行特色筛选是一个亟待解决挑战。 深度学习类办法随着企业数字化转型的继续发展,可用于学习的指标数据迎来了爆发式增长,尤其是转型后随着工夫的增长,各行业的运维数据失去了稳步积攒,深度学习类办法在海量数据上取得了施展能力的机会。深度学习的办法往往可能捕获数据间简单的非线性法则,罕用的深度学习预测类办法有 CNN、RNN、LSTM 等,这些办法在预测畛域均有不错的体现,而且预测的准确性会随着数据量的增多而进步。不过这类方也存在肯定的局限性,例如模型的可解释性、较多的模型参数,调参难度都有很大的晋升空间。 四、节假日预测在泛滥企业业务场景中,取得精确的预测后果对企业营销、倒退等策略的确定具备重要的意义。泛滥商业行为中存在两种毁坏上述"规律性"的事件:节假日和促销流动。节假日通常会影响企业的营业量。 譬如银行在周末、传统节假日时的存/取款笔数相较于工作日会有较大差异。其中工作日及非工作日这种周期性行为可能被算法学习,节假日的特点则须要放大到年周期的历史数据进行学习,很多企业个别难以提供较长历史期间的数据。其次,企业作出促销等流动的决定,造成营业额在短时间内较历史具备较大增幅。因为这种流动往往依据具体环境长期决定,或不具备周期性,或在历史数据中从未产生,因而预测算法难以通过对历史数据的学习来对将来数据做出绝对精确的预测。 为了解决以上问题,算法须要可能对历史数据及其外的其余信息进行学习,例如节假日日期、促销流动的日期及持续时间等,算法不仅能够学习到历史数据中“不变”的法则,也须要能学习到内部信息中的“渐变”为业务带来的影响。 五、总结运维畛域的工夫序列预测场景丰盛,除了常见的根底监控指标和业务关联指标外,也有特定行业的新需要如容量布局。能够预感的是,将来将会有更多“自动化”算法呈现在更多的智能运维预测场景里。 目前用于工夫序列预测的算法品种繁多,从传统的统计类算法、工夫序列合成类算法,到新时代的机器学习类、深度学习类算法。各种算法在不同的预测需要下各施拳脚,百花齐放,为实在生产场景中的预测工作提供了短缺的弹药。 即使不同场景与不同业务所产生的运维数据错落多样,如安稳型的、周期型的、渐变点型的等,惋惜的是,当初暂无奈找到一种算法或一套参数实用于所有数据,那么将来面对运维畛域品种繁多的海量数据,通过不断创新与实际,咱们置信在众人的致力下终将找到一个高效的、自动化的解决方案,来实现多种数据的高准确性的预测,真正将运维人员从算法抉择和调参中解放出来。 开源福利云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。 同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置, 面向简单需要场景可能保障高效开发与交付。 点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。 GitHub 地址: https://github.com/CloudWise-... Gitee 地址:https://gitee.com/CloudWise/f... 万元现金福利: http://bbs.aiops.cloudwise.co... 微信扫描辨认下方二维码,备注【飞鱼】退出AIOps社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~ ...
关于运维自动化:智能运维应用之道告别企业数字化转型危机
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。面临的问题及挑战数据中心倒退历程2000年中国数据中心始建,至今已经验以下3大阶段。晚期:离散型数据中心IT因以我的项目建设为导向,故不足布局且无专门运维管理体系,此外,开发建设完的我的项目均是独立运维保护,因而效率低下。中期:各行各业进行了利用大集中,逐渐依照标准化体系建设了生产核心、灾备核心,且引入“两第三核心”的模式。此外,该阶段开始有了零碎标准的运维体系,具备代表性的建设了IT服务体系、监控体系等运维框架。另一方面,也通过流程实现跨部门的运维协,有了清晰的开发、测试、运维的边界,各业余畛域内的运维工具蓬勃发展。前期:自2015年后,因为IT技术的高速倒退,业务需要的一直变动,数据中心逐渐向多活混合云环境进行演进,从金融行业逐渐扩大到运营商、能源、政府、军工等行业。数据中心开始围绕服务和资源的供应提供运维保障,运维工作逐渐走向一体化、自动化,最终向着智能化演进。本篇文章表述的解决方案则次要是针对自动化运维场景。 数据中心现状剖析因以后大部分数据中心运维环境较为简单,且IT技术栈具备多样性,故而导致运维对象愈发宏大,运维人员每日的运维工作越来越简单繁琐。经统计,上述简单的运维工作中的70%均是法则且重复性的,因而导致人力投入老本越来越大。此外,因不足标准化运维工作流程,所以运维工作品质只能通过技术人员集体主观因素来断定。另一方面,大部分企业运维工作人员沉底下来的常识无奈无效复用,交接工作流于形式,因而导致运维工作成果个别。 除上述70%的重复性运维工作外,还有30%的运维工作是属于简单且操作危险高的。企业常常会因为技术人员集体因素造成了业务的隐患。整体运维工作效率偏低,带来了业务中断工夫长,应急处理成果低的问题。 自动化运维挑战与最佳实际基于以上数据中心的运维问题,云智慧依据本身在自动化运维的多年教训,总结以往在进行自动化运维我的项目建设时遇到的挑战。如云智慧很多客户建设了自动化运维平台,但平台自身短少开箱即用的场景;此外,局部客户我的项目的建设周期过长,且短少行业起码实际的参考。 云智慧的Automation平台在各行各业都有交付,且将各行各业罕用的自动化运维业务场景积淀成了规范产品组件,真正做到了开箱即用。如海量的巡检指标,利用公布的标准化编排,灾切的最佳实际等,均能大幅缩短自动化平台建设周期状况下,给出最佳实际供企业参考抉择。 传统的自动化平台大部分以脚本调度性能为主,短少了各种无代理协定的近程采控机制。云智慧基于运维中台化的了解,打造了专门的全栈采控核心cdc,在撑持脚本类的调度性能以及开机即用的性能下,还反对了各种硬件、虚拟化、容器、微服务、业务类等封装好的采控API接口。如各类虚拟化的创立、扩缩容接口,硬件IPMI的采控协定,K8S的接口等。 云智慧采纳分布式大数据架构和智能化调度引擎解决了高并发解决能力问题,反对百万级治理节点高效率高文档的工作状态。 以往的自动化工具短少标准化和开箱即用的服务调用接口,现今其余运维工具很多短少场景联通,容易造成自动化数据孤岛。云智慧依靠本身的运维中台,具备开箱即用的标准化服务接口,不论是其余运维工具调用自动化工具,还是自动化工具接入第三方运维工具的数据,均能够满足。 解决方案与性能场景介绍自动化运维平台架构图下图为云智慧自动化运维平台的架构图,分为以下几个纬度: 纳管对象层:蕴含数据中心日常运维的全栈对象,例如操作系统、数据库、中间件、物理服务器、业务利用、网络设备、存储、云以及虚拟化资源等。执行通道层:针对下图被治理的对象,云智慧采控核心cdc提供了agent代理模式,以及像ssh、ipmi、snmp、jdbc、smi-s、jmx和各类api等的无代理采控协定。服务管理层:云智慧具备标准化的流程治理性能,如对立脚本治理、操作编排、脚本执行治理、定时工作、各类查问性能。上述通用化性能均会为下层自动化运维场景提供底层撑持能力。运维场景层:该层包含利用公布治理、自动化巡检、软件装置、合规建设、运维工具箱、应急处理等。互联互通:该模块中的运维工具能够是第3方的工具。云智慧作为智能化全栈运维的厂商,除了自动化模块外,同时也具备IT服务治理、监控、配置、可视化等运维通用化工具。因而能够帮忙企业客户建设一整套的运维中台最佳实际。 性能场景介绍高效的利用公布治理因为传统的利用公布大部分依附手工进行,所以公布一个零碎大略需破费1-2个小时。应用云智慧的自动化利用公布公布后工夫可缩短至10-30分钟无效的进步公布效率。云智慧自动化运维平台整体是基于DevOps理念,目标是增强开发、测试和运维之间沟通、合作和集成,实现利用公布交付的标准化。此外,平台整体公布模型采纳“环境”+“组件”的设计,同时提供可视化的编排性能。云智慧可视化编排引擎应用的是本身运维中台中服务编排的通用化能力,反对简单的串并行,节点可调用不同环境和组件,具备全局参数化等能力,同时撑持齐全主动以及半自动化等不同场景。最初,平台反对节点处跳过、反复执行、暂停等通用化细节解决能力。 另一方面,云智慧自动化运维治理平台还提供公布驾驶舱性能、各种数据看板,可进行全局概览。云智慧借助自动化平台通用化能力,如命令、脚本集中管理等,反对有代理和无代理模式,细粒度、全方位的进行权限管理控制,来确保所有运维操作平安可控。 便捷的 自动化 巡检云智慧自动化平台中内置了全栈式巡检模版,从罕用的操作系统、数据库、中间件到网络、硬件、存储、云、容器、微服务等,齐全地做到了开箱即用。依靠云智慧运维中台指标体系能力,企业也能够自行保护编辑。 巡检执行能够手工触发,也能够依附定时工作主动触发。传统巡检依附人工进行,每次巡检工夫30-60分钟不等,自动化巡检可将巡检工夫升高至1-2分钟,此外,巡检报告还能够主动发送给治理或者领导,并将问题巡检项标注进去。巡检指标与基准值的比对设置是依靠云智慧运维中台中指标治理上面的阈值治理。该项反对传统的动态阈值、动静阈值和巡检指标相结合,还反对巡检后果单人/双人复合,可依照业务零碎纬度或者设施类型纬度进行主动巡检工作。此外,还可联合云智慧知识库,给出异样巡检项解决方法参考。 巡检还反对异样巡检项生成工单功能,企业可按需进行应用。云智慧运维中台指标体系领有良好的高并发能力,能够同时反对百万级治理对象同时并行巡检。 灵便的运维工具箱运维工具箱的关键技术在于开箱即用的原子工具积淀。云智慧领有10多年自动化运维教训,具备丰盛的内置开箱即用原子化工具集。 企业运维管理人员通过云智慧提供的工具集,只须要输出指定的参数(如IP地址,文件系统目录等)自动化工具便可主动执行,还可同时并行调用多个工具或并行执行多个对象。此外,上述工具集前期是能够编辑保护的,企业可依据本身需要补充罕用原子化工具集,通过审批前方能公布上线应用。所有自动化操作调度的执行过程都有日志留痕,所有的操作都反对前期审计,还可与企业堡垒机进行对接。可缩小人工间接与生产环境进行交互,升高由人工误操作产生的生产危险。 平安持重的批量 自动化批量自动化次要利用于银行日间、日终的跑批业务,因而须要时刻保障整个自动化平台平安持重的运行。并且在整个跑批过程中,须要全程监控,呈现极其零碎劫难后,要有劫难复原机制。云智慧的自动化平台是能够取代control-m的性能的,除了罕用的性能外,还反对批量的拓扑剖析。在做control-m迁徙时,能够将control-m导出xml文件中的要害因素字段与云智慧平台进行比对映射,而后将其转化成exl字段文件。此外,平台反对承接应用原零碎上的脚本,将转化过的exl文件导入到云智慧的自动化平台里,能够主动生成批量调度的拓扑视图,再进行前期的参数化调整,便能够实现迁徙工作。 一键式灾备切换灾备切换的业务场景因波及预案、灾切模型、签到等,故较为简单。关键点在于数据中心级的灾备切换和灾切演练,一键式灾切是为应答突发事件时晋升应急解决能力。自动化编排能力能够撑持简单灾切流程编排。像灾切外面波及到的环境、数据一致性、网络连通性、配置一致性查看,云智慧都有相干的性能做撑持。此外,云智慧额定提供沙盘演练的性能,整体的灾备模型能够与指标解耦,满足流程复用的要求。还有独自的挪动pad作为灾切的管制端,体现一键切换,切换过程中的各项数据都会实时监控,反馈到灾切大屏上。 平安合规审计云智慧提供开箱即用的行业基准,例如CIS、PCI DSS、SOX等,一套平台即可提供不仅仅是物理服务器和虚拟机,还包含数据库、中间件和网络等数据中心资源的合规审计。此外,还提供以后和历史的破绽危险趋势具体报告,建设配置规范并监督变更状况,通过8,000多个开箱即用的自动化操作流程在问题修复时大大缩短修复工夫。与此同时,还反对数以千计的设施类型、型号组合。 一键开闭市(券商)对于证券行业,每天须要定时执行一系列业务操作,如开市流程、闭市流程。上述业务场景便要求运维人员须要依据业务规定在不同设施上的利用零碎进行操作运行。此业务流程比较复杂,同时具备串行、分支、判断、并行、聚合、循环,为了升高流程的复杂性,须要各种子流程;此外,业务规定判断也比较复杂,须要依据业务数据来判断流程执行是否有谬误;与此同时,在两头步骤执行谬误时,需通过人工修复谬误或者有管理员角色确认后,方能持续进行。云智慧提供的自动化运维平台对对流程执行有严格的安全控制,如权限管制、工夫管制等。除了一键开闭市,还能为券商清理业务提供清理前筹备工的自动化业务能力。除了日常运维工作,还有一部分业务操作也能够应用自动化工具来实现。 软件 自动化 治理云智慧自动化运维平台中自带软件介质治理平台,可上传治理各类软件的介质版本,反对并行在多个指标对象上执行装置部署步骤。与此同时,平台提供丰盛的交互参数,文件参数、加密参数等。除了装置性能,平台也反对卸载启动等等,依靠云智慧运维中台中采控核心的通用化能力。 补丁 自动化 治理为预防系统漏洞带来的安全隐患,零碎运维人员必须定期为操作系统装置补丁。但在传统的运维模式下,零碎运维人员很难直观理解每台机器的补丁装置状况,因而须要针对每一台机器执行破绽扫描并依据扫描后果为每台机器装置补丁。这种手动操作的形式,不仅消耗大量工夫,还容易出错。自动化作业产品提供补丁治理、主机扫描、补丁装置等性能,不仅能让运维人员理解服务器的衰弱状态,还可能依据扫描后果为服务器装置缺失的补丁,及时解决安全隐患。 云智慧的补丁自动化治理性能能够和合规审计性能一起应用,修复一些短少的补丁问题。重点是在批量并发执行,被动扫描并发现以后主机操作系统、数据库、中间件补丁装置状况。与此同时,云智慧会定期更新补丁库。 利用公布一体化场景利用公布的一体化场景是自动化运维的交融场景,次要呈现在理论的公布场景中,场景蕴含了ITSM工具、配置管理工具、自动化公布工具、对立监控工具等多种工具。利用公布的一体化场景是典型的一体化协同联动场景。工作由导入生产排期信息同步到ITSM零碎,通过ITSM审批,确定公布工作;批改工作状态(从待审批到待发布)时,ITSM会告诉监控零碎在公布期略过该业务零碎的监控,期待公布工夫后,能够由人工触发或者主动触发进行自动化公布;公布过程中,监控零碎会过滤掉该业务零碎的告警,公布实现后,公布工作状态同步回传给ITSM零碎,ITSM完结公布流程发动配置流程,通过一系列的申请、采集、比对最终更新完该零碎的最终配置信息到配置库里,一体化流程完结。 流程即服务利用场景流程即服务的联动场景次要体现的是各类服务申请能够通过自动化平台进行主动交付的场景。企业通过服务门户抉择各类服务申请,服务申请的工单通过审批后,依照不同业务场景触发自动化平台的API服务接口,ITSM工单中的参数同步到自动化平台中,自动化平台依照业务场景进行主动交付,主动交付实现后回传后果至ITSM平台,能够大幅缩短交付工夫。像日常虚拟化资源扩缩容服务申请,标准化数据变更,标准化环境变更等。 故障处理一体化场景故障处理一体化的场景外面波及预案、处理流程编排、以及与ITSM联动。失常触发故障处理一体化的场景能够由管理员手工触发,也能够由监控告警主动触发,触发之后依据零碎内置的预案(如过程启停、清理空间等)生成一张ITSM处理类或者变更类的工单,依据紧急度、影响度多种因素来影响ITSM流程流转的节点分级,蕴含紧急变更、个别变更、规范变更,每种类型波及到审批人及审批流程均有不同。审批也能够蕴含主动审批、人工审批等,最终审批完结后触发处理工具进行自动化处理工作,调度完结后回传后果到ITSM工单进行审核。 案例分享典型案例-某银行企业背景:该企业因为数据中心的运维对象被管设施对象大略有3000多个,企业运维技术人员每天都要做屡次残缺的巡检,每次残缺的巡检要花费1个小时以上,巡检完的后果也没有特地好的展示模式,都是填到一些制式的表里,他们的需要特地清晰,都是自动化巡检。 解决方案:云智慧通过3个月的我的项目建设,纳管了全行3000多的软硬件运维对象,用云智慧的自动化零碎1分钟之内就能够实现1次残缺的巡检工作,巡检完的后果,通过云智慧的巡检大屏幕以及数据看版,还可生成残缺的巡检报告。如果在巡检过程中发现异常的点,还会推送到该企业的一体化告警平台,进行告警。这个我的项目是一个短平快的我的项目,依靠云智慧内置的开箱即用的巡检指标,在极短的周期实现测试上线工作,而且间接晋升了日常运维的效率。 典型案例-某制造业集团公司企业背景:该企业在数字化转型过程中,发现不足体系化、规范化的运维流程。日常的运维工作过度依赖运维人员的能力和态度,危险比拟高,有新的运维人员进来,如果技能不达标,会造成极高的业务危险。为了解决上述问题,该企业打算利用自动化平台来缩小对运维人员技术能力的依赖,蕴含升高因为运维人员态度造成的危险。 解决方案:云智慧通过大略半年的建设,该企业整体运维工作效率晋升了70%,升高了30%日常运维的的操作危险。企业应用公布纳管了56套利用零碎,利用公布的自动化率在90%以上,每月惯例发版次数超过80次。网络自动化模块,纳管了500多台网络设备,交换机、防火墙、路由器、负载平衡等都均被纳管,自动化率达到了95%,月均惯例网络变更40屡次。除了网络设备,该企业还纳管了2000多个像操作系统、数据库、中间件的运维对象,主动率达到了98%,运维工具内的原子化工具集超过2000种,每个月运维工具箱应用次数超过4000次。此外,该企业还做了灾备切换,将最重要的30套零碎纳管进来了,灾切的自动化率在55%,在60分钟内就能够实现数据中心级的灾备切换。这30套重要的业务零碎,还做了超过100套的应急处理预案,次要是固化下来一些日常的故障自愈场景。自动化平台内蕴含超过100种以上的软件版本介质包,日常软件装置的自动化率超过99% 。 价值与劣势自动化 运维全栈式采控能力依靠云智慧运维中台中全栈的采控能力,不光能够对各类平台设施,像操作系统、数据库、中间件进行采控调度,还反对各类异构的自动化作业,比方除了常见的各类脚本,还反对http作业、c/s架构的软件、as400的作业,像400属于金融行业比拟老的零碎了,然而这些都能够反对,还有像数据库的SQL、存储过程的作业、邮件的、FTP等等这些类型的作业都能够完满反对。 成熟的开箱即用 自动化 业务场景云智慧提供的自动化平台,领有成熟的开箱即用的业务场景,能极大的缩短我的项目的建设周期。下图常见的9个场景,加一体化的场景,都能比拟好的反对,像利用公布、主动巡检、运维工具箱、灾切、批量、网络、利用处理、平安合规、软件装置。 平安可信的技术平台云智慧提供平安可信的技术平台,云智慧的全栈产品都是自主研发的,躲避了平安缺点隐患。能够在国产化信创环境上运行,像国产化的cpu(鲲鹏)、国产化的操作系统(麒麟、统信)、数据库(人大金仓、达梦)、中间件(西方通、宝兰德)等等。国家近期公布了最新的数据安全法,云智慧的自动化平台符合国家的各项数据安全法规,不论是数据传输、存储、解析等等环节,都平安合规。这个平台通过了10年以上的长期迭代,稳定率超过了5个9,反对各类异样熔断、极其状况下的劫难复原。 ...
关于运维自动化:根因分析思路方法总结|保障-IT-系统及其稳定性
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。引言近年来,随着IT系统监控能力的日益成熟,IT零碎运行时问题的根因剖析畛域吸引了很多研究者的眼光。本文通过调研大量运维畛域根因剖析的相干文献,并联合运维的理论须要,将根因剖析问题进行了拆解,并对各子问题的解决方案进行了总结和剖析。 一、IT零碎及其稳定性的概念及形象IT零碎,即IT基础设施。其定义千差万别,但个别认为是包含经营整个组织所必须的一系列物理设施和应用软件的汇合,也包含由管理层估算所决定的组织范畴内的人和技术能力的服务汇合。业界常常提到的信息技术硬件、软件、服务方面的投资,其实就是IT基础设施。对于企业来说,这些设施可能为客户服务、与供应商建立联系和外部治理提供根底。IT基础设施的收入往往占到大型企业信息技术收入的25%-30%。IT零碎运维的工作要尽可能保障服务运行环境的稳定性——即在无限的IT基础设施所提供的资源条件内,保障服务得以安稳运行。如图1所示,通过监控零碎运行状态(状态监控),运维人员须要剖析其中的故障点(故障检测),并通过回溯排查问题的源头(根因剖析),进而对系统进行治理(控制策略及管制信号生成),以使零碎运行恢复正常或放弃安稳。 根因剖析作为 IT 运行的重要组成部分,旨在找出哪些事件真正触发了 IT 零碎中的景象或症状。与临床诊断相似,操作人员通过综合剖析指标数据和系统日志,判断零碎的次要问题在哪里,从而实现故障定位。在很多企业当中,出于对管制老本,维持服务稳固等方面的思考,根因剖析技术是有微小需要的。良好而成熟的根因剖析技术能够帮忙零碎的运维人员疾速定位到零碎问题,从而放慢问题的修复速度,以尽量小的代价解决IT零碎在运行过程中遇到的问题,减少零碎的安稳运行工夫,缩小企业损失。在图1中,根因剖析作为问题发现模块和问题解决模块之间的枢纽环节,起到十分重要的作用。一方面,当今的IT零碎十分复杂,零碎动辄上千节点,且节点之间的构造和性能高度耦合,单点的问题也往往有相当大的影响范畴,使得运维人员往往无奈间接确定零碎的故障点。另一方面,为了化解系统故障带来的影响,运维人员修复零碎须要以根因剖析的后果作为根据来隔靴搔痒,使得零碎得以在尽可能短的工夫内恢复正常。 传统运维须要通过人工形式进行。运维人员在该阶段排查故障根因往往须要经验艰苦的过程,须要通过查看系统日志、监控指标,理解零碎状态,能力推断系统故障的起因所在。而随着自动化运维的倒退,零碎的主动监控和信息收集日趋完善,运维人员对系统的监控越来越直观,且实时化水平大大提高。在面对小型IT零碎时,自动化运维极大地增强了运维人员对系统的掌控能力,得以缩小运维人员在放大问题根因范畴方面所投入的工作量。但与此同时,随着DevOps和云技术的倒退,IT零碎的规模变得越来越大,一个独立零碎领有上千节点已不算常见。另外,服务的微服务化也使得IT零碎的构造变动越来越迅速,系统结构对于大型零碎的根因剖析,因为监控数据量宏大,仅仅依附运维人员来进行根因剖析便显得顾此失彼。 因为人工排障依然具备诸多有余,自动化的根因剖析能力便成了大家关注的热点。自动化的根因剖析,是利用算法对给定的故障问题进行自动化剖析,输入举荐后果来辅助运维人员排查零碎问题的过程。实现自动化的根因剖析,能够加重运维人员的工作累赘,缩小零碎问题的均匀修复工夫,进步零碎的均匀可用时长。另外,对于C端的企业来说,它更是缩小客户投诉,缩小运维老本,进而进步经济效益的重要伎俩。 二、根因剖析思路与办法总结根因剖析(root cause analysis)一词本不是运维的创造。在IT畛域里,根因剖析起初是指剖析导致程序运行异样的问题点,即咱们平时所说的“找bug”。起初,随着运维与开发变得越发密不可分,开发口中的根因剖析一词也逐步拓展到了运维行业,演变成咱们当初了解的IT运维中的根因剖析。 顾名思义,根因剖析是一个从问题景象探索到问题实质的过程。依据IT运维自身的特点,根因剖析问题能够进一步分成两局部。首先,咱们须要从宏观层面上确定问题产生的地位,给出相干的地位信息和大抵的问题范畴;这个过程咱们称之为根因范畴压缩。其次,咱们要依据根因范畴压缩的后果对单点进一步进行排查,具体定位到节点上的问题事件,为运维人员解决问题提供相干的逻辑证据;这个过程咱们称之为根因事件查找。 在上面的篇幅中,咱们别离介绍目前已有的针对根因范畴压缩和根因事件查找的思路和办法,并对各办法的优缺点进行简略的剖析。 1、根因范畴压缩办法根因范畴压缩的次要目标是从IT零碎宏大的监控数据当中筛查出问题的次要故障点。因而,该过程中所用的办法次要以数据驱动为主,运维逻辑为辅,通过数据的统计特色和运维教训的联合来筛选出问题源头的范畴。因为数据驱动的模型和办法不可避免地会受到数据品质的影响,因而该过程也须要对后果的可信水平进行预计。 基于分类器的模型,例如决策树、反对向量机(二分类模型)、神经网络(二分类或多分类)等模型,将零碎状态转换为特色,通过对系统的特色和特色之间的隐含逻辑进行学习,从而对系统所处的状态和对应的根因范畴进行判断。通过统计学习或机器学习的伎俩,分类器模型都能够很不便地进行对系统束缚关系的主动抽取,从而推断出不同状况下的根因范畴,因而该类模型具备较好的适用范围:只有能对系统的特色进行提取和对数据进行标注,往往能够应用该类模型进行根因范畴压缩。但随之而来的是,基于分类器的办法广泛具备后果可解释性比拟差的问题,且零碎常识隐含在模型构造中;对于根因剖析问题,咱们很难验证模型所学到的“运维常识”是否实在存在。另一方面,目前咱们还未发现有较为无效的特征提取和筛选的通用办法。对于不同的运维数据,须要关注哪些特色来解决根因范畴压缩的问题,也须要通过肯定工夫的积攒。因而,此类办法对系统监控数据的数量和品质是有肯定的要求的。 此外,还有一类较为常见的模型例如马尔可夫模型,随机Petri网等,通过对系统结构的模仿,利用内置在模型中的运维教训对根因范畴进行预计。此类模型的特点是,以数据为导向,通过图模型搭建零碎的大抵框架,而后通过机器学习的伎俩确定模型中转移关系的概率分布,从而主动生成运维常识的概率模型。在此类模型中有现阶段比拟风行的根因剖析思路,即在节点或指标的关联拓扑上,利用统计学习进行零碎建模,而后将运维教训设计为算法逻辑进行根因范畴压缩。例如,一些办法利用故障的散布特色对根因地位进行辨认,其前提假如为,如果大量异样业务通过某节点,则该节点成为根因的可能性会更大。该系列办法将零碎模型与运维教训联合起来,能够起到较好的根因范畴压缩成果。 总的来说,数据驱动的办法在放大根因范畴方面的确能够起到肯定的作用,但其在大部分场景下仍然无奈对后续剖析提供足够的帮忙,对问题细节的展示并不充沛。在更深层次上,因为“因果性”与“相关性”两个概念之间差别难以弥合,算法所抽取的相关性与系统故障流传的因果关系较难进行良好的对应。运维教训在算法中的交融能够适当地拉近根因剖析中“因果性”和“相关性”的间隔,但仍不足以使运维人员获取足够的信息进行问题的修复。因而,只有根因范畴压缩的能力,咱们依然须要局部的人工问题排查,很难实现IT系统控制闭环的自动化。 2、根因事件查找办法目前对根因事件查找问题的解决办法较为少见,学术界对此问题的探讨并不充沛。贝尔实验室早在1999年提出了一个基于事件推理的根因剖析框架。该框架提出了基于事件关系图的根因推理方法,并且思考了不齐全信息下的根因推理问题以及时序信息的引入对事件关系图建模能力的影响。该办法对现今的智能运维根因剖析有很好的领导和借鉴意义,但惋惜的是,起初对该方向的深入研究大部分转到了Petri Net上,慢慢地脱离了当初的运维场景——从剖析运维资源占用状况的角度讲,这样的办法依然能够解决一部分简略零碎的运维问题,但随着运维零碎规模越来越大,服务的数量越来越多,资源的占用状况越来越简单,基于Petri Net的剖析缓缓的开始变得有力。能够预感,间接以资源占用的细节开始进行运维故障的剖析会给剖析引擎带来极大的累赘。另一个乏味的想法来自一篇于2012年发表在IEEE/ACM ToN上的论文。这篇论文中提到的G-RCA零碎是根因剖析的一种很好的思路——通过剖析零碎事件之间的关系来构建事件的因果图,而后利用不同的推理方法来进行根因事件剖析。其中介绍的常识抽取办法,对于解决和刻画运维畛域的根因剖析问题也相当有借鉴意义。另外,其余一些基于SAT实践,诱导逻辑程序(概率模型或确定模型)等的根因推理的框架或模型,也在局部钻研中提到过,但因推理的简单度过高(尤其是一些非on-the-fly的办法)或与运维场景的需要相去甚远,并未有在IT运维场景落地的前景。 开源福利云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。 同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置, 面向简单需要场景可能保障高效开发与交付。 点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。 GitHub 地址: https://github.com/CloudWise-... Gitee 地址:https://gitee.com/CloudWise/f... 万元现金流动: http://bbs.aiops.cloudwise.co... 微信扫描辨认下方二维码,备注【飞鱼】退出AIOps社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~
关于运维自动化:Linux命令-常用总结一
ip add/ifconfig(须要执行yum install net-tools.x86_64 ) //查看网卡信息vi /etc/sysconfig/network-scripts/ifcfg-ens192 //配置网络ip route show //查看路由ip route add xxx/x via xxx dev eth0 //增加动态路由ip route add default via xxx dev eth0 //增加默认路由ip route del xxx //删除路由service network restart / systemctl restart network.service //重启网络服务systemctl restart datafort.service //重启数据库服务systemctl enable mariadb //数据库开机自启动systemctl start mariadb //运行数据库服务vi /etc/selinux/config //查看防火墙配置systemctl stop firewalld.service //长期敞开防火墙systemctl disable firewalld.service //永恒敞开防火墙vi /etc/selinux/config //敞开SELINUXvi /etc/resolv.conf // 批改DNS配置文件systemctl enable sshd //开启ssh服务systemctl start httpd //启动httpd服务yum install (-y) lrzsz //上传下载文件yum install -y httpd //装置Apacheyum install -y php php-mysql //装置php环境yum -y install wget //装置wgetyum -y install httpd httpd-devel //装置Apacheyum install -y (mariadb) mariadb-server //因为mysql要免费,社区版收费,所以咱们装置mariadb,也够用rpm -ivh http://repo.zabbix.com/zabbix/3.4/rhel/7/x86_64/zabbix-release-3.4-2.el7.noarch.rpm //下载zabbix包yum install -y zabbix-server-mysql zabbix-get zabbix-web zabbix-web-mysql zabbix-agent zabbix-sender //装置zabbix包cat /etc/yum.repos.d/zabbix.repo //查看zabbix的yum源rpm -qa | grep //查看已装置的yum源、rpm包vi zabbix_server.conf //编辑zabbix配置文件rz //上传文件sz //下载文件ls -l //查看文件权限chmod 777 file //批改文件权限为可读可写可执行tar -xvf file //解压tar压缩文件gunzip create.sql.gz //解压文件./install.sh //装置命令./beta.sh -m=product -p=vm -o=hs //装置vdba命令mysql //查看mariadb数据库是否装置胜利cd /usr/share/doc/zabbix-server-mysql-3.2.10/ //进入数据库表所在目录mysql->use zabbix;mysql->source create.sql; //对表进行导入mysql->create database zabbix character set utf8 collate utf8_bin; //创立一个zabbix库并设置为utf8的字符编码格局mysql->show databases; //查看数据库mysql->grant all privileges on zabbix.* to zabbix@localhost identified by 'zabbix'; //创立账户并且受权设置明码mysql->flush privileges; //刷新mkdir /xxx //创立目录文件夹cd /etc/zabbix //进入文件所在目录pwd //查看以后所在目录rm 文件 //删除文件rm -r 目录或文件 //删除目录(及目录下所有文件)(非空也能够)rm -rf 目录或文件 //强制删除,如:rm -rf * 为删除当前目录下所有文件tar –zxf xxxx //解压tar.gz压缩文件make //编译make install //装置make clean //删除装置时产生的临时文件find -name //查找文件所在门路pwd //查看以后门路cat /etc/group //查看用户组cat /etc/passwd //查看用户ll /etc/*centos* //查看版本号的文件cat /etc/centos-release //查看CentOS的版本号uname -r //查看内核版本getconf LONG_BIT //查看操作系统位数ps -ef | grep java //查看过程运行vi /etc/locale.conf -> LANG="en_US.UTF-8" //批改零碎语言为英文timedatectl set-timezone Asia/Shanghai //批改零碎时区☛ 咱们不仅干活,还有无穷干货(常识大脑)! ...
关于运维自动化:数字化时代企业运维面临现状及挑战分析解读
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。引言近年来,随着IT互联网的迅速倒退,数字经济与数字生存对人们日常生活的影响也逐步加深。如下图右下角所示,局部APP曾经扭转了人们的衣食住行。此外,新冠疫情在寰球的暴发也使得寰球数字化倒退的速度失去了进一步晋升。在面对疫情不确定性挑战中,各个行业都意识到了数字化转型对企业的重要性。 下图2021年联合国公布的寰球数字经济报告中更是粗浅地指出了数字经济以及数字资产对各个国家的影响。 数字化运维现状与剖析数据分类与利用场景通过云智慧的总结与梳理,从数据的角度,运维数据大抵能够分为以下 7 类: 指标类数据:即服务器运行时以后的CPU利用率、可用内存容量、磁盘IO速率、网络传输速度等;日志类数据:即各类软硬件输入的记录零碎运行过程中某一个工夫节点产生的一些事件的文件;警报类数据:即各类软硬件基于本身定义的谬误或故障,收回的各级警报信息,某些类型的警报也是日志的一部分;配置类数据;更多的是指运维对象的一些绝对动态的属性信息。常见的就是保留在CMDB外面的CI项属性信息;关系类数据:业务零碎的横纵拓扑,运维对象之间的关联关系数据。常见的有相似于根底监控中基于snmp等技术发现的拓扑信息、apm输入的调用链信息,基于open tracing标准或用户本人的业务标记生成的日志输入的调用链以及CMDB外面保留的人工生成或基于各类根底监控技术发现的关系数据;工单类数据:基于日常运维过程生成的各类运维工作数据,例如服务申请工单,事件工单,问题工单,变更工单等等类型的工单数据;常识类数据:在日常运维工作中积攒的IT运维常识数据,如知识库中的通用IT技术常识,工单积淀的业务运维常识等。上述数据类型可能撑持以下运维场景: 日常监控:通过IT算法能够对指标数据进行各种智能的阈值设定,缩小手动阈值设定和变更所导致的工作量,此外,还能够缩小固定阈值可能造成的错报或误报警。与此同时,还能够通过算法辨认出日志的常量和变量模式,将某种典型谬误的常量模式设置为报警,以丰盛告警源,增强系统监控维度。另一方面,还能够通过算法把海量的警报数据进行压缩,并依据一系列规定生成大量的告警事件,从而升高告警风暴,使运维人员集中精力应答要害事件。这一类场景能够称为低配置化IT监控及告警。此外,通过预测算法,能够对指标的走向趋势进行预测,并依据日志的模式组合进行剖析,从而通过捕获某些故障产生之前的特色进行这一类故障的预警。事件处理及问题治理:通过整合系统间的指标数据、日志数据、警报数据以及关系数据,再辅以可视化技术及AI技术,就能够很好的为用户展示有向无环的IT逻辑调用关系,从而帮忙运维人员在产生故障时,疾速定位系统故障的首因地位,并联合过往工单和常识数据,肯定水平上辅助用户来进行根因剖析。并为用户举荐处理策略。容量治理:通过指标数据的预测进行各类IT资源容量预测,并依据各类数据转化的用户体验指标联合容量信息来进行IT资源利用率的评估。服务度量:通过零碎运行的指标警报等数据来生成零碎的用户体验得分,同时能够依据工单数据来统计运维团队的服务效力,更能够联合这两类数据来进行IT服务的价值评估。 应答策略比照剖析充分利用运维大数据,可能帮忙运维组织更好的撑持企业IT业务的高质量运行。然而,运维大数据与其余大数据并非完全相同,企业施展运维大数据的价值还须要理解它的特色,以及须要面临的挑战及其应答策略。运维大数据区别于其余大数据的特色次要包含以下方面: 数据源比拟庞杂。其余畛域的大数据,数据源往往来源于具体的业务零碎,然而运维大数据不同,运维大数据的数据源来自各个运维对象,这个数据源的规模就变得十分宏大,而且不同的运维对象数据接入的形式差异很大。例如服务器硬件的相干指标信息就能够来自多种采集形式,例如ipmi、snmp或ssh。面对如此庞杂的数据源,运维大数据的平台必须可能实现对这些数据源的对立治理,要可能灵便的适配和接入数据源。数据规范十分不对立。不同类型运维对象的指标维度,输入数据的格局以及指标单位等标准大都不雷同。因而须要比拟灵便的ETL能力来应答简单的数据处理工作。强时序性。强时序性次要体现在两个方面。一,强时序性数据的先后关系十分重要,数据颠倒会使数据所表白的含意齐全失真;二,强时序性的数据随着工夫的流逝,其价值将急剧下降,为了最大水平转化数据价值,强时序性数据必须可能进行低提早的数据处理和计算,将数据产生到展示的两头工夫尽可能缩短。同时,还须要反对数据应用时的时序性,从而将事件按照事件程序精确的还原进去。高吞吐,高并发。这个特色很直观,因为运维对象数量多,因而在数据采集时必须反对高并发,又因为自身数据总量大,因而在高并发的根底上,高吞吐也十分重要。因而,运维大数据的根底框架,必须反对高并发,高吞吐的数据处理存储及剖析能力。关联关系简单。运维大数据利用场景中最重要的局部之一就是运维对象的关系剖析,这种关系剖析与其余对等的人或物之间的关系运算差异很大,对象间的关系链非常复杂,这就要求大数据平台须要具备可能剖析这些简单关系的能力。 智能运维分级成熟度模型介绍在介绍解决方案前,咱们先简略介绍一下智能运维分级成熟度模型,该模型是由云智慧在国内首发的对于智能运维AIOps的成熟度模型。用户能够通过该模型来评估本身智能运维能力所处阶段,并根据分级的规范来针对性的增强本身短板建设,或有指标的布局本身将来的运维建设方向。 咱们接下来介绍的云智慧运维大数据计划,在这个模型中处于L3,也就是初步智能化这一阶段。该阶段外围是进行数据层面的买通,将传统的运维组织转化为数据驱动型的运维组织,通过运维数据中台的引入,实现业务可察看,资产可知,状态可视,运维可管以及平安可控等性能。 云智慧智能运维数据平台计划介绍平台整体技术架构该计划由四局部技术组成,即采控核心,Kafka、数据平台与算法核心。 采控核心:负责集中采集与治理各个数据源的指标、日志、警报、配置及关系数据。Kafka:作为整体计划的数据管道,用于计划各组件间,以及计划与内部零碎的次要数据传输伎俩。数据平台:次要负责进行流批一体的数据处理/计算,以及数据存储、数据查问后果输入等工作。算法核心:次要负责运维相干智能算法的训练,配置以及公布工作。该计划次要组成部分均采纳分布式架构,具备高并发,高吞吐、低延时的大数据个性。其中数据平台采纳了 Flink 和 Clickhouse 两款支流大数据技术,算法核心应用了 Pytorch 和 Tensorflow 两种支流的机器学习框架/平台,并内置了7种云智慧自研的AIOps算法。该计划通过多个行业头部用户验证及洗礼,可能充沛应答大规模运维数据的集中采集、解决、剖析及利用。联合云智慧自研的数据价值利用,能够充分发挥运维大数据价值,使用户全面把握零碎运行状况,并进行高效运维。计划整体依靠之前一章的剖析,有针对性的应答运维大数据特色,是一套非常具备特色的运维大数据解决方案。 计划劣势本章次要从数据的采集,解决,存储,利用4个大数据业务场景来剖析智能运维数据平台的解决方案。 分布式采集,集中管控,1人即可轻松治理千/万采集工作数据采集。在数据采集过程中,咱们运维组织面对的最大问题就是数据源太多,整个数据采集的工作量十分大,即使是后期能够通过一些监控工具集中采集数据,但许多采集工作仍须要独自治理,这就导致整个采集工作波及的数据源和工作治理界面很扩散。 为了解决上述问题,云智慧专门研发了集中式运维数据采控平台,该采控平台采纳可视化集中管控的形式,集成支流的指标、日志、警报等数据的采集技术和内置的采集工作模板,联合分布式的底层架构,最大限度的赋予了用户通过一个系统管理所有采集工作的能力,让用户能够通过一个平台就可轻松地发现数据源、装置采集组件,配置采集工作和监控采集工作的执行状况。真正做到仅需1人即可轻松治理成千上万的数据采集工作。此外,平台还反对基于阈值定义的采集工作主动熔断及主动复原性能,确保数据采集过程不影响前端失常业务的运行,同时又确保数据采集工作的及时启停。 能够说该计划在数据采集方面的技术设计,防止了多源、多采集端以及监控式采集等运维数据采集伎俩治理扩散,效率低的问题。 灵便采控架构,反对边缘计算,不惧对象环境简单除了便于运维人员集中管理大量采集工作外,云智慧的采控平台还有一些其余的设计特点,可能适应用户简单的IT环境,尤其是在网络方面实现了分布式采集、集中管控的模式。 简单网络的特点次要聚焦在带宽和跨网络两个方面。针对带宽低的状况,该解决方案为企业提供了边缘计算的能力,通过边缘计算能够先将数据进行肯定水平的预处理,再将要害数据通过低带宽网络传回,该计划无效升高了数据传输对网络带宽的要求,同时充分利用边缘设施算力,升高总部运维IT规模,进一步提高运维效力。针对跨网络无奈直连的状况,该计划反对分级部署,通过部署Proxy agent来作为采集中继与采控大脑链接,轻松实现跨网络的数据采集。此外,平台还实现了插件化的采控模式,用户能够依据须要在数据源设施或采集集群上部署采集插件,依据理论的环境状况来组合出能效比最高的采控计划。 可视化编排,内置丰盛算子,进步管道式数据处理工作效力上述介绍的次要是该计划在数据采集场景中的一些价值和特点。上面来看一下在数据处理场景中,该计划可能给企业带来的价值。 数据处理场景分为狭义的数据荡涤与数据计算两大类。两大类场景能够别离应答不同的数据处理场景,也能够进行组合应用。 在数据荡涤方面,数据荡涤引擎采纳云智慧自主研发的分布式ETL引擎,能够依据所需解决的数据量扩容解决集群;此外,零碎内置42种数据荡涤组件,反对绝大多数运维数据荡涤场景,企业通过低代码和模块化形式即可治理本人的数据处理工作,还可实时读取样例数据进行ETL工作配置正确性的验证,十分便捷高效。 在数据计算方面,云智慧采纳flink作为流批一体的数据计算引擎,并为flink的计算工作编排提供了可视化治理界面,企业能够十分不便的基于flink sql进行批流一体的数据计算工作创立及治理,此外,咱们同时提供了Jar工作和SQL工作创立模式,企业能够依据理论须要灵便的抉择工作类型。基于jar工作,企业还能够通过该计划轻松的治理flink反对的自定义算子。 灵便可配置,高效兼顾运维大数据存储的2个V个性数据处理之后,接下来持续来看一下数据存储。上述介绍中将运维数据共分为7类,其中,指标,日志,警报及局部关系数据合乎大数据容量大、多样性强的特点,为了满足这些数据的存储,云智慧采纳clickhouse作为外围的存储技术。 云智慧依据运维数据的特点,利用clickhouse丰盛的表引擎,为企业设计了3种特色表引擎,这三种引擎专为运维数据优化,确保不同数据在IO和压缩比上取得均衡。在确保数据利用成果的同时,升高运维人员保护压力。另外,该计划提供了1种通用表引擎,该引擎对绝大多数的大数据分析场景均有不错的体现,通过该引擎,能够加强数据存储的普适性,为后续的数据分析奠定良好的性能根底。 其次,clickhouse采纳全对称的分布式架构,近两年来,该数据库在国内的流式数仓和流式数据分析场景利用中十分沉闷。许多互联网头部企业均有采纳clickhouse作为本人实时数据分析场景核心技术的实际。其中字节跳动公司是clickhouse最大的用户,目前字节跳动曾经建设了上万台节点的clickhouse环境,其中单体最大集群有1200余个clickhouse实例,理论数据存储量数百PB。 业界最佳实际架构,撑持用户及时取得察看后果/决策反对在数据利用层面上,该计划联合运维大数据的特点以及业界最佳实际。选型采纳了flink和clickhouse作为数据计算,即采纳数据查问的外围引擎来应答实时数据监控及实时数据分析场景。 以上这两种技术在我国的互联网头部企业,例如阿里巴巴,腾讯,字节跳动,滴滴,美团等都曾经有了了十分丰盛的落地实际。利用场景包含实时的指标监控,短视频和直播的用户体验监控、实时计算自定义报警规定,实时数据ETL,实时用户行为剖析及经营流动成果等方面。 采纳以上两个引擎,次要是因为在数据查问和计算方面的速度都有十分优良的体现,均采纳了大量的技术来优化相干方面的能力。简略举几个例子,flink自身架构设计就是为了实现数据计算的高并发、高吞吐和低提早,flink本身基于jvm实现了本人的内存管理机制,在内存利用和垃圾回收方面都进行了针对性的优化,同时flink反对多种流式窗口来适应不同类型的流式数据处理,并且flink天生反对有肯定流控能力的数据计算模型。而clickhouse的执行器反对向量化计算模式,同时反对多核并行计算模式。而且clickhouse在生成机器码的过程中采纳动静代码生成Rntime Codegen技术,联合clickhouse 灵活多样的表引擎,使clickhouse具备目前业内最强的单表数据聚合查问性能。 以上技术个性很好的满足了运维大数据实时性高和时序性强的特点,确保用户及时取得察看后果,或取得统计分析类的决策反对。 7大类内置算法,展示数据价值,轻松进步运维效力此外,在数据利用层面,该计划更是内置了7大类AIOps算法,通过这些算法可能充沛展示运维数据价值,间接实现具体的智能运维场景,帮忙企业大大地进步了运维效力。 该计划次要蕴含以下八大劣势,劣势大部分都是云智慧独有的能力,这些能力在很多我的项目里都为企业带来了较大的运维能力晋升。 Clickhouse SQL 建模可视化:确保用户数据资产全生命周期集中可视化治理。分析模型API公布:便于用户对外开放数据能力,面向业务赋能。云智慧自研的AIOps利用集:助力运维团队以最终用户视角,面向用户体验运维。内置AIOps算法训练数据集GAIA:便于用户开启AIOps摸索,逐步迈入智能运维之路。反对数据分级存储及备份还原策略:确保数据安全,反对用户灵便设置数据管理策略。反对容器化部署:与用户一起拥抱云原生,简化保护难度。内置OMP自运维平台:一键部署,可视化保护,进一步保障平台自运维的便利性。云智慧以客户为核心的专家团队:10+年运维教训,1000+各类技术人才,与用户独特成长。 案例分享该案例是某航空信息企业,我的项目的背景次要是基于业务倒退须要建设一个云计算利用平台,该平台是一个容器化的IaaS平台,基于这个平台,企业正在将本身的业务零碎向微服务化及容器化方向进行革新和迁徙。在这个过程中,企业遇到了微服务与容器架构故障发现、定位与剖析艰难,效率低下以及运维数据庞杂、割裂,短少对立数据处理和全局剖析能力两大问题。 基于企业面临的问题,云智慧以上述大数据计划为根底,联合本身的平面监控工具集,为企业构建了智能运维平台。截止工夫2021年初,云智慧曾经纳管了5000多台主机,近400个利用的纳管。在云智慧的平台中接入了69个数据源,建设了59个数据管道以及54个数据表,每天流入3.5TB数据,最终存储400GB数据,并保护了航信两大外围业务的业务模型。 在该我的项目中,云智慧最终为企业实现了简单调用链的剖析能力、满足企业串联剖析的场景以及达到企业利用算法进行智能运维建设的指标3大价值。为企业运维提供了微小的助力并取得了企业的好评。 写在最初近年来,在AIOps畛域疾速倒退的背景下,IT工具、平台能力、解决方案、AI场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在2021年8月公布了AIOps社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。 社区先后 开源 了数据可视化编排平台-FlyFish、运维治理平台 OMP 、云服务治理平台-摩尔平台、 Hours 算法等产品。 ...
关于运维自动化:10分钟学会如何在智能运维中进行日志分析
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。云智慧智能研究院着眼于运维人员在日志剖析方面所面临的问题与理论需要,以日志语义异样检测为切入点,进行了相干的剖析与试验。对在智能运维中如何进行日志剖析,给出了基于日志语义异样检测的答案。 一、背景日志在IT运维中扮演着重要角色。日志记录了软件系统运行时的详细信息,蕴含着丰盛的零碎信息。 零碎开发人员与运维人员能够依据日志监控零碎分析零碎的异样行为与谬误。因而,如何进行日志的异样检测也成为智能运维畛域亟待解决的问题,日志异样检测能够分为语义异样(执行后果)、执行异样(执行日志序列)与性能异样(执行 工夫 ) 。本文针对日志语义异样检测进行了剖析与试验。 二、问题与挑战日志异样类型日志记录着零碎在某个 工夫 点执行了某些操作以及相应操作的后果。 因而,当某些谬误产生导致系统异样时,日志中也会有相应异样记录。日志中记录的异样信息能够帮忙零碎开发人员与运维人员监控零碎,并分析零碎的异样和谬误,从而疾速定位异样、修复异样,以保护零碎的稳定性。因而,如何主动判断谬误日志中蕴含的异样类型成为亟待解决的问题。 实际上,尽管IT零碎/服务出现异常的场景泛滥、状况简单,然而依然能够对异样类型进行大抵分类,如网络异样、数据库异样、硬件异样、I/O异样、操作系统异样等。 每一个类型又能够进行细分,以硬件异样为例,可能存在CPU异样、磁盘空间有余、磁盘损坏等硬件上的异样。因而,主动判断日志异样类型的前提在于,制订对立的日志异样类型阐明规范、各类别中的细分类与特色,并标注一批规范的数据集进行学习。 日志与自然语言文本的区别与其余NLP工作相似,基于语义异样的日志分析方法须要首先对日志进行向量化示意。然而日志与自然语言文本有所不同: (1)日志为半结构化文本,日志通常包含日志头与日志形容信息,日志头中常常蕴含工夫戳、起源、日志等级等字段;而日志形容信息中则蕴含对以后操作与对应后果的形容,蕴含丰盛的语义信息; (2)日志中存在大量反复,在日志形容信息中蕴含常量信息与变量值,往往将变量值作为参数符号化后,大量日志能够压缩为一个日志模板; (3)日志中蕴含大量驼峰格局的连写字符串,这与不同编程语言的函数、类等命名格局无关,如android系统日志中,常见SendBroadcastPermission、DisplayPowerController、KeyguardViewMediator等字符串模式。 (4)越成熟的零碎,其日志格局与形容越对立,因而成熟的零碎/中间件的日志数据中蕴含的词汇量较小。 日志的向量化基于日志文本的特殊性,对于日志的向量化示意须要思考以下问题: (1)日志向量化之前须要提取日志形容字段,对日志形容字段进行初始化; (2)日志中的变量值通常为无意义的数值或者不同的ip、url、path等,若将原始参数值进行向量化,则会导致词汇量微小且影响后续计算,因而须要首先进行命名实体辨认,对变量值进行辨认与替换; (3)日志非凡的写法须要制订新的规定对日志进行分词,而不能仅采纳通常的英文符号分词形式; (4)日志反复量越大且越成熟的零碎,其日志格局与形容越对立会导致日志无效词汇量少,后续利用中会呈现OOV问题,因而须要联合日志数据与通用数据进行向量化训练。 三、基于语义异样的日志剖析本文提出了一种基于语义异样的日志分析方法,如下图所示: 数据预处理数据预处理旨在将原始日志数据处理为算法要求的规范输出数据,整体流程包含:命名实体辨认、分词、过滤、大小写转换、向量化等。其中,命名实体辨认须要对timestamp,url,ip,file,path,number,email等日志中经常出现的实体进行辨认;分词须要思考日志中常见的驼峰表达式;在日志向量化过程中,利用通用语料(wikidata)+零碎/中间件日志语料+业务日志语料训练词向量,最终,词向量维度为200维,词库大小为583511。 日志起源检测如前文所说,越成熟的零碎/中间件/服务,其日志格局与形容越对立。因而,可针对不同起源的日志进行剖析,总结其日志格局,并提取正则表达式,为每一个起源的日志构建日志格局,依据日志格局检测日志起源。 咱们从logpai的loghub以及本公司业务零碎中获取到包含linux、mac、android、apache、arangodb、clickhouse、hadoop、ignite、kafka、nacos、ntpd、openstack、proxifier、redis、spark、ssh、tengine、zookeeper等18个零碎/中间件在内的日志,并提取日志格局,如下: 基于规定的日志起源检测办法,针对不同起源组件的日志进行测试,每个组件日志各抉择10000条日志进行测试,准确率达99.94% 。因而,针对成熟的零碎/两头组件,构建规定进行起源检测能够达到极高的准确率。 3.日志分类模型 通常能够利用日志中蕴含的日志等级字段,如debug,info,warning,error等,对日志进行分类,然而理论中这种日志分类形式通常会存在两个问题: (1)有些零碎/业务日志中并不蕴含日志等级字段,如linux、mac、ntpd、proxifier、redis等,无奈用日志等级字段进行分类; (2)有些零碎/业务日志中,日志等级字段标注不精确, 或者将异常情况产生时的相干状态或状况标注为“error”等,实际上这类日志语义上并不蕴含错误信息。 因而,咱们首先对谬误日志与异样日志进行辨别: 异样日志:产生异样时打印的日志,可能仅为异样产生时的某个状态或状况阐明,自身并不蕴含错误信息; 谬误日志:语义中蕴含错误信息的日志。 本文中,将日志分为失常日志与谬误日志,即依据日志的语义信息将日志进行分类。首先结构数据集:采集零碎/中间件日志、业务日志,提取日志模式并进行去重,采纳人工标注的形式标注数据集,抽取失常日志8926条,谬误日志4051条进行试验。利用传统机器学习中的二分类算法如 svm ,集成学习算法随机森林,深度学习的 bert 别离进行试验,后果如下: 4.异样分类模型 (1)异样类型分类 首先,对日志中蕴含的异样类型进行剖析与总结,咱们将日志中蕴含的异样类型分为:文件/文件夹操作异样、网络异样、数据库异样、硬件异样、零碎异样和其余异样6类。每一类中别离蕴含多个细分类异样,如文件/文件夹操作异样中蕴含文件或目录不存在、文件或目录无拜访权限、读/写文件失败、其余IO异样等。具体异样类型及ID如下所示。 (2)试验数据集 在数据采集过程中发现,上述异样类型及中异样的细分类数据集存在类别不均衡且某些细分类中没有数据的状况,因而采纳粗分类进行异样类型分类试验,将日志异样类型分为6类:文件/文件夹操作异样、网络异样、数据库异样、硬件异样、零碎异样、其余异样。各分类数据量如下: 后续试验中发现,因为4:硬件异样数据量少会导致试验后果较差;而硬件异样能够认为是零碎异样的一种,因而将4,5进行合并,最终数据集如下: (3)算法及试验后果剖析 利用随机森林进行多分类试验,试验后果如下: 单个类别后果如下: 四、总结 在本文中,咱们提出了一种基于语义异样的日志分析方法,并联合日志起源造成了输出一条原始日志,输入为<日志起源,日志类型,异样类型>的算法流程,以此提取出日志中蕴含的丰盛的语义异样信息,从而为零碎开发人员与运维人员监控零碎分析异样行为和谬误提供了无力撑持。 写在最初近年来,在AIOps畛域疾速倒退的背景下,IT工具、平台能力、解决方案、AI场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在2021年8月公布了AIOps社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。 ...
关于运维自动化:如何在智能运维中进行指标异常检测与分类
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。本文由云智慧智能研究院研究员,通过浏览大量文献并联合实践经验,对指标的异样类型划分、罕用的异样检测算法分类、数据分类进行了初步介绍。 前言指标异样检测是AIOps(智能运维)畛域的重要落地场景,其旨在通过算法发现KPI(要害效益指标)工夫序列上的异样点,而后通过告警告知运维人员相干危险。与此同时,指标异样检测也是其余AIOps场景的前置场景,其检测后果为后续的告警收敛、根因定位、故障自愈等场景提供输出信息,因而指标异样检测在整个AIOps落地场景中具备重要意义。 在理论工业场景中,很多业务零碎通常须要监控数万至百万指标,个别企业通常采纳固定阈值的办法对其开展异样监控。因为这些数据数量繁多,运维人员无奈基于业务教训对每条指标设置正当的高低阈值;另一方面,监控指标从数据角度具备丰盛的状态(数据品种,如平稳性、周期性、趋势性等),简略的固定阈值无奈对全副状态品种见效。因而在工业环境下存在广泛的异样监控误报景象,给运维人员带来极大困扰的同时,也给企业经营带来较大的商业危险。因而,如何精确疾速地对监控零碎进行异样告警是当今AIOps畛域及泛滥工业企业亟待解决的问题。 在事实工业环境中,因为指标数据具备丰盛的数据状态,并且诸多异样检测算法通常仅实用于某种或局部状态,因而如何对不同品种数据进行辨别及如何对不同品种的算法和数据进行匹配对于指标异样检测成果至关重要。本文将对指标异样类型的划分、罕用异样检测算法的分类及指标数据的分类进行初步介绍,并在将来对指标异样检测算法和不同类型数据间的适配性进行形容。 一、指标异样类型工夫序列数据中数据点的信息即蕴含其数值的信息,也蕴含其所处的工夫点信息。通常将通过数值信息辨认的异样称为空间异样,无奈仅通过数值信息辨认的异样称为工夫异样。如图1所示,a1异样点,单从数值上无奈将其辨别进去,但思考工夫信息,历史同期没有类似的模式呈现,这类异样为工夫异样,也称模式异样;a2异样点,其数值显著低于指标数据常态的数值,可能应用k-sigma等统计形式辨认,这类异样为空间异样,亦被称为数值异样。(下图为空间异样与工夫异样示例) 学术界将指标异样分为点异样(point anomaly)、上下文异样(contextual anomaly)与连续性异样(collective anomaly)三类。点异样指显著有别于其余点的单点异样如下图(a);上下文异样指在指标失常的变动范畴内的频率异样如下图(b);连续性异样为在指标失常变动范畴内模式产生的变动如下图(c)。 二、指标异样检测算法类型按算法原理划分针对不同类型的数据的不同类型异样,通常选用不同的算法进行异样检测。依据算法原理不同,指标异样检测算法能够划分为统计类算法、工夫序列类算法、机器学习类算法以及深度学习类算法。 统计类算法中常见的有K-sigma, Boxplot, KDE, EVT等。应用统计类算法检测异样时,不思考数据点的工夫信息,因而,统计类算法只实用于检测点异样。应用统计类办法进行异样检测时,要求指标数据满足一阶安稳、数据噪声遵从高斯分布、数据法则满足线性法则等的条件。基于统计办法的指标异样检测算法因为其计算逻辑简洁,因而具备较高的计算性能,但因为其对指标数据要求较高,因而实用的数据类型无限。 工夫序列类算法中常见的有ARIMA, Holt-Winters, Prophet,STL等。工夫序列钻研是一个较大的畛域,被利用在多个工业场景,有较多的实践和算法积攒。工夫序列类算法进行异样检测时具备较好的可解释性。工夫序列类算法,旨在提取数据的趋势和周期性,实用于趋势或周期显著的数据类型。与统计类算法相比,时序类算法实用于更多类型的数据,并且其检测成果更优,但其计算性能略差,难以进行实时检测。 机器学习类算法中常见的有LOF, IForest, One-Class SVM, k-means等。机器学习类算法次要对数据的特色进行提取。不同状态的指标数据,其失常与异样数据在不同特色上存在不同。因而如何实现特色的自动化抉择是利用机器学习类算法进行指标异样检测的要害。 深度学习类算法中常见的有AE,VAE,LSTM,GAN等。深度学习类算法具备捕获简单非线性法则的劣势,可能同时解决点异样、上下文异样、间断异样,并且可能解决模式更简单的数据,算法能力下限高。然而,在理论利用中,深度学习类算法的参数泛滥,无奈开箱即用,因而一线用户很难通过培训疾速上手,用户敌对性差。并且,深度学习算法可解释性差,算法后果很难失去用户认可。在理论工业环境中,业务零碎数据模式的变更,使得采纳深度学习类的算法难以在短时间内积攒足够的训练数据,以适应新的数据模式,而运维人员往往心愿能够疾速对指标数据进行监控,这对深度学习算法的疾速适应能力提出了挑战。综上,在理论落地中,与其余类算法相比深度学习类算法的难度最大。 按应用形式划分工业场景中,要求可能尽早给出新数据点的异样检测后果来发现故障,这对异样检测算法的性能有较高的要求。依照各类异样检测算法的职能或应用形式划分,咱们将算法分为实时检测类算法与非实时检测类算法。实时检测类算法如LOF,AE只能通过实时检测的形式进行数据异样检测。实时检测类算法对算法性能和计算资源有更高的要求。非实时检测类算法如arima与prophet在进行指标异样检测时尽管运算耗时多,但能够一次性预测指标将来一段时间的值。通过比拟预测值和实在值来检测异样,能够达到告警低提早的要求。 综上所述,统计类算式适宜安稳类型的数据;工夫序列类算法,适宜周期性、趋势性显明的数据;机器学习和深度学习类算法下限较高,可能解决更简单的数据,但调参、利用较难。工业生产环境中指标数据泛滥又模式各异,很难通过几个算法实现全副指标高准确度的检测。为不同的数据调配不同的异样检测算法,是保障生产环境中异样检测成果的要害。 三、指标分类指标异样检测算法有诸多分类。同时,指标数据的类型也同样丰盛,包含根底监控指标、中间件指标、业务指标等多个品种,每种类型都有各自的数据特点(如周期性、趋势性、平稳性等)。面对品种繁多的指标异样检测算法,如何抉择与指标数据相适配的算法是一个辣手的问题。业界个别通过对指标数据的正当分类来解决上述问题。 首先,正当的指标数据分类有助于异样检测算法选型。每类算法均有其实用的指标数据类型,如果不对指标数据类型进行判断,简略输出算法检测异样,很可能会导致检测后果出错。因而,指标数据分类对异样检测算法选型至关重要。一方面,在充沛理解各类异样检测算法特点的前提下,如果可能对指标数据进行正当分类,则能够精确匹配各类算法,晋升异样检测准确性;另一方面,基于算法适配性的指标分类,也能够防止自觉抉择不同算法在同一份指标数据中进行尝试的算法选型过程,大幅缩小计算量。 此外,在进行异样检测前运维人员可对通过分类的指标数据进行有针对性的预处理。如果间接对指标数据利用异样检测算法,不对不同指标数据执行适宜的预处理,往往会呈现谬误的检测后果。例如银行跑批工作,这是一种周期性执行的工作,如果间接利用异样检测算法而不提前思考周期性,算法易将跑批工夫的数据视为异样,导致检测后果出错。因而,须要在预处理阶段对数据进行周期性检测,而后再进行异样检测。 由以上两个利用场景可知,在对指标数据和异样检测算法有足够积攒和了解的前提下,正当的指标数据分类可进一步晋升异样检测成果。 通过指标数据分类,匹配不同的异样检测算法,能够进步异样检测的准确性。理论落地过程中,咱们能够调整、优化算法,但无奈抉择、扭转指标数据。因而,在进行指标分类时,咱们只思考指标特色,分类实现后再为各类数据匹配已有算法或研发新算法,而非基于已有算法善于解决的数据个性对指标数据分类。 目前指标数据分类的难点在于没有明确的分类规范,不同使用者有不同的分类规范,比方业务剖析人员习惯按场景划分数据类型,数据分析人员习惯按数据特色划分数据类型。(下图为不同工夫序列类型示例) 四、总结异样检测算法多种多样,包含统计类算法、机器学习类算法和深度学习类算法等,各有优缺。运维畛域的指标数据也具备丰盛的状态。面对数量泛滥、类型各异的指标数据,目前没有一种通用的异样检测办法可能满足各类指标的异样检测需要。一线运维人员在配置指标监控时,只管能够利用自身教训筛选算法,以取得相较于固定阈值办法更高的检测准确性。但如何对算法进行选型和调参仍是运维人员面临的最大难点。通过对指标分类以及指标与算法适配性的钻研,岂但能够进步异样检测的准确性,同时也能真正缩小运维人员的工作累赘。 写在最初近年来,在AIOps畛域疾速倒退的背景下,IT工具、平台能力、解决方案、AI场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在2021年8月公布了AIOps社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。 社区先后 开源 了数据可视化编排平台-FlyFish、运维治理平台 OMP 、云服务治理平台-摩尔平台、 Hours 算法等产品。 可视化编排平台-FlyFish: 我的项目介绍:https://www.cloudwise.ai/flyF... Github地址: https://github.com/CloudWise-... Gitee地址: https://gitee.com/CloudWise/f... 行业案例:https://www.bilibili.com/vide... 局部大屏案例: 请您通过上方链接理解咱们,增加小助手(xiaoyuerwie)备注:飞鱼。退出开发者交换群,可与业内大咖进行1V1交换! 也可通过小助手获取云智慧AIOps资讯,理解云智慧FlyFish最新进展!
关于运维自动化:智能运维时代如何做好日志全生命周期管理
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。本文将从平台架构登程,具体讲解云智慧是如何疾速高效地解决日志全生命周期问题。 智能日志平台架构概览分布式可扩大架构组件反对多 源 采集、解决、存储、查问云智慧日志平台架构的次要特点是可能对接多日志源的日志。此外,云智慧采纳的是分布式可扩大组件,当组织须要扩容、运维对象减少时,企业能够疾速地去扩大,适应新的变动。 日志采集局部应用的是自研的日志采集器,采集器能够对接日志、数据库、音讯队列等。与此同时,云智慧提供了批量化部署和治理采集器的能力。日志解决方面,云智慧应用的是Kafka音讯队列和Flink流式解决组件,满足海量数据接管的同时反对横向扩大。底层存储同时反对Elasticsearch和Clickhouse,帮忙企业笼罩结构化与非结构化双重解决场景。 开箱即用的日志采集模版,反对25+种采集形式目前云智慧的日志采集均是制作成了规范的采集模版,可间接对接数据源,通过配置就能满足日志的接入。 利用可拖拽编排的解决组件实现日志数据的标准化日志数据采集胜利后,将进入数据处理环节。云智慧利用可拖拽编排的数据处理组件实现日志数据的标准化。例如,当有来自不同日志源的日志且工夫格局不同时,运维人员便能够通过“日期转换”组件将固定格局的日期字段转换为工夫戳格局。 在整体数据处理编排中,反对单步流程调试性能。 日志平台性能:毫秒级查问响应、高压缩比列式存储存储方面下面曾经提到过,云智慧的底层存储能够做到同时反对Elasticsearch和Clickhouse双引擎存储通过自有环境的性能测试,在日志搜寻性能上ES引擎实现了一倍多的提速。而Clickhouse不仅具备高达30%的数据压缩比,在固定字段剖析上也展示了数倍的性能劣势。 上述剖析后果体现了Elasticsearch和Clickhouse在不同场景的适用范围,也让云智慧的日志产品领有了不同场景下的最佳实际。 下图为云智慧在某第三方领取平台和某航空信息企业解决能力展现。从下图可的云智慧日志平台在3秒钟就能够撑持3亿条以上的数据查问。 云智慧在某航空信息企业的采集日志节点就有超过10000个,这都依附云智慧的采集管制平台进行批量的治理。数据的存储量方面,在高压缩比的条件下,云智慧仍能够管制在老本敌对的量级。 应用场景介绍在介绍了日志是如何从采集到存储后,接下来将分享云智慧智能日志平台能够有哪些应用场景。 纳管日志的全文搜寻 —— 查问日志不用东奔西找当初通过云智慧的智能日志平台将不同零碎的日志胜利纳管后,运维人员能够在智能日志平台中疾速便捷的进行全文搜寻查问,查问日志时无需逐台机器登录。 平台反对SPL语法查问、联想搜寻、划词剖析等性能,能够晋升整体的查问效率。 关联日志查问 —— 串联服务间关联日志,疾速定位故障运维人员在排查故障时常常会因为查看的日志不蕴含全局信息而无从下手,而云智慧智能日志平台则通过将日志中的关联字段进行串联,能够造成残缺的日志上下游信息,给运维人员一个全局直观的展现,帮忙运维人员将故障相干的问题日志全副出现,有助于疾速查问和排障。 智能日志模式识别 —— 无需人工配置即可自动识别日志异样当日志规定监控伎俩繁多全面时误报率就会变高,模式识别是云智慧的日志“转化场景”之一。在传统运维中,因须要运维人员做大量手动配置,所以日志治理剖析显得十分麻烦。而云智慧的计划无需企业做任何配置即可享受到智能化计划带来的效率晋升。 同一类型模式的日志往往具备某类独特的特色,例如类似的日志构造。日志模式识别利用聚类算法将日志文本中类似度高的数据聚合在一起,提取独特的日志模式,无需运维人员配置,便能够主动疾速发现异常模式日志。并且能够辅助根因剖析,通过配置的聚合关键字生成的“饼状图”、“柱状图”等,帮忙企业管理人员理解异样时段的具体情况,从而放大排障范畴。 构建链路拓扑 —— 提供直观牢靠的排障根据基于日志的链路拓扑是一种无侵入的日志转化形式,不须要装置探针、日志的链路便能够给运维人员提供全链路追踪排障能力。 搭建全局服务监控 —— 节点运行状态和盘托出,辞别被动监控如下图所示,运维人员能够具体地看到每一条申请相干的日志组成的调用链,此外,每一个可观测到的节点都会以不同色彩标识出本身的衰弱度。与此同时,云智慧日志治理平台还反对点击节点下钻,以便运维人员查看节点具体的运行状态。 日志审计 —— 为企业 信息安全 保驾护航日志审计次要面向的内容是各种操作日志、流量日志、会话日志、原始报文等,外围难点在于大数据的汇聚、存储(保留6个月)、索引和剖析技术。云智慧认为日志审计应该具备数据脱敏、历史日志疾速查问且存储成本低等能力。此外,还应按网络安全法要求,数据至多存储6个月,同时可能查问指定工夫范畴的日志数据以便监管部门调取。 与此同时,云智慧还认为日志审计应该具备对安全事件的预警和剖析能力,让企业在对日志实现统管后,还具备平安合规的能力。 劣势及价值剖析智能日志异样检测 VS 传统日志异样检测较比传统日志异样检测,智能日志在人力老本、告警准确率、异样定位方面都具备显著的劣势。 基于规定的传统日志异样检测,告警准确率仅在20%左右,而云智慧的智能日志,能够达到70%。 模式识别在日志剖析中的价值高性能:作为利用于异样检测场景的算法,模式识别具备十分高的时效性及低耗能的双重长处。在3台16C32G的物理节点上,每天可解决500-1000GB的日志量,每5分钟可解决13000+条日志,内存占用仅0.28g。强鲁棒:对日志中存在的粒度不稳固、反复、缺失、乱序等状况,都能够很好的适应。可解释:算法具备较强可解释性,模式识别的成果以不便自然人了解的模式展现给运维人员,不便继续优化模型成果,算法对于运维人员不再是黑盒。重成果 :简略易用,无需任何人工配置便可实现对日志状态的监控,在定位故障的同时亦为企业提供了更多的排障根据,帮忙企业解决理论问题,使智能化对企业不再是一个扑朔迷离的概念。案例分享案例1:券商用户行为日志辅助根因剖析下图为云智慧服务的国内某顶级券商实在案例。为了更好的保障系统稳定性,云智慧将业务零碎中蕴含用户行为的日志进行采集并对立纳管进入日志智能剖析平台。上面咱们比照失常与异样时段日志的散布趋势图,尝试进行辅助根因定位。 先看失常时段日志的日志散布趋势以及用户登录客户端以及版本号的散布状况(左图所示)。接下来再看异样时段的日志散布趋势图(右图所示),在异样时间段,日志量相较失常时段暴增10倍多,用户登录客户端占比及版本号占比产生了显著变动,安卓占比从68%变成了95%。异样时段7.2.4版本产生了12000+次日志。 依此咱们不难推断出该故障极有可能是因为Android客户端的7.2.4版本引起。经排查确认,证实了上述论断。 只有3min,云智慧即可给出问题的根因方向。 案例2:运营商携号转网行为日志辅助根因剖析 下图为云智慧服务运营商企业的实在案例,日志为携号转网业务产生的服务器日志。下图能够看到异样产生的工夫是在2021年的8月2日15:35,这时候运维人员在零碎中间接点击该异样点,就能够看到这个异样点的剖析页面。图片右侧能够看到的日志原始信息,显示信息是团体服务器在申请某一IP时产生异样,传统运维中运维人员排障就只能停留在这一步了,然而借助云智慧的智能日志平台,运维人员能够对这些日志进行聚合剖析。右下方的环形图能够十分清晰的看到申请10.255.95.104这个IP占比达到99.85%,简直所有异样申请均是此IP导致。 案例3:某银行基于日志链路的辅助根因定位该场景为调用链的应用。在某银行,云智慧帮忙企业建设了从前端到后端的调用链路(通过的是Opentracing协定)。某日APP发放领取满39立减9.9元的优惠券,因为APP呈现卡顿、响应慢导致优惠券无奈应用而引起大量用户投诉电话。云智慧通过调用链路察看问题呈现时间段,上述投诉问题是因为外围零碎响应慢呈现HTTP500谬误。 ...
关于运维自动化:全面解析云智慧数据中心统一运管解决方案
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。引言2020年,数据中心建设被地方正式列入新基建策略,与此同时,疫情下数字经济及IT国产化的高速倒退也催生了各行各业对数据中心的新需要,即在加大建设投入的同时,更要保障其运行稳固及服务可用。此外,我国以后数据中心建设仍面临着布局结构性失衡、能耗程度居高不下等问题。因而,推动企业数据中心朝着绿色、平安、高效的方向进一步倒退以及解决能耗、需要匹配等难题是以后数据中心的的首要任务。 趋势解读从企业外部经营指标来看:治理数字化、流程规范化、人员专业化、技术标准化、运维自动化都会成为外围诉求。此外,在Gartner最新公布剖析报告中,通过对寰球400多位 I&O 领导者调研总结,给出了以下三条DCIM(Data Center Infrastructure Management)畛域倒退倡议: 将DCIM⼯具与运维畛域的IT服务治理(ITSM)、IT资产治理(ITAM)、IT经营治理(ITOM)及配置管理数据库(CMDB)等软件相集成,从⽽更残缺地理解经营状况;在物联⽹、边缘计算、微型数据中⼼、服务治理、⼯作流和⾃动化等技术畛域设置集成点,从⽽全⾯理解基础设施状况;利⽤经营剖析和⾃动化,施行本地部署或XaaS模式工具,从⽽在混合环境中最⼤限度地提⾼资源利⽤率,并加强服务交付能⼒。需要与挑战通过继续地落地施行与走访调研,大多数企业会以进步数据中心 ROI 为最终目标来发展建维工作。因而,保障数据中心业务连续性也会被当作以后阶段重要指标,并且会以场景关联人员周期、资产生命周期、治理周期三环,提供“人、事、物”综合治理的能力。 “物”即资产生命周期:无形与无形资产从洽购、入库到下架、清理。“人”包含外部与内部人员:实现对其入职、学习、工作、到职治理。“事”不仅涵盖日常工作流程化规范化治理,还要对紧急事件进行预防演练、应急处理过程进行治理。 此外,以后阶段数据中心治理仍面临以下三大类问题: 整体业务倒退问题:涵盖范围广、扩张速度快、运维老本高;运维技术(数据+工具)问题:设施定位难、工具智能化不高、数据利用率低;精细化治理撑持问题:资产盘点慢、资源布局难、平安管控难。 解决方案与性能场景介绍基于以上需要及挑战,云智慧为企业提供数据中心对立运管解决方案,帮忙企业实现对数据中心基础设施层面人、事、物的全面智能化管控。 整个解决方案包含软件和IoT智能硬件两局部。其中软件平台局部帮忙用户实现数据中心业务管理智能化,为企业赋能多样化能力:如多平台整合、大数据运维、自动化运维、规划设计、决策撑持等; 而IoT智能硬件局部则是帮忙用户重点实现数据中心资产治理智能化,以及通过丰盛的感知器从数据源头管制资产生命周期的时效性与准确性。 此外,通过泛滥落地案例,云智慧总结了数据中心运维过程中最有代表性的六大场景,蕴含全资源管理、运维监控、对立调度、全景可视、智能剖析、计划举荐。上面咱们将对相干场景做具体介绍: 资产全生命周期管控,无效升高资产总体领有老本针对新形态数据中心资产治理的创新型需要,通过“软件+硬件+流程引擎”为一体的资产治理解决方案,实现资产治理的智能化、自动化全生命周期管控,帮忙客户无效升高资产总体领有老本: •通过资产库存治理性能,为客户升高IT资产的追踪老本,缩小资产销账。 •通过利用率剖析,帮忙客户疾速检索闲置资产,进步资产利用率 •通过资产平安治理,升高资产损坏以及因为数据失落而导致的额定费用,升高资产缩水危险 •通过颐养和配置管理,帮忙客户升高颐养、培修和召回的费用,缩小汇报的需要 •最初帮助客户晋升操作的合规性。 以全资源监控、全告警笼罩等打造 对立营维平台对立营维平台是将数据中心内蕴含的资产、容量、线缆、供电、制冷、能耗、环境、微环境、运算等资源进行了无效整合与利用,实现了跨专业、跨区域、跨范畴的资源整合与治理。 此外,联合自有准确到U级定位硬件,通过灵便可配的流程治理引擎,对各状态资产从验收到报废全运维生命周期的状态及地位进行实时评估和跟踪,从而实现资产治理的精细化、标准化、无纸化,以此保障资产数据的继续精确无效,升高人为操作危险。 对立运维平台是在上述资产全生命周期治理的根底上提供了根底环境的全笼罩监控,包含机房环境、机柜微环境以及根底资源。 下图展现了云智慧能够监控的典型资源与对应的告警类别。特地是对于机柜级微环境的温湿度的实时监控能力,补救了以后绝大部分数据中心治理的空白。例如:云智慧能够监控每个机柜的部分制冷量,防止适度制冷或者部分过热导致的IT设施运行故障。 此外,云智慧还联合了基于“规定+算法+LED定位”的主动预警、告警性能为运维人员提供更疾速、更精确的故障发现与处理伎俩,从而晋升了整个业务零碎的可用性。如:当产生温度预警/告警时,云智慧对立运管平台可通过LED灯的闪动或高亮给予运维人员直观的批示;此外,零碎还能够通过3D可视化、2D图表等人机交互界面,对数据中心内的全副资源及子系统进行集中管理,以及利用数据处理引擎对数据进行多维度的解决与剖析,一直对故障预警的时效性和准确性进行晋升;最初,还能够通过敌对的交互界面、集中统一治理、集中告警出现、多维信息交融、问题疾速溯源、故障影响判断等能力,真正做到对立平台界面的综合类监控交付。 买通风火水电等各业余畛域工具墙,实现对立调度数据中心的安保级别通常较高,监控不到位就会导致非法入侵、人员违规行为等危险行为,若未及时纠正标准,就会对数据中心平安可能造成严重威胁。 云智慧计划通过监控视频、红外遥感、人脸识别、门禁系统等性能对园区各进出场景跟踪记录,针对异样人员行为剖析及跟踪正告。零碎通过巡逻人员的手持设施记录每个巡逻点的精确工夫和数据,从而使得巡逻人员依照手持设施中的巡逻打算依序巡逻每个巡逻点,失去数据采集后再把手持设施的信息录入到零碎,从而失去精确全面的巡逻数据。 下图为云智慧具备代表性的案例截图。 在理论企业落地过程中,以下性能能够进行组合分拆,以满足企业对平安治理的个性化要求。 左上:对巡逻人员的进出工夫以及以后所处的地位进行监控;右上:提前制订和公布巡检打算和设计巡检门路,设定巡逻点地位;左下:对巡检人员的理论巡检门路以及各巡逻点的理论实现工夫进行跟踪,一旦超时将触发超时告警;右下:在一些具备区域平安管控的场景下,能够对不同级别的巡逻人员设定电子围栏,一旦越线将触发越权告警。 以工单/事件/流程为载体实现标准化调度云智慧为企业提供了内容残缺、流程规范的运维服务性能,以实现数据中心日常运维的流程化、标准化、精细化。此外,云智慧通过帮忙企业建设疾速响应并适应企业业务环境及倒退的基础设施运维模式,实现类比 ITIL 的流程框架、运维自动化治理,从而转变企业基础设施运维的环境,使得基础设施运维各部门和IT运维部门领导者可能领有对立的语言、对立的界面来面对各项挑战以及了解新变动所带来的影响。 与此同时,云智慧会为企业提供丰盛的挪动端利用,实现多渠道协同办公。云智慧的挪动利用能够兼容市面上绝大多数的挪动平台——无论是操作系统还是终端设备类型,给企业带来更便捷的应用体验。 以数字孪生/3D全景可视化/全资源可视化等解决认知难题云智慧利用弱小的可视化引擎,将多维度动态数据融入到数据中心园区、楼宇、设施、设施、管路、桥架等实物3D之中,实现全元素三维可视化。此外,云智慧提供了弱小的2D/3D 可视化主动切换展示、自定义路线巡游、第一视角参观性能,并且可通过鼠标、键盘的简略操作即可实现数据的查问、检索、分类、定位等性能,大幅地改善了一般动态界面的枯燥、交互性差、操作和信息传递效率低、决策和响应度慢等问题,让运维工作变得简略、直观、灵便、高效。 自研数据中心容量治理,掂量数据中心 “绿色”是否达标正如行业趋势剖析中提到的“数据中心面临日益增长的资源和电力需要”,电力效率以及功率密度方面的问题已成为影响企业可继续倒退的重要因素,因而容量治理成为数据中心经营的重要关注点。 云智慧解决方案通过内部采集设施、设施进行数据整合,并通过后盾AI算法计算出数据中心实时的PUE、CLF、PLF、WUE等能耗指标;此外,还能够按设施类型、机房区域等形式进行分类统计分析,必要时可造成热度图、趋势图。与此同时,零碎可能将能耗老本、能耗组成状况进行ECC大屏等多种形式展示,同时可依据变化趋势及时地进行信息预判,联合特定的算法模型剖析效率损失的起因,帮助企业从整体上改善效力。 以数据做底座、算法为撑持、报告为进口,为决策提供无力根据云智慧通过“数据+算法+报告”相结合的模式,为决策提供无力根据。例如:云智慧反对对资源的兼顾、布局与治理,实现现有资源的充沛评估、利用。此外,还可通过丰盛的筛选条件,疾速、精确定位业务可用区域,进步资源利用率。在资源规划设计或割接环节中,云智慧可进行资源预调配(演练),模仿构建计划,依据算法引擎进行预部署的主动演算,生成打算计划与剖析报告,还可模仿故障影响范畴,实现关键设备影响剖析的疾速判断,并生成影响计划与剖析报告。通过上述这些伎俩能够帮忙企业进步SLA、躲避危险、提供牢靠的决策依据。 案例分享某五大行之一总行数据中心(两地三核心) 某保险公司数据中心监控治理平台 某 IDC 智能综合运维服务平台 某商业银行综合平安管控平台 某航空公司上海生产核心 计划劣势数字孪生之资产全生命周期 自动化 管控首要劣势在于该计划以资产全生命周期自动化管控伎俩搭建企业数字孪生的数据根底,包含自动化资产治理与动静可视化资源监测两方面: ...
关于运维自动化:数字化时代下智能运维全栈监控解决方案及案例盘点
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。引言近年来,随着互联网以及挪动设施的遍及,数字化转型减速并受到各大企业追捧。与此同时,非IT畛域的倒退报告——毕马威商业剖析报告中提到的10个行业中,大多也都提到了数字化转型与数字化转型减速。 随着数字化的不断深入,寰球IT曾经进入了新的”ABCD”时代,即AI(人工智能)、Bigdata(大数据)、cloud computing(云计算)与Digital(数字化)。这些技术方向撑持着企业数字化的过程,让IT即业务成为了企业倒退的方向。 大量业务向“互联网+”与数字化方向迁徙,企业IT规模正在高速扩大,运维人员每天都要面对数以万计的运维对象。 这种现状正好阐明了“当下是运维最好的时代,也是运维最坏的时代”。 智能运维面临的问题与挑战首先,如何了解“当下是运维最好的时代,也是运维最坏的时代”这句话?最好的时代,是因为运维的重要性被进步到了空前高度。IT零碎撑持着企业业务的运行,很多IT零碎运行状况的好坏,间接影响了企业外围业务倒退;最坏的时代,则是因为咱们面对的零碎空前简单,云计算,容器技术,微服务架构的逐渐遍及,让咱们过往几十数百台主机的零碎规模,一跃变为成千上万的运维对象。各行各业龙头企业的IT规模曾经与运维人员的比例造成了绝大差距,这也给运维带来了空前的影响。 智能运维场景系统性剖析接下来,让咱们从运维人员日常会遇到的场景登程,看看运维人员的次要工作内容。首先是运维的范畴,它围绕“指标”、“日志”、“调用链”这三个根底指标以及“告警”这个派生指标进行钻研。 Peter Bourgon 在 2017 年 “Distributed Tracing Summit” 上对运维面对的 Logging、Metrics、Tracing进行了系统性的论述,失去运维界的宽泛认可。 依据其形容,运维的场景分为“一元场景”、“二元场景”、“转化场景”三个大类。 此外,运维人员每天都要面对的指标:比方容量指标,CPU、内存、磁盘的使用率。无论是“指标”、“日志”还是“调用链”,咱们对它进行监控,设定阈值,它们都会产生“告警”,也就是说“告警”是前三者的派生指标。 指标、日志、追踪,依照他们的组合和转换关系,就造成了一元、转化和二元的运维场景。 一元场景指标:可聚合的逻辑计量单元 日志:对离散的不间断的事件的一种记录 追踪:单次申请范畴内的所有信息,即调用链信息 转化场景日志→指标:通过日志取得指标数据 日志→追踪:通过对日志的聚合和转化失去追踪 追踪→指标:通过调用链的剖析取得调用范畴内的指标 指标、日志、追踪→告警: 多个源头产生的告警 二元场景 日志+指标 :可聚合/合成的事件 日志+追踪:一个调用周期内的事件 追踪+指标:一个调用周期内的指标 智能运维建设思路面对上述的这些挑战,云智慧的应答解决思路次要有以下4条: 全栈式监控,统一化治理。次要是从基础架构、利用性能、用户体验构建等方面,从底层设施到下层业务造成全面监控体系,被动对业务、基础设施的运行状态进行全面感知。数据对立采集,建设运维数仓。对客户现有工具的数据进行对立收集和纳管,将数据标准化、场景化、共建、共享、共用。建设规范,构建运维体系。通过对云上云下的离散资源数据、关系简单的逻辑数据、外围指标数据,依照业务层级构造进行关联,造成资源图谱和指标体系。数据可视化,数据价值化。次要是通过采集到的告警、指标、性能、资产资源的数据进行关联交融,造成不同驾驶分仓,出现不同数据场景。如:零碎运行综合态势、业务变化趋势等。解决方案与性能场景介绍解决方案整体架构基于以上运维解决思路,云智慧的整体解决方案如下图所示,整个解决方案的整体架构次要分为三大部分: 左侧局部:整个产品的设计参考了相干行业的体系指南,包含:国际标准ISO20000、ITSS、ITIL4、业务连续性性能治理、DevOps、AIOps等。两头局部:是整个解决方案的外围。底层是咱们监控工具层,负责监控数据的采集;中间层次要是数字运维中台,次要是对立体化工具采集的数据进行解决;最上层为智能运维场景。平台的整个设计思路是运维通用能力下沉,Pass平台化;业务场景化上浮,Saas化。右侧局部:次要是平台可能提供与第三方无缝集成的能力,集成包含配置、性能、告警、日志数据等。 性能场景介绍接下来,咱们将对根底监控场景、云化监控场景、智能告警、交融场景的剖析以及涵盖数据价值化等一体化运维相干场景进行具体介绍。 全栈式监控,多维度笼罩云智慧全栈式监控场景可能对IDC基础设施到下层业务进行全方位监控。包含面向机房能源环境设施、服务器硬件、操作系统、网络、利用、业务等运行衰弱度状态、性能情况进行实时监控与治理。 平台可能提供有代理(agent)、无代理(snmp、wmi、syslog、jdbc等协定的形式)来监控形式,当代理采集的监测指标无奈满足用户的监控需要时,用户能够通过云智慧产品提供的凋谢采集能力,开发相干指标来满足个性化的监控需要。 目前云智慧全栈式监控中用户的数据中心都是两地三核心模式。此外,为了满足业务连续性的须要,还提供分布式、跨核心的部署,来满足用户多核心监管须要。 主动网络拓扑,疾速会诊故障在网络监控场景中,不得不提的就是主动发现拓扑能力。当故障产生时,它能够帮忙网络运维人员疾速对故障进行诊断。首先运维人员能够基于ICMP、ARP、SNMP以及LLDP通过一键发现迅速地将以后网段中的数据进行实时收集;故障定位次要是通过告警事件与故障设施进行关联,便于网络运维人员迅速发现问题、定位问题 ;故障剖析是借助已发现的拓扑,查看故障设施的告警详细信息,以及以后指标情况,综合各方面信息彻底解决故障。 通过流量,精准剖析业务的可用性网络流量监控场景次要是通过网络流量对业务的可用性进行精准剖析。流量监控次要是依据网络五元组(源ip、源端口、指标ip、指标端口、协定)针对业务及利用突发的异样大流量,及时发现网络性能异样,施行预警。另一方面,通过网络流量,用户能够剖析企业网络流量的利用率是否正当,也给网络前期扩大提供根据,防止投资的节约。 实时监控网络配置,让网络配置过程合规化 网络日常运维工作中,为解决网络的一些问题(如:零碎的降级、打补丁、网络日常保护等),运维人员须要进行相干的备份操作和变更前后的网络配置文件查看动作。因而,这里说的网络配置场景就是解决运维人员在进行上述操作前后文件失败时可能及时预警,并告诉相干运维人员发现变更异样状态。 同时提供配置文件的回溯查看性能,通过界面查看变更前和变更后文件内容,极大的晋升了网络运维人员的日常工作效率。 下图中红色和黄色局部就是两次不同工夫的配置文件的比照, 用户能够从上百行甚至上千行的文件中迅速找到,变更前后不一样的中央。(黄色)变更前的IP是192.168.1.104,(红色)变更后IP是192.168.1.56,无需通过登录设施查看。 正当布局IP地址应用,进步网络安全网络管理的第四个场景,那就是IP地址治理。通过IP地址治理性能能够帮忙数据中心正当的调配网络地址的日常应用和长期布局,从而进步网络安全性。 定时扫描,精准监测:通过工具定期扫描子网,提供子网中IP地址的可用性状态。用户能够查看某个特定IP的状态是保留还是可用。该工具承受多个子网导入,帮忙扫描整个网络,获取IP地址的状态。 可视界面,实时查:基于可视化的界面中,以不同的色彩辨别IP地址的应用状态,包含:应用中、未应用、治理IP、保留IP等。 关注业务的连续性,洞察用户实在体验对于业务连续性监测场景,云智慧次要是通过端到端的链路式监测形式,被动感知用户的实在体验。 端到端链路追踪,被动感知业务状态:全面实时获取服务端性能数据,通过利用、 组件、集群、容器及代码等逐层深入分析,帮忙企业定位剖析本身服务端性能问题。全方位被动监测,理解用户体验:实时感知终端用户是否遭逢了解体、卡顿、页面加载迟缓等体验不佳问题。疾速响应,一键剖析:可实时剖析用户操作数据,预测用户体验评分,帮忙运维团队更高效、精准地进行用户投诉剖析,晋升用户满意度。 ...
关于运维自动化:SQL审核-SQLE-二次开发环境搭建
作者:Jason 就任于捷信生产金融有限公司,负责 DBA 工作。先后从事过 oracle 、mongo 、mysql 的 DBA ,以及大数据 ETL 的开发工作。对 NEWSQL 以及云原生分布式数据库具备浓重的兴趣爱好。 本文起源:原创投稿 *爱可生开源社区出品,原创内容未经受权不得随便应用,转载请分割小编并注明起源。 SQLE 是由上海爱可生信息技术股份有限公司 开发并开源,反对 SQL审核、索引优化、事先审核、预先审核、反对标准化上线流程、原生反对 MySQL 审核且数据库类型可扩大的 SQL 审核工具。 官方主页:https://opensource.actionsky.... 官网文档:Introduction · SQLE manual (actiontech.github.io) (!!!当时申明:二次开发纯属于集体技术钻研,不得进行任何商业盈利行为) 咱们上面来搭建一下 SQLE 的二次开发环境:SQLE 采纳了前后台分离式的开发模式。 后盾采纳:go 公布的 restful API 前台采纳:nodeJS + react 咱们先看第一局部: 后盾采纳:go 公布的 restful API 事后筹备:go 语言的环境,版本为1.16 开发环境 linux 或者 mac os 这里须要强调的是 windows 上面代码是跑不通的:会遇到如下的谬误 ..\..\..\vendor\github.com\openark\golib\log\log.go:90:19: undefined: syslog.Writer..\..\..\vendor\github.com\openark\golib\log\log.go:110:22: undefined: syslog.New..\..\..\vendor\github.com\openark\golib\log\log.go:110:33: undefined: syslog.LOG_ERRGO 官网的解释如下:大抵的意思就是 windows 环境下没有具体实现这个 syslog package ...
关于运维自动化:运维与微服务结合深度解析微服务框架Tars整体解决方案
内容导航什么是Tars?Tars框架源码部署Tars服务部署治理Tars配置核心Tars服务发现Tars近程日志Tars状态监控什么是TarsTars是一个反对多语言内嵌服务治理性能的框槛,能与DevOps比拟好的协同开发。提供了蕴含开发、运维、以及测试的一整套解决方案。Tars集可扩大协定编解码、高性能RPC通信框架、名字路由与发现、公布监控、日志统计、配置管理等于一体,通过Tars可疾速用微服务的形式构建本人高可用的分布式应用,并实现残缺无效的服务治理。总体来讲,Tars是一个跨平台、跨语言的软件运行环境,是基于service mesh设计理念实现的开发框架。 Tars框架源码部署注:用CentOS7部署,CentOS6 需降级glic 部署环境Docker环境装置Mysql装置Linux/Mac源码部署Windows源码部署TarsDocker部署K8s Docker部署TarsNode部署依赖环境软件软件要求linux内核版本2.6.18及以上版本(操作系统依赖)gcc版本4.8.2及以上版本、glibc-devel(C++语言框架依赖)bison工具版本2.5及以上版本(C++语言框架依赖)flexl具版本2.5及以上版本(C++语言框架依赖)cmake版本3.2及以上版本(C++语言框架依赖)mysql版本4.1.17及以上版本(框架运行依赖)nvm版本0.35.1及以上版本(web管理系统依赖,脚本装置过程中主动装置)node版本12.13.0及以上版本(web管理系统依赖,脚本装置过程中主动装置)Tars服务部署治理部署过程有生命周期残缺的页面交互零配置或配置模板化,页面配置化操作执行文件,部署服务部署后能够在页面上进行验证,并在页面上查看服务的运行状态以及产生的日志,不便问题的排查上报版本治理页面直观可见,能够进行版本的升降级VPN或公网网络互通后,能够实现近程部署部署过程无需技术背景,操作简略部署计划能够跨平台服务公布架构实现tars patch 组件将war包上传到 patch 目录 (/usr/local/app/patch/tars.upload/)tars注册核心告诉node拉取对应的包到本地启动对应的服务服务启动后web页面能够查看启动状态服务启动后web页面能够通过流式日志查看服务的启动日志. 灰度公布Tars反对灰度公布,具体可查看下图 熔断策略当客户端和服务端须要交互时,可在注册核心拉取路由。客户端从注册核心拉取到注册信息之后能够依据外部对服务的判断决定申请什么服务。 服务公布运维治理 服务部署 模版治理 公布治理 服务治理 框架查看 Tars服务公布与传统服务公布比照比照项Tars服务公布传统服务公布服务公布页面可视化,傻瓜式操作ssh近程登录,上传文件,脚本启 动服务服务降级页面上传war包,抉择war包公布与服务公布冋样流程,但要思考历史文件的备份服务降级页面抉择对应的版,公布如果有备份文件,还原服务包文件, 脚本启动,没有备份文件,须要源码回滚打包上传,再通过脚本启动须要技能不须要肯定的运维教训,服务器操作, shell脚本的编写集群公布抉择多个节点,公布须要将包copy到对应的机器,重新启动服务Tars配置核心配置核心提供服务配置文件的对立治理性能。是实时更新配置文件、push配置文件到服务、服务被动pull配置文件的对立管理中心。次要蕴含以下长处: 对业务配置进行集中管理并且提供操作页面,使配置批改更容易,告诉更及时,配置变更也更平安;对配置变更进行历史记录,让配置能够轻松回退到前一版本。配置拉取简略,服务只需调用配置服务的接口即可获取到配置文件。能灵便治理配置文件,配置文件分为几个级别:利用配置、Set配置、服务配置和节点配置。 配置信息保护tars框架通过两个数据表(存在mysq I中)来保护这些配置信息:t_config_file s和 t_config_references。 t_config_files表的次要信息:服务配置文件名称、配置文件类型、配置文件所属服务名,配置文件所属set分组,配置文件所属节点ip以及配置文件的索引id值以及该服务所在set分组信息。t_config_references表的次要信息:配置文件的索引id以及该id所援用的配置文件索引id。 服务配置tars web管理系统上增加配置、增加援用文件、push配置文件到服务。配置文件会被推到相应的目录下。 服务代码中pull配置文件到本地。 Tars服务发现Tars协定采纳接口描述语言(Interface description language,缩写 IDL)来实现,它是一种二进制、可扩大、代码主动生成、反对平台的协定,使得在不同平台上运行的对象和用不同语言编写的程序能够用RPC近程调用的形式互相通信交换,次要利用在后盾服务之间的网络传输协定,以及对象的序列化和反序列化等方面。 注册核心次要波及到三大角色: 服务提供者、服务消费者、注册核心 。 Tars通过名字服务来实现服务的注册与发现Client通过拜访名字服务获取到被调服务的地址信息列表Client再依据须要抉择适合的负载平衡形式来调用服务 数据结构协定反对的类型分两种,根本类型和简单类型。 根本类型包含:void、bool、byte、short、int、long、float、double、string、unsigned byte、unsigned short、unsigned int。简单类型包含:enum、const、struct、vector、map, 以及struct、vector、map的嵌套。寻址形式主动寻址: 客户端Endpoint注册表的缓存更新周期,被动形式(周期刷新一分钟,refreshEndpointInterval) 主动寻址用的负载平衡算法(蕴含多种) 间接寻址: 能够通过手动填写IP port实现间接寻址,调试非凡场景下应用 调用形式通过IDL语言协定,能够定义服务提供的接口,并主动生成客户端和服务端的相干通信代码,服务端只需实现业务逻辑即可对外提供服务,客户端通过主动生成的代码即可调用服务,调用形式反对以下三种模式: 同步调用:客户端收回调用申请后期待服务返回后果后再持续逻辑。异步调用:客户端收回调用申请后持续其余业务逻辑,服务端返回后果又由回调解决类 处理结果。单向调用:客户端收回调用申请后就完结调用,服务端不返回调用后果。Tars文件定义构造演示 服务注册Tars服务注册长处: 简略易用:对开发者通明高可用:几台注册核心坏掉不会导致整个服务瘫痪,注册服务整体继续可用防止逾越机房调用:最好调用优先同一个机房的服务以缩小网络提早跨语言:容许开发者应用多种编程语言构建微服务负载平衡:负载平衡反对轮询、hash、权重等多种形式。容错爱护:名字服务排除和Client被动屏蔽。名字服务排除的策略: 业务服务被动上报心跳给名字服务,使名字服务晓得服务部署的节点存活状况,当服务的某节点故障时,名字服务不在返回故障节点的地址给Client,达到排除故障节点的指标。名字服务排除故障需 要通过服务心跳和Clien地址列表拉取两个过程,故障排除工夫在1分钟左右。 Client被动屏蔽: 为了更及时的屏蔽故障节点,Client依据调用被调服务的异常情况来判断是否有故障来更快进行故障屏蔽。具体策略是,当client调用某个svr呈现调用间断超时,或者调用的超时比率超过肯定百分比, client会对此svr进行屏蔽,让流量散发到失常的节点下来。对屏蔽的svr节点,每隔肯定工夫进行重连,如果失常,则进行失常的流量散发。 页面上手动上传进行的注册,注册到了 mysql.也能够通过Web API实现主动上传和部署 ...
关于运维自动化:WGCLOUD可以使用postgresql作为数据库吗
能够的 WGCLOUD前些天公布的版本v3.3.6,已反对postgresql作为数据源
关于运维自动化:云智慧运维管理平台OMP荣获OSC中国开源项目评选最受欢迎项目奖
近日,开源中国颁布了“2021 年度 OSC 中国开源我的项目评比最受欢迎我的项目奖项”名单,云智慧运维治理平台OMP荣获DevOps组织通道下最受欢迎我的项目奖!一起获奖的还有Apache Doris、Apache Flink、Nacos等业内出名开源我的项目。 开源中国是国内出名的开源技术社区,领有 500 万开发者,长期致力于推动国内开源软件的利用和倒退,晋升外乡开源能力,为开源生态环境的优化提供反对。 运维治理平台-OMPOMP(Operation Management Platform)平台是云智慧公司自主设计、研发的轻量级、聚合型运维治理平台。设计的初衷是为了加重交付难度,晋升运维自动化、智能化,从而整体晋升运维效率,保障业务运行的连续性和安全性。 OMP GitHub 地址: https://github.com/CloudWise-... OMP 国内镜像地址: https://gitee.com/CloudWise/OMP OMP外围性能个性通过OMP,开发者们能够进行主机资产纳管、服务部署治理、服务主动监控、定时深度巡检等运维操作,在大幅升高运维老本的同时能够更深层次地进步运维效率。下文将具体介绍OMP相干外围性能个性。 主机纳管OMP反对页面增加和批量增加两种形式纳管主机。增加过程中OMP会验证主机SSH连贯信息,验证通过后即可创立主机。此外,主机创立实现后OMP会主动装置 Agent端,装置实现后也会主动对主机进行监控。点击监控按钮能够查看主机监控面板,通过主机详情页面也能够查看主机详细信息及历史记录。 服务公布OMP反对页面上传和后端扫描两种形式公布服务包。使用者能够依据理论状况抉择适宜的形式公布服务包,OMP会对服务包进行验证,验证通过后,即可胜利公布。 服务包公布胜利后,会在利用商店中展现所公布的服务列表,使用者能够点击查看进入到服务详情页面,查看服务详细信息。 服务治理在利用商店点击装置,抉择服务版本后,进入装置流程。波及到依赖信息的服务,OMP会主动将依赖服务显示进去,保障服务装置完后的可用性。 此外,使用者可依据抉择的服务数量,进行服务散布和服务配置批改。装置过程中,OMP会优先装置依赖服务,点击“查看具体装置信息”后 可查看装置脚本输入内容。装置实现后OMP会主动对服务监控,在服务列表中能够对服务进行进行、启动、重启、卸载等操作。 监控告警异样清单中会展现正在处于告警状态的指标数据,帮忙使用者理解以后异样主机和服务。通过点击监控按钮,能够查看该服务的监控面板。告警记录能够帮忙使用者查看历史告警信息,通过点击监控按钮,能够查看该服务的监控面板。此外,监控设置中使用者能够依据理论状况,配置监控组件的地址信息,也能够开启邮件推送,抉择告警信息承受邮件。 状态巡检OMP中巡检共分为3个维度,别离是深度剖析、主机巡检、组件巡检,在巡检记录中抉择所需的巡检内容即可。巡检执行实现后,能够在线查看,或者导出巡检报告,也能够通过邮件推送报告到指定邮箱。 默认指标使用者能够在指标核心对立设置默认的告警指标,告警指标会对巡检、监控同时失效,当主机或服务资源应用超过阈值时,触发告警。 零碎设置当纳管主机或服务须要降级或保护时,能够开启保护模式。保护模式下,OMP会克制所有告警告诉。通过邮件设置,能够设置发件邮箱信息。 总结在过来十年,咱们见证了数字化转型的疾速倒退,也见证了DevOps 概念的诞生;而在过来一年中,DevOps 经验了前所未有的飞速成长;现如今,从挑战大量高度简单数据上来说,DevOps 的将来将会由人工智能驱动。 此次获奖,对于云智慧运维治理平台OMP持续推动运维行业的智能化、规范化、标准化都具备重要意义。在此,让咱们独特期待下一个智能运维时代的到来! 更多福利微信扫描辨认下方二维码,备注【OMP】退出AIOps社区OMP开发者交换群,与更多行业大佬一起交流学习~
关于运维自动化:2021年12月云主机性能评测报告
导言 博睿数据(股票代码688229)十余年专一APM畛域,已为超过2000余家大型企业提供业余数据服务。依靠先进的测评技术及丰盛的行业教训,博睿数据倾力打造了一个公开通明的性能测评栏目——【Bonree指数】。该栏目致力于出现各行业的整体性能详情,为宽广运营商及网民决策提供重要参考根据。目前,测评内容蕴含券商App行情刷新及交易体验、云短信达到率及整体性能、云主机性能等。 博睿数据从2015年至今始终致力于对国内支流云厂商进行测评。公开通明的监测数据不仅为私有云用户决策提供重要参考根据,还无效帮忙云厂商晋升服务质量,促成行业良性倒退。 多年来,为了让宽广私有云用户更加理解国内次要云厂商的实在网络品质,博睿数据在尽量雷同的测试环境下,提供主观公正的测试数据,模仿真实有效的客户现场环境,别离创立传输工作和网络工作,从实在用户角度感知业务利用体验,选取了多家国内支流云厂商进行对立测评。 在2021年12月主机性能综合排行榜中,华为云-北京持续霸榜,百度智能云-北京和百度智能云-华东位列第二、三名。 评测阐明: 评测工具:Bonree Net产品基于寰球监控网络,模仿真实有效的客户现场环境,别离创立传输工作和网络工作,从实在用户角度感知业务利用体验。 评测对象:紫光云、浪潮云、挪动云、腾讯云、阿里云、百度智能云、华为云、金山云、青云科技、UCloud、京东云、滴滴云等 评测周期:2021.12.01-2021.12.31 综合排行榜 此榜综合了三大运营商,IDC及Last Mile维度数据,反映了各云平台在网络稳固和传输品质综合实力上的排行。其中,华为云-北京、百度智能云-北京及百度智能云-华东位列前三。 电信排行榜 此榜次要反映在中国电信运营商笼罩下,各云平台在网络稳固和传输品质上的体现。 联通排行榜 此榜次要反映在中国联通运营商笼罩下,各云平台在网络稳固和传输品质上的体现。 挪动排行榜 此榜次要反映在中国移动运营商笼罩下,各云平台在网络稳固和传输品质上的体现。 具体参数 指标体系:所有云平台基于雷同硬件配置和同样的网络环境,从根底网络性能和传输性能两大维度进行测评。监测节点同时蕴含了IDC节点和Last Mile节点,152个监测节点(59个IDC节点,93个Last Mile节点)覆盖全国31个省市自治区直辖市(港澳台除外)。运营商则选取了以后网络流量占比最高的三大运营商联通、电信和挪动。 指标释义: · 丢包率:丢包率是数据包失落局部与所传数据包总数的比值。丢包率个别由下述几种起因造成:物理线路故障、设施故障、网络拥塞、路由谬误等。 · 时延:时延是指一个报文或分组从一个网络的一端传送到另一个端所须要的工夫。传送时延由Internet的路由状况决定,如果在低速信道或信道太拥挤时,可能会导致长时间时延或失落数据包的状况。 · 下载可用性:传输正确次数占总传输监测次数比例。 · 下载速度:取瞬时速度(即为下载过程中某一时刻的下载速度)的平均值,计算失去下载速度的中位数。 北京博睿宏远数据科技股份有限公司Bonree 数据钻研核心 2022.01.06公布
关于运维自动化:博睿APM获金融电子化2021年金融业新技术应用创新突出贡献奖
近日,由《金融电子化》杂志社主办的“2021第十二届金融科技利用创新奖”评选活动揭晓获奖名单。博睿数据凭借智能利用性能监控(APM)平台荣获2021金融业技术利用翻新突出贡献奖。 随着金融科技的深刻倒退,金融科技的技术利用也提到了新的策略高度。1月4日,中国人民银行印发《金融科技倒退布局(2022-2025年)》(以下简称《布局》)。《布局》根据《中华人民共和国国民经济和社会倒退第十四个五年布局和2035年近景指标大纲》制订,提出新期间金融科技倒退领导意见,明确金融数字化转型的总体思路、倒退指标、重点工作和施行保障。 《布局》中明确提出深入数字技术金融利用,健全平安与效率并重的科技成果利用体制机制,一直壮大凋谢翻新、单干共赢的产业生态,买通科技成果转化“最初一公里”。 显然,对于金融业而言,将来深入数字技术金融利用将是重点工作之一,而最新出炉的“2021第十二届金融科技利用创新奖”评选活动也印证了这一趋势。 第十二届《金融电子化》金融科技利用创新奖评比旨在表彰2021年在金融科技翻新和业务倒退方面做出突出贡献的金融机构和科技企业。本次评比共有235家机构报送的496个我的项目参评,评审委员会围绕我的项目先进性,我的项目翻新点,我的项目对推动机构晋升服务能力的作用、经济或社会效益等维度进行评审。 此次博睿数据荣获2021金融金融业技术利用翻新突出贡献奖不仅是金融业对于博睿数据APM 产品的认可,也得益于博睿数据APM的产品实力与创新能力的在金融行业一直冲破与积攒。 目前,博睿数据已与与工农中建等大行,招商银行、安全银行、光大银行, 中信银行等股份制和城商农信银行, 中信建投证券, 兴业证券等头部券商建设了长期稳固的单干关系,为助力金融业技术利用翻新提供技术撑持。 APM三大技术劣势 随同云原生和微服务的衰亡,IT零碎环境及软件应用变得越来越简单。传统的监控伎俩个别仅针对某一组件进行监控。当用户已呈现性能体验问题,传统监控工具仍可能显示各组件失常运行,无奈定位故障域和故障点,导致业务与用户体验不佳。而博睿数据则以业务交易和用户体验为出发点,融入人工智能技术,构建了逾越用户端、网络端、服务端和基础架构四个层面的智能APM产品。以业务和用户为对立视角来为客户实时提供对立的监控视角。实现从代码到用户的全链路监控、数据分析与故障定位。 博睿数据智能APM产品关键技术包含智能探针技术、大数据技术以及智能运维的技术: 1、博睿数据自研智能探针技术无需手动代码植入即可实现实时采集服务器应用程序中每一个代码的运行耗时数据,当客户的业务申请解决产生谬误或者响应迟缓等问题时,帮忙客户将性能问题精准聚焦至代码级别。 2、当数据采集工作实现后,须要对海量数据进行数据的存储和剖析。 对于企业级客户来说,大型 APM 产品后盾数据存储量可达 PB 量级,单次剖析申请数据集可达到上亿条,且对数据响应时延的要求极高,个别要求秒级响应。博睿数据自研的大数据技术实现 PB 级数据低成本、高牢靠的存储与秒级响应分析。 3、博睿数据在APM技术中融入人工智能技术与智能运维思维。基于AI实现了智能异样监测与智能告警,大大降低了运维的复杂度,晋升了问题追究的效率,实现开箱即用的AI产品能力。 此外,博睿数据 APM 产品能够对企业所有利用(网页、APP、小程序、服务器等)进行实时、全栈式(IT 零碎架构的体验层、业务层、服务层、过程层、 零碎层等)、全生命周期(开发、测试和经营)的监控和治理,能够晋升用户每一次业务拜访时的零碎运行的可观测性。 作为一家在APM畛域深耕十余年的科技企业,多年来博睿数据在技术、市场以及产业化等方面有着深厚的积攒。公司的产品线曾经笼罩APM、智能运维和大数据等多个方向,2021年入选Gartner《2021年中国ICT技术成熟度曲线报告》AIOps Sample Vendor(代表厂商);并且在APM畛域,首家通过了代表软件能力成熟度最高等级的CMMI5级评估认证;同时在产品适配方面,博睿数据也在全力布局适配支流的国产化整机、CPU、操作系统、中间件、数据库厂商等。 赋能金融科技倒退 对所有面临数字化转型的企业而言,IT运维重要性毋庸置疑,对于金融科技企业尤甚。尤其是近几年在金融科技的推动下,平台化、数字化、智能化成为金融行业的关键词。因而,对于大部分金融行业而言,能撑持数字化业务的安稳运行,从传统的运维走向经营,从老本部门变成效益部门,是所有企业对于IT运维的冀望。 以博睿数据在金融行业内某客户为例,随同着金融科技的蓬勃发展,金融服务逐步将重心转向线上渠道。随着线上业务比重的进步,外部相应的 IT 零碎也愈发宏大和简单。 该客户过来始终采纳的传统运维工具,不足以用户为核心的对立监控视角、缺失端到端的全笼罩监控能力,难以满足客户对 IT 运维效率的要求。 博睿数据的智能APM产品替换了传统运维工具,帮忙客户建设起以业务衰弱度为外围的对立监控视角。服务2年多来,该客户外围业务错误率大幅降落。 同时,APM产品能够帮忙客户构建IT零碎的全面可观测性,深刻代码层级分析问题,帮忙客户优化多处外围业务逻辑,零碎运行均匀内存使用率降落,晋升了其零碎运行效率。还帮忙该客户采集从前端网页、APP,到后端基础设施、服务调用链路、利用性能等多层面的数据,进行对立平台可视化展示和智能剖析,对立了运维人员和开发人员的沟通视角,使得单方可跨部门 高效协同工作,节俭了 IT 零碎排障工夫,升高了 IT 运维老本,晋升了运维效率。 将来,博睿数据也将持续打磨技术实力,助力更多企业进行利用性能的监控,晋升用户满意度和整体竞争力,助力企业业务倒退,致力于让每一家企业都能享受IT经营数据的价值。
关于运维自动化:运维工程师必备利器|一招实现运维智能化
现如今,随着日益增速的业务环境,运维在企业中的角色越来越重要。如何在盘根错节的IT零碎架构中升高现场故障解决工夫、进步运维效率,是每个IT运维工程师都必不可少的技能。 为解决上述运维人员窘境,2021年12月30日,云智慧AIOps社区邀请云智慧开发运维工程师Larry Zhang在线分享了开源运维治理平台OMP的性能个性、应用场景等要害内容,更是通过实际操作具体地介绍了如何通过OMP实现运维智能化。 简介OMP是云智慧自主设计研发,集轻量级、聚合型、智能运维为一体的综合运维治理平台,具备纳管、部署、监控、巡检、自愈、备份、复原等性能。通过加重交付难度,晋升运维自动化、智能化,进而晋升运维整体效率,保障业务运行的连续性和安全性。 性能个性介绍主机纳管OMP反对页面增加和批量增加两种形式纳管主机。增加过程中OMP会验证主机SSH连贯信息,验证通过后即可创立主机。此外,主机创立实现后OMP会主动装置 Agent端,装置实现后也会主动对主机进行监控。点击监控按钮能够查看主机监控面板,通过主机详情页面也能够查看主机详细信息及历史记录。 服务公布OMP反对页面上传和后端扫描两种形式公布服务包。使用者能够依据理论状况抉择适宜的形式公布服务包,OMP会对服务包进行验证,验证通过后,即可胜利公布。 服务包公布胜利后,会在利用商店中展现所公布的服务列表,使用者能够点击查看进入到服务详情页面,查看服务详细信息。 服务治理在利用商店点击装置,抉择服务版本后,进入装置流程。波及到依赖信息的服务,OMP会主动将依赖服务显示进去,保障服务装置完后的可用性。 此外,使用者可依据抉择的服务数量,进行服务散布和服务配置批改。装置过程中,OMP会优先装置依赖服务,点击“查看具体装置信息”后 可查看装置脚本输入内容。装置实现后OMP会主动对服务监控,在服务列表中能够对服务进行进行、启动、重启、卸载等操作。 监控告警异样清单中会展现正在处于告警状态指标数据,帮忙使用者理解以后异样主机、服务。通过点击监控按钮,能够查看该服务的监控面板。告警记录能够帮忙使用者查看历史告警信息,通过点击监控按钮,能够查看该服务的监控面板。此外,监控设置中使用者能够依据理论状况,配置监控组件的地址信息,也能够开启邮件推送,抉择告警信息承受邮件。 状态巡检OMP中巡检共分为3个维度,别离是 深度剖析、主机巡检、组件巡检,在巡检记录中抉择所需的巡检内容即可。巡检执行实现后,能够在线查看,或者导出巡检报告,也能够通过邮件推送报告到指定邮箱。 默认指标使用者能够在指标核心对立设置默认的告警指标,告警指标会对巡检、监控同时失效,当主机或服务资源应用超过阈值时,触发告警。 零碎设置当纳管主机或服务须要降级或保护时,能够开启保护模式。保护模式下,OMP会克制所有告警告诉。通过邮件设置,能够设置发件邮箱信息。 应用场景剖析多云环境集成疾速部署环境主机批量治理主动监控告警资产信息记录实际答疑解惑OMP中巡检的目标是什么?巡检的目标次要是对主机和服务工夫做状态快照,以此能够查看该时间段主机和服务的状态。 巡检和监控的区别是什么?巡检的颗粒度更细一些,次要是对内核等信息进行监控;而监控只会对主机CPU等级别信息的一个监控。 OMP中监控是用什么技术实现的?目前是通过prometheus操作实现。 OMP能采集到设施上的日志吗?目前OMP采集的是服务日志,可在安装包中指明服务日志门路进行日志采集。 OMP所有组件都开源了吗?是的,目前OMP所有的组件均已开源。欢送大家登陆Github或Gitee点赞反对~ OMP GitHub 地址: https://github.com/CloudWise-... OMP 国内镜像地址: https://gitee.com/CloudWise/OMP 更多福利微信扫描辨认下方二维码,备注 【OMP】 退出AIOps社区OMP开发者交换群,与更多行业大佬一起学习交换~ 讲师介绍:Larry Zhang (张磊) ,云智慧服务工程部-服务效力二部运维开发工程师,致力于云智慧开源我的项目运维治理平台(OMP)的产品研发,撑持外部交付体系疾速部署监控产品,领有丰盛的运维治理平台和PaaS平台设计开发教训。
关于运维自动化:云智慧正式开源运维管理平台OMP加速AIOps社区生态建设
近日,在云智慧推出数据可视化编排平台FlyFish后,又重磅推出开源运维治理平台OMP(Operation Management Platform)。这款由云智慧自主设计与研发,集轻量级、聚合型、智能运维为一体的综合治理平台,具备纳管、部署、监控、巡检、自愈、备份、复原等性能,可为用户提供便捷的运维能力和业务管理,在进步运维人员等工作效率的同时,极大晋升了业务的连续性和安全性。 GitHub地址: https://github.com/CloudWise-... Gitee地址:https://gitee.com/CloudWise/OMP 为什么云智慧要推出这款性能如此弱小的开源运维治理平台OMP呢?让咱们来听听该我的项目负责人云智慧技术总监Simon的心声:“咱们想把云智慧在智能运维畛域所积攒十余年的翻新实践经验,以开源的形式赋能给宽广的开发者,通过OMP来真正解决运维人的痛点,让运维工作能够更简略与高效,将来咱们冀望与行业内所有人一起来推动AIOps社区的倒退。” OMP的初衷:切实解决运维痛点在数字化转型热火朝天的当下,公司我的项目与产品都在疾速迭代降级。这对软件开发者与客户一线驻守的工程师,在疾速装置、疾速定位、主动剖析、监控告警、故障自愈等方面,都提出了新的需要和挑战。 比方当遇到主机登陆不对立的问题时,有的客户容许SSH直连,有的客户须要跳板机,有的客户却只容许显示器操作。产品上线后往往短少成熟的保障机制,如果没有精准的监控、告警、自愈零碎,一旦遇到异样或故障将会十分被动,很难疾速解决问题。 甚至在产品依据后期的布局部署后,因为短少定期的巡检及剖析,运维人员难以疾速把握以后业务零碎的运行状态及业务解决能力从而给出优化计划。 以上的这些问题是咱们通过多方调研理解到运维人员常会遇到的工作场景,以下是咱们简略总结的运维痛点: 主机环境多样性,难以对立治理。如混合云、公有云、跨IDC、虚拟化、容器化等;业务变更难度较大,主动编排能力较低;业务监控多平台难以实现数据联动;业务出现异常难以实现故障自愈;业务运行状态难以进行评估与剖析;运维常识匮乏,短少专家领导及专家解决方案。为了切实帮忙运维人员解决以上运维痛点,云智慧以升高交付难度与晋升产品的可维护性的设计初衷,打造了OMP(运维治理平台),该平台目前领有主机纳管、利用治理、利用监控、状态巡检等外围个性。 OMP外围个性主机纳管可纳管所有主机资源,并实时监控主机运行状态,反对在线治理。 利用治理提供罕用根底组件、应用服务及符合标准的自研产品,反对装置部署、变更公布、弹性扩缩容、在线配置优化等服务状态治理。 利用监控涵盖规范监控、定制监控、链路监控、智能监控等多种业务场景,可通过大数据智能测算,感知将来趋势,将异样管制在产生前。 状态巡检定期进行业务指标、运行状态汇总,可按需主动执行并发送报告。 以上这些个性设计源自云智慧多年深耕于运维畛域所获的翻新理念,更有为广大客户提供业余服务的实践经验。OMP优良的不止有搭载云智慧高精技术与算法的个性,还有核心技术架构。 OMP核心技术架构如上面OMP架构图所示,OMP前端基于Ant Design设计的React框架,后端应用Django框架,集成SaltStack等组件,实现根底性能。Agent端通过saltstack agent端实现对服务的装置管控,并自研monitor agent实现对数据的指标采集。 其中监控组件采纳了以后比拟风行的Prometheus、Grafana、AlertManager、Loki等开源产品。在数据贮存方面,OMP应用了MySQL存储持久数据,Redis用于存储长期数据、缓存及简略的音讯队列。 OMP将来开源打算在进一步欠缺OMP技术架构与外围个性的翻新实际中,咱们也发现仅有这些个性与性能,或还不足以反对宽广开发者对运维的所有需要,因而咱们仍在继续开源着OMP其余性能,比方以下这些模块,请大家刮目相待的同时,欢送给咱们提出贵重的开发倡议。 故障自愈: 当业务零碎出现异常或故障时,依照预约的自愈策略进行故障治理,极大升高故障对业务影响,缩小企业损失。 备份/复原: 针对外围数据进行备份异地并主动执行并发送备份,达到异地+异地的存储成果,使用户数据足够平安。 精简工具: 搭建运维常用工具、命令、脚本、SQL等,升高误操作及技术门槛,可按需自行保护与裁减工具,为日常运维提供便当。 常识文库: 积攒运维罕用技术、解决方案、业务性能等常识,按需自行保护并裁减常识内容。 小智解答: 当须要如操作文档、解决方案、罕用技术等内容时可疾速检索,当须要技术支持时,可申请人工反对。 开源社区减速翻新自往年8月份云智慧成立AIOps社区以来,社区先后分享了数据可视化编排平台-FlyFish、云服务治理平台-摩尔平台、Hours算法等产品。其中业内首次开源的智能运维开源数据集-GAIA数据集,填补了AIOps开源集数据畛域的空白,FlyFish开源一周便斩获中国开源云联盟2021优良开源我的项目奖。 将来,云智慧将在AIOps社区中更加器重OMP的翻新与推广,与宽广用户、研究者、开发者一起建设谐和、容纳、凋谢的OMP开发者社区。 如果你想面对面与OMP我的项目的维护者交换,第一工夫晓得OMP开源的信息,扫描下方二维码,增加AIOps社区小助手(备注OMP)的微信呦~
关于运维自动化:如何安装部署InfluxDB
influxdb是目前比拟风行的工夫序列数据库。何谓工夫序列数据库?最简略的定义就是数据格式里蕴含Timestamp字段的数据,比方某一时间环境的温度,CPU的使用率等。然而,有什么数据不蕴含Timestamp呢?简直所有的数据其实都能够打上一个Timestamp字段。工夫序列数据的更重要的一个属性是如何去查问它,包含数据的过滤,计算等等。 Influxdb是一个开源的分布式时序、工夫和指标数据库,应用go语言编写,无需内部依赖。它有三大个性:时序性(Time Series):与工夫相干的函数的灵便应用(诸如最大、最小、求和等);度量(Metrics):对实时大量数据进行计算;事件(Event):反对任意的事件数据,换句话说,任意事件的数据咱们都能够做操作。 同时,它有以下几大特点:schemaless(无构造),能够是任意数量的列;min, max, sum, count, mean, median 一系列函数,不便统计;Native HTTP API, 内置http反对,应用http读写;Powerful Query Language 相似sql;Built-in Explorer 自带管理工具。 上面咱们就来学习一下如何简略疾速的装置部署好influxdb服务1.找到influxdb的装置服务可点击试用。 2.装置部署增加节点-抉择版本-填写参数-部署胜利 装置部署过程简略又疾速,具体的装置教程如下: 如何增加节点?https://www.bilibili.com/vide...如何装置部署InfluxDB?https://www.bilibili.com/vide...
关于运维自动化:AIOps在美团的探索与实践故障发现篇
一、背景AIOps,最后的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。随着技术成熟,逐渐确定为Artificial Intelligence for IT Operations——智能运维,将人工智能利用于运维畛域,基于已有的运维数据(日志、监控信息、利用信息等),通过机器学习的形式来进一步解决自动化运维无奈解决的问题。 晚期的运维工作大部分是由运维人员手工实现的,手工运维在互联网业务疾速扩张、人力老本高企的时代,难以维系。于是,自动化运维应运而生,它次要通过可被主动触发、预约义规定的脚本,来执行常见、重复性的运维工作,从而缩小人力老本,进步运维的效率。总的来说,自动化运维能够认为是一种基于行业畛域常识和运维场景畛域常识的专家系统。随着整个互联网业务急剧收缩,以及服务类型的简单多样,“基于人为指定规定”的专家系统逐步变得力不从心,自动化运维的有余,日益凸显,以后美团在业务监控和运维层面也面临着同样的窘境。 DevOps的呈现,局部解决了上述问题,它强调从价值交付的全局视角,但DevOps更强调横向交融及买通,AIOps则是DevOps在运维(技术经营)侧的高阶实现,两者并不抵触。AIOps不依赖于人为指定规定,主张由机器学习算法主动地从海量运维数据(包含事件自身以及运维人员的人工解决日志)中一直地学习,一直提炼并总结规定。AIOps在自动化运维的根底上,减少了一个基于机器学习的大脑,指挥监测零碎采集大脑决策所需的数据,做出剖析、决策,并指挥自动化脚本去执行大脑的决策,从而达到运维零碎的整体指标。综上看,自动化运维程度是AIOps的重要基石,而AIOps将基于自动化运维,将AI和运维很好地联合起来,这个过程须要三方面的常识: 行业、业务畛域常识,跟业务特点相干的常识教训积攒,相熟生产实践中的难题。运维畛域常识,如指标监控、异样检测、故障发现、故障止损、老本优化、容量布局和性能调优等。算法、机器学习常识,把理论问题转化为算法问题,罕用算法包含如聚类、决策树、卷积神经网络等。美团技术团队在行业、业务畛域常识和运维畛域的常识等方面有着长期的积攒,曾经积淀出不少工具和产品,实现了自动化运维,同时在AIOps方面也有一些初步的成绩。咱们心愿通过在AIOps上继续投入、迭代和钻研,将之前积攒的行业、业务和运维畛域的常识利用到AIOps中,从而能让AIOps为业务研发、产品和经营团队赋能,进步整个公司的生产效率。 二、技术路线布局2.1 AIOps能力建设AIOps的建设能够先由无到部分单点摸索,在单点摸索上失去初步的成绩,再对单点能力进行欠缺,造成解决某个部分问题的运维AI学件,再由多个具备AI能力的单运维能力点组合成一个智能运维流程。行业通用的演进路线如下: 开始尝试利用AI能力,还无较为成熟的单点利用。具备单场景的AI运维能力,能够初步造成供外部应用的学件。有由多个单场景AI运维模块串联起来的流程化AI运维能力,能够对外提供牢靠的运维AI学件。次要运维场景均已实现流程化免干涉AI运维能力,能够对外提供供牢靠的AIOps服务。有外围中枢AI,能够在老本、品质、效率间从容调整,达到业务不同生命周期对三个方面不同的指标要求,可实现多指标下的最优或按需最优。所谓学件,亦称AI运维组件[1](南京大学周志华老师原创),相似程序中的API或公共库,但API及公共库不含具体业务数据,只是某种算法,而AI运维组件(或称学件),则是在相似API的根底上,兼具对某个运维场景智能化解决的“记忆”能力,将解决这个场景的智能规定保留在了这个组件中,学件(Learnware)= 模型(Model)+规约(Specification)。AIOps具体的能力框架如下图1所示: 2.2 关联团队建设AIOps团队内部人员依据职能可分为三类团队,别离为SRE团队、开发工程师(稳定性保障方向)团队和算法工程师团队,他们在AIOps相干工作中别离表演不同的角色,三者缺一不可。SRE能从业务的技术经营中,提炼出智能化的需要点,在开发施行前可能思考好需要计划,产品上线后能对产品数据进行继续的经营。开发工程师负责进行平台相干性能和模块的开发,以升高用户的应用门槛,晋升用户的应用效率,依据企业AIOps水平和能力的不同,运维自动化平台开发和运维数据平台开发的权重不同,在工程落地上可能思考好健壮性、鲁棒性、扩展性等,正当拆分工作,保障成绩落地。算法工程师则针对来自于SRE的需要进行了解和梳理,对业界计划、相干论文、算法进行调研和尝试,实现最终算法落地计划的输入工作,并一直迭代优化。各团队之间的关系图如下图2所示: 2.3 演进路线以后,咱们在品质保障方面的诉求最迫切,服务运维部先从故障治理畛域摸索AIOps实际。在故障管理体系中,从故障开始到完结次要有四大外围能力,即故障发现、告警触达、故障定位、故障复原。故障发现蕴含了指标预测、异样检测和故障预测等方面,次要指标是能及时、精确地发现故障;告警触达蕴含了告警事件的收敛、聚合和克制,次要指标是降噪聚合,缩小烦扰;故障定位蕴含了数据收集、根因剖析、关联剖析、智能剖析等,次要指标是能及时、精准地定位故障根因;故障复原局部蕴含了流量切换、预案、降级等,次要指标是及时复原故障,缩小业务损失,具体关系如下图3所示: 其中在故障治理智能化的过程中,故障发现作为故障治理中最开始的一环,在以后海量指标场景下,主动发现故障和主动异样检测的需要甚为迫切,能极大地简化研发策略配置老本,进步告警的准确率,缩小告警风暴和误告,从而进步研发的效率。除此之外,时序数据异样检测其实是根底能力,在后续告警触达、故障定位和故障复原环节中,存在大量指标须要进行异样检测。所以将故障发现作为以后重点摸索指标,解决以后海量数据场景下人工配置和经营告警策略、告警风暴和准确率不高的外围痛点。整个AIOps体系的摸索和演进路线如下图4所示。每个环节均有独立的产品演进,故障发现-Horae(美团服务运维部与交易系统平台部共建我的项目)、告警触达-告警核心、故障定位-雷达、故障复原-雷达预案。 三、AIOps之故障发现3.1 故障发现从美团现有的监控体系能够发现,绝大多数监控数据均为时序数据(Time Series),时序数据的监控在公司故障发现过程中扮演着不可漠视的角色。无论是根底监控CAT[2]、MT-Falcon[3]、Metrics(App端监控),还是业务监控Digger(外卖业务监控)、Radar(故障发现与定位平台)等,均基于时序数据进行异样监控,来判断以后业务是否在失常运行。然而从海量的时序数据指标中能够发现,指标品种繁多、关系简单(如下图5所示)。在指标自身的特点上,有周期性、法则突刺、整体抬升和降落、低峰期等特点,在影响因素上,有节假日、长期流动、天气、疫情等因素。原有监控零碎的固定阈值类监控策略想要笼罩上述种种场景,变得越来越艰难,并且指标数量泛滥,在策略配置和优化经营上,人力老本将成倍增长。若在海量指标监控上,能依据指标主动适配适合的策略,不须要人为参加,将极大的缩小SRE和研发同学在策略配置和经营上的工夫老本,也可让SRE和研发人员把更多精力用在业务研发上,从而产生更多的业务价值,更好地服务于业务和用户。 3.2 时序数据主动分类在时序数据异样检测中,对于不同类型的时序数据,通常须要设置不同的告警规定。比方对于CPU Load曲线,往往稳定激烈,如果设置固定阈值,刹时的低落会常常产生误告,SRE和研发人员须要一直调整阈值和检测窗口来缩小误告,以后,通过Radar(美团外部零碎)监控零碎提供的动静阈值策略,而后参考历史数据能够在肯定水平上防止这一状况。如果零碎可能提前预判该时序数据类型,给出正当的策略配置倡议,就能够晋升告警配置体验,甚至做到自动化配置。而且在异样检测中,时序数据分类通常也是智能化的第一步,只有实现智能化分类,能力主动适配相应的策略。 目前,工夫序列分类次要有两种办法,无监督的聚类和基于监督学习的分类。Yading[4]是一种大规模的时序聚类办法,它采纳PAA降维和基于密度聚类的办法实现疾速聚类,有别于K-Means和K-Shape[5]采纳相互关统计办法,它基于相互关的个性提出了一个新鲜的计算簇心的办法,且在计算间隔时尽量保留了工夫序列的形态。对KPI进行聚类,也分为两种办法,一种是必须提前指定类别数目(如K-Means、K-Shape等)的办法,另一种是无需指定类别数目(如DBSCAN等),无需指定类别数目的聚类办法,类别划分的后果受模型参数和样本影响。至于监督学习的分类办法,经典的算法次要包含Logistics、SVM等。 3.2.1 分类器抉择 依据以后监控零碎中时序数据特点,以及业内的实际,咱们将所有指标形象成三种类别:周期型、安稳型和无规律稳定型[6]。咱们次要经验了三个阶段的摸索,单分类器分类、多弱分类器集成决策分类和卷积神经网络分类。 单分类器分类:本文训练了SVM、DBSCAN、One-Class-SVM(S3VM)三种分类器,均匀分类准确率达到80%左右,但无规律稳定型指标的分类准确率只有50%左右,不满足应用要求。多弱分类器集成决策分类:参考集成学习相干原理,通过对SVM、DBSCAN、S3VM三种分类器集成投票,进步分类准确率,最终分类准确率进步7个百分点,达到87%。卷积神经网络分类:参考对Human Activity Recognition(HAR)进行分类的实际[7],咱们用CNN(卷积神经网络)实现了一个分类器,该分类器在时序数据分类上体现优良,准确率能达到95%以上。CNN在训练中会逐层学习时序数据的特色,不须要老本低廉的特色工程,大大减少了特色设计的工作量。3.2.2 分类流程 咱们抉择CNN分类器进行时序数据分类,分类过程如下图6所示,次要步骤如下: 缺失值填充:时序数据存在大量数据失落或者局部时段无数据等景象,因而在分类前先对数据先进行缺失值填充。标准化:本文采纳方差标准化对时序数据进行解决。降维解决:按分钟粒度的话,一天有1440个点,为了缩小计算量,咱们进行降维解决到144个点。PCA、PAA、SAX等一系列办法是罕用的降维办法,此类办法在升高数据维度的同时还能最大水平地保持数据的特色。通过比拟,PAA在降到同样的维度(144维)时,还能保留更多的时序数据细节,具体对比方下图7所示。模型训练:应用标注的样本数据,在CNN分类器中进行训练,最终输入分类模型。 3.3 周期型指标异样检测3.3.1 异样检测办法 基于上述时序数据分类工作,本文可能绝对精确地将时序数据分为周期型、安稳型和无规律稳定型三类。在这三种类型中,周期型最为常见,占比30%以上,并且蕴含了大多数业务指标,业务申请量、订单数等外围指标均为周期型,所以本文优先选择周期型指标进行主动异样检测的摸索。对于大量的时序数据,通过规定进行判断曾经不能满足,须要通用的解决方案,能对所有周期型指标进行异样检测,而非一个指标一套齐全独立的策略,机器学习办法是首选。 论文Opprentice[8]和腾讯开源的Metis[9]采纳监督学习的形式进行异样检测,其做法如下:首先,进行样本标注失去样本数据集,而后进行特征提取失去特色数据集,应用特色数据集在指定的学习零碎上进行训练,失去异样分类模型,最初把模型用于实时检测。监督学习整体思路[10]如下图8所示,其中(x1,y1),(x2,y2),...,(xn,yn)是训练数据集,学习零碎由训练数据学习一个分类器P(Y∣X)或Y=f(X),分类零碎通过学习到的分类器对新的输出实例xn+1进行分类,预测其输入的类别yn+1。 3.3.2 异样注入 一般而言,在样本数据集中,正负样本比例如果极度不平衡(比方1:5,或者更迥异),那么分类器分类时就会偏向于高比例的那一类样本(如果负样本占较大比例,则会体现为负样本Recall过高,正样本Recall低,而整体的Accuracy仍然会有比拟好的体现),在一个极度不平衡的样本集中,因为机器学习会对每个数据进行学习,那么少数数据样本带有的信息量就比多数样本信息量大,会对分类器学习过程中造成烦扰,导致分类不精确。 在理论生产环境中,时序数据异样点是十分少见的,99%以上的数据都是失常的。如果应用实在生产环境的数据进行样本标注,将会导致正负样本比例重大失衡,导致精召率无奈满足要求。为了解决基于监督学习的异样检测异样点过少的问题,本文设计一种针对周期型指标的主动异样注入算法,保障异样注入足够随机且蕴含各种异样场景。 时序数据的异样分为两种根本类型,异样上涨和异样上涨,如下图9(图中数据应用Curve[11]标注),通常异样会继续一段时间,而后逐渐复原,复原过程或快或慢,影响异样两侧的值,称之为涟漪效应(Ripple Effect),相似石头落入水中,波纹扩散的情景。受到该场景的启发,异样注入思路及步骤如下: 给定一段时序值S,确定注入的异样个数N,将时序数据划分为N块。在其中的一个区域X中,随机选定一个点Xi作为异样种子点。设定异样点数目范畴,基于此范畴产生随机出异样点数n,异样点随机散布在异样种子两侧,左侧和右侧的数目随机产生。对于具体的异样点,依据其所在位置,抉择该点邻域范畴数据作为参考数据集m,须要邻域在设定的范畴内随机产生。产生一个随机数,若为奇数,则为上涨,否则上涨。基于参考数据集m,依据3Sigma原理,生成超出±3的数据作为异样值。设定一个影响范畴,在设定范畴内随机产生影响的范畴大小,左右两侧的影响范畴也随机调配,同时随机产生异样衰减的形式,包含简略挪动均匀、加权挪动均匀、指数加权挪动均匀三种形式。上述过程只波及突增突降场景,而对于同时存在升降的场景,通过别离生成上涨和上涨的上述两个异样,而后叠加在一起即可。通过下面的异样注入步骤,能比拟好地模拟出周期型指标在生产环境中的各种异样场景,上述过程中各个步骤的数据都是随机产生,所以产生的异样案例各不相同,从而能为咱们生产出足够多的异样样本。为了保障样本集的高准确性,咱们对于注入异样后的指标数据还会进行标注,以去除局部注入的非异样数据。具体异样数据生成成果如图10所示,其中蓝色线为原始数据,红色线为注入的异样,能够看出注入异样与线上环境产生故障时类似,注入的异样随机性较大。 3.3.3 特色工程 针对周期型指标,经标注产生样本数据集后,须要设计特征提取器进行特征提取,Opprentice中设计的几种特征提取器如图11所示: 上述特色次要是一些简略的检测器,包含如固定阈值、差分、挪动均匀、SVD合成等。Metis将其分为三种特色,一是统计特色,包含方差、均值、偏度等统计学特色;二是拟合特色,包含如挪动均匀、指数加权挪动均匀等特色;三是分类特色,蕴含一些自相关性、互相关性等特色。参考上述提及的特征提取办法,本文设计了一套特色工程,区别于上述特征提取办法,本文对提取的后果用孤立森林进行了一层特色形象,使得模型的泛化能力更强,所抉择的特色及阐明如下图12所示: 3.3.4 模型训练及实时检测 参考监督学习在分类问题中的利用思路,对周期型指标主动异样检测计划具体设计如图下13所示,次要分为离线模型训练和实时检测两大部分,模型训练次要依据样本数据集训练生成分类模型,实时检测利用分类模型进行实时异样检测。具体过程阐明如下: 离线模型训练:基于标注的样本数据集,应用设计的特征提取器进行特征提取,生成特色数据集,通过Xgboost进行训练,失去分类模型,并存储。实时检测:线上实时检测时,时序数据先通过预检测(升高进入特征提取环节概率,缩小计算压力),而后依据设计的特色工程进行特征提取,再加载离线训练好的模型,进行异样分类。数据反馈:如果断定为异样,将收回告警。进一步地,用户可依据理论状况对告警进行反馈,反馈后果将退出样本数据集中,用于定时更新检测模型。 ...
宜信开源UAVStack功能上新新增JVM监控分析工具
摘要:UAVStack推出的JVM监控分析工具提供基于页面的展现方式,以图形化的方式展示采集到的监控数据;同时提供JVM基本参数获取、内存dump、线程分析、内存分配采样和热点方法分析等功能。 引言作为AllInOne的智能化服务技术栈,UAVStack提供了非常全面的监控数据采样功能,同时支持数据监控与预警。近期,我们整合了原有的数据采集展示功能,新增JVM分析功能,推出了更易用的JVM监控分析工具。 熟悉JDK的开发者都知道,JDK本身提供了一套JVM分析工具,包括jinfo、jmap、jstack等。用户可以通过命令行轻松获取JVM内存堆栈信息、内存对象分配以及JVM启动基本参数信息。但这些工具需要在命令行环境中执行,且生产环境下则需要通过堡垒机转发。 开源社区一些不错的JVM分析工具也可以提供获取JVM基本信息、追踪堆栈、获取内存信息等功能,但同样需要命令行CLI的支持。 UAVStack推出的JVM监控分析工具提供基于页面的展现方式,以图形化的方式展示采集到的监控数据;同时提供JVM基本参数获取、内存dump、线程分析、内存分配采样和热点方法分析等功能。 一、架构JVM监控分析工具基于UAVStack既有架构,整体分为前端、后台及中间件增强框架(MOF)。其中: 前端负责展示数据、向后台发送用户执行指令;后台负责下发指令、响应用户查询、处理采集到的数据;中间件增强框架(MOF)负责接收后台下发的指令、执行指令并返回数据或将数据写入文件,然后通过UAV提供的文件归集功能上送数据。整体架构流程如下图所示: 二、关键技术2.1 JMXJMX提供相关接口,获取基础的JVM监控数据,如内存堆大小、GC情况等,是JVM监控数据的基础。 2.2 中间件增强框架(MOF)作为分析工具整条链路的基础,MOF依附于用户应用,主要提供以下基础支持: 基础数据采集:MOF植入应用中,JMX定期获取并上报相关JVM的基本信息数据,为展示和预警提供数据基础。请求捕获、指令执行:JVM监控分析工具的大多数功能都需要下发指令至应用所在的服务器。MOF负责把下发指令的请求拦截下来,执行并返回对应的结果。2.3 Java Attach APIJava Attach API是由Sun提供的一套非标准API,可以将用户连接到运行中的虚拟机进程上,进行agent的挂载等操作。 在JVM监控分析工具中,Java Attach API主要用于Attach到虚拟机进程,进行如下操作: 获取JMX Connection:从外部获取JVMConnection,得到MXBean,抓取运行数据。(CPU采样分析)获取VirtualMachine对象:调用接口,得到堆内存分布信息。(内存采样分析)三、功能展示3.1 基本监控选择应用实例后即可进入基本监控页面。 该页面主要展示CPU使用率、线程情况、内存占用和GC情况。用户可以根据需求调整时间范围,查看不同时段的监控数据。 3.2 JVM摘要JVM摘要页面显示当前虚拟机的基本参数信息,包括基本信息、JVM参数和系统属性。其中: 基本信息包括pid、主机信息、启动参数以及JVM的启动时间等最基本、最重要的信息;JVM参数包括所有JVM启动参数,用户可查看指定的堆大小、垃圾回收器信息等;系统属性包括写入System.Properties中的所有配置信息以及Javaagent的配置属性。 3.3 线程分析线程分析通过执行jstack获取线程基本信息,并对输出结果进行分析,得到线程状态数量、有无死锁等信息。 3.4 内存Dump内存Dump通过执行jmap获取指定JVM的堆栈dump文件。 用户可以便捷地在前端一键生成dump,不需要再登录堡垒机。点击“刷新”可以查看近期dump内存的操作记录。 3.5 CPU分析CPU分析是基于线程栈的采样分析,主要提供两个功能:线程执行时间以及方法热点采样。 线程执行时间是指线程在采样期间的活动时间。查询结果按照线程活动总时间排序,同时提供线程名称和线程执行时间信息,用户可据此判断应用的执行情况。 方法热点采样统计所有方法的执行时间,提供方法的类名和方法名信息。其中,方法的自用执行时间不包括方法调用其他方法的执行时间。查询结果按照方法的自用执行时间降序排序,用户可以查看当前应用内部耗时较长的执行方法,判断应用是否异常、是否需要优化。 3.6 内存分析内存分析是基于线程以及堆的统计采样分析,主要提供两个功能:每个线程的内存分配和堆内分配细节。 线程内存分配提供每个线程的内存分配大小和线程名称等信息,按照内存分配大小降序排列。用户可查看当前占用内存较大的线程。 堆内分配提供了各个类在堆内的分配实例数以及所占用的堆内存,按照堆内存大小降序排列。用户可把该功能当作简易的dump及分析工具,快速分析内存分配情况,发现内存分配问题。 总结JVM监控分析工具是从监控、分析到展示的一体化工具。JDK自带的工具虽然也可以实现除CPU分析之外的其他功能,但不够便捷,也无法实现从采样、分析到图形化展示的一体化效果。JVM监控分析工具解决了开发人员没有线上应用堡垒机权限、无法分析采集到的数据等痛点,同时提供CPU与内存采样分析等功能,以较低的性能开销获取较为全面的JVM运行数据,帮助应用开发人员发现与分析问题,为应用开发优化提供参考依据。 UAVStack已在Github上开放源码,并提供了安装部署、架构说明和用户指南等双语文档。 官方网站:https://uavorg.github.io/main/ 开源地址:https://github.com/uavorg 作者:张明明 首发于:UAVStack智能运维
分布式主动感知在智能运维中的实践分享实录
导读:企业数字化使得运维智能化转型成为必然,宜信积极推动 AIOps 在科技金融企业的落地实践。本次主题是探索 AIOps 落地的一种形式:通过行为采集、仿真模拟、主动感知等手段,从用户侧真实系统使用体验出发,结合全维监控数据,更加有效的实现智能异常检测和根因分析。 一、运维的发展1.1 运维的价值早期的运维工作比较简单,一般是先由系统集成工程师及研发工程师研发完项目后交付出来,再由负责运维工作的人员从后台做一些操作,保证系统正常运行。 图1 随着软件研发行业和技术的发展,运维的工作也变得越来越丰富。现阶段运维的工作与价值主要集中在三个方面: 1)效率大量业务上线,运维人员需要保障快速高效地为系统提供资源、应对业务变更、响应操作请求。 2)质量运维的目标是保障质量及系统的稳定性。也就是说,要保障业务和系统7*24小时在线上稳定运行,为用户提供流畅舒适的体验。为实现这个目标,运维的相关工作包括: 故障预测:没出现问题之前预测到故障发生的可能。异常检测:出现问题时很快检测并定位到异常点。根因分析:分析问题的诱因,找出真正导致问题的根本原因。动态扩容:问题处理的过程中可能受到复杂因素的影响,需要对系统进行动态扩容。服务降级:不影响核心业务的边缘业务可能需要做服务降级处理。3)成本随着公司规模的不断壮大,投入产出比也越来越被重视。运维的另外一个价值在于降低成本。主要体现为: 容量规划:规划每年在IT运维层面投入多少人员和资源。弹性调度:如何调度和分配资源,实现资源的充分利用。利用率分析:利用率分析包括动态和静态两个方面。趋势分析:比如今年花了多少钱在IT运维层面,明年要花多少钱在这个方面,这是一个趋势分析。成本分析:成本分析包括今年有多少业务、每个业务用了多少钱、多少IT技术设施、多少人员。1.2 运维的困境 图2 如图所示,横坐标代表服务规模。公司业务不断增长,服务规模也相应增长,此处我们简单理解为这是一个线性的变化,不考虑业务的暴增。 然而,业务规模增长反映到运维的复杂度增长上最少体现在三个层面: 服务规模的增长直接导致服务器量及网络量的增长,随之而来的是网络拓扑的增长。业务增长,服务的技术栈也是增长的。以前可能前边跑一个服务,后边跑一个数据库就可以了,现在随着服务规模的不断增长,引入不同服务形式,可能就有了队列、缓存等,相应的,技术栈也不断增加。服务拓扑不断增长。以前可能一个烟囱型的服务就可以了,而现在随着微服务的应用,服务之间的调度非常多,需要增长服务拓扑来满足需求。随着服务规模的增长,运维复杂度呈现指数级增长,那运维人员是否也随着增长了呢?纵观各司,答案是否定的。出于节约成本的考虑,各司各岗位人员并不会随着服务复杂度增加而扩张,反而是越来越趋于平稳。基于这个比例,相当于运维复杂度越来越高的情况下,运维人员越来越少了。 中间的差距如何来弥补呢?这就需要运用到运维手段了。即上图所示的:运维质量=运维人员 X 运维手段。运维人员要通过各种运维手段来解决运维困境,进而推动运维的发展。 1.3 运维的发展图3 如图所示,运维的发展大致分为四个阶段: 1)手工阶段手工阶段比较好理解,研发人员交付一个系统,运维人员通过手工执行操作保障这个系统正常运行。此阶段的运维工作没有什么标准可言。 2)标准化阶段随着企业IT系统越来越多地引入运维,且所有业务都变成系统形式在线上运行,运维工作的重要性越来越高,但同时带来的是运维和研发、业务人员工作中的沟通壁垒。这时就衍生出了一些标准,其中最主要的是ITSM(IT Service Management,IT服务管理)。ITSM的目标是把日常所有的运维工作,包括流程、信息管理、风险控制等,通过系统建设和标准化固定下来,像流水线一样,人员只需要按照标准参与即可。 3)自动化阶段随着互联网大爆发,服务交付模型越来越多,用户对互联网和IT的要求越来越高,ITSM的缺点也越来越明显,主要表现为时间过长、成本过高,不能适应快速多变的需求。于是从工程或运维的角度自发出现了一种文化:DevOps,DevOps强调运维、研发及QA工程师工作的高度融合,要求运维从工程交付的角度不断迭代。 同时从企业IT管理或运营诉求出发也要解决快速演进的问题,于是演化出了标准ITOM。ITOM和ITSM很像,区别是把“S”改成“O”,即把Operation本身及其带来的各种自动化工具纳入模型中,包括主机、运营、发布系统等等。 DevOps不断发展演变成现在的ChatOps,ChatOps的目标是将研发、运维、QA融合起来,以说话(Chat)的方式进行交流,但 ChatOps 只考虑了交流的形式,并没有就如何实现基于 Chat 方式的整体解决方案,ChatOps 并没有很好的解决 DevOps 的困境。ITOM把所有的Operation线上化、自动化后,发现IT运维所产生的大量数据是非常有意义的,特别是对于企业数字化而言,这些数据经过加工分析,可以对日常业务产生价值。于是Gartner提出了一个新的标准“ITOA”。ITOA强调IT数据的价值,提出对IT运维分析的诉求,但没说明这个数据能干什么。很快Gartner就将ITOA演化成“AIOps”。这时AIOps中的“AI”是指“Algorithm(算法)”,强调的是数据分析本身产生的价值,包括通过算法来解决线上故障发现、日常交互等运维问题。4)智能化阶段随着行业对IT运维要求的不断提高,无论是AIOps还是ChatOps,都面临一个严重的问题:人处理不过来了。从工程角度来看,运维面临的现状是异构性非常强,需要引入三方应用和各种各样的设备,交付模式也越来越多,运维复杂度出现指数级增长。为解决上述问题,Gartner适时提出了“AIOps”的概念,这里的“AI”代表的是人工智能,通过机器人的参与将人工智能技术体系带入到运维的各个环节,帮助解决运维问题,运维发展也由此进入智能化阶段。 二、什么是智能运维2.1 什么是智能运维(AIOps)?图4 BMC给了AIOps定义是: AIOps refers to multi-layered technology platforms that automate and enhance IT operations by 1) using analytics and machine learning to analyze big data collected from various IT operations tools and devices, in order to 2) automatically spot and react to issues in real time.简单来说,就是引入多层平台,使用大数据分析和机器学习等方法,加强IT运维自动化的能力。 ...
kubernetes-常用命令缩容扩容回滚
查看版本kubectl version查看节点kubectl get nodes部署app说明: 提供deployment名称和app镜像地址(docker镜像地址) kubectl run kubernetes-bootcamp --image=gcr.io/google-samples/kubernetes-bootcamp:v1 --port=8080再如: run test --image=preparedman/mytomcat:tagname --port=8088查看appkubectl proxy测试:curl http://localhost:8001/version { "major": "1", "minor": "13", "gitVersion": "v1.13.3", "gitCommit": "721bfa751924da8d1680787490c54b9179b1fed0", "gitTreeState": "clean", "buildDate": "2019-02-01T20:00:57Z", "goVersion": "go1.11.5", "compiler": "gc", "platform": "linux/amd64"}获取pod名字 export POD_NAME=$(kubectl get pods -o go-template --template '{{range .items}}{{.metadata.name}}{{"\n"}}{{end}}')测试:echo Name of the Pod: $POD_NAME 使用kubectl进行故障排除主要使用如下命令 kubectl get - list resources 列出资源kubectl describe - show detailed information about a resource 显示资源详情kubectl logs - print the logs from a container in a pod 打印`pod` 中container的日志kubectl exec - execute a command on a container in a pod 在`pod`中的container上执行命令获取应用配置查看应用是否在运行 ...
OpsCICD持续交付概要笔记
相关概念持续集成:集成构建和测试的反复持续过程持续交付:在持续集成之后获取外部对软件的反馈再通过持续集成进行优化的过程持续部署:将可交付产品快速且安全地交付用户使用的一套方法和系统 持续交付价值:在保证交付质量的前提下,加快交付速度,从而更快地得到市场反馈,引领产品方向,最终扩大收益。对CTO:环境管理,整套标准规范落地,提高跨部门协作效率,快速恢复故障(回滚)对team leader:只是传承,专注业务而非工程,平稳节奏持续工作对产品经理:即时体验,熟悉进度质量,产品随时可发布影响持续交付的因素:期望组织文化:紧密配合,集思广益,自我驱动方案: 成立项目管理办公室(但不要把流程变得更加复杂),独立工程效能部门(成本高,小团队不适用)敏捷开发(个人能力要求高)打破流程因素:耗时长,人工,信息报备架构:系统架构单体架构:项目编译、回归、部署时间随仓库变大而变长SOA架构:服务拆分利于实施,考虑服务之间的依赖、环境隔离,中间件适配微服务架构:非容器技术的微服务架构与SOA基本一致部署架构同意的部署标准方式发布的编排次序(灰度发布策略,如:金丝雀发布/滚动发布)markdown markup(服务拉入拉出机制)预热与自检DevOps:技术(自动化运维,持续交付,高频部署、Docker)/职能/文化/组织架构 分支策略:主干开发(trunk based dev)优点:无需分支切换;频繁集成冲突少、效率高缺点:短板效应;借助特性切换会引入新问题适用项目:团队系统设计开发能力强,有特性切换方案,快速迭代特性分支开发:类别 git flow:普遍认为hotfix和release显得多余。适用项目:有预订的发布周期,严格执行发布流程。github flow:流程简单易上手,适用项目:随时集成即可发布gitlab flow:github flow基础上衍生出3个特性分支production,enviroment,release,适用项目:随时准备发布,需要通过不同环境测试,对外发布维护不同版本。优点:不同功能互不干扰,保证主干分支质量缺点:需要即时merge,每个分支的CI/CD环境不同依赖管理特性:统一的命名规则,中心仓库,配置文件,本地可解析 代码回滚:个人分支回滚:可以用git reset --hard 集成分支上线前回滚:可在gitlab上找到对应的merge request,点击revert 集成分支上线后回滚:在集成分支头上增加一个commit,该内容等于回滚后对应的commit 测试环境:5大类:开发环境,功能测试环境,验收测试环境,预发布环境,生产环境成本:机器;管理(可用,配置,测试数据);流程(沟通,测试)自描述: 定义ServerSpec(描述文件,服务器的所有身份信息)配置中心(构建时配置,打包时配置,运行时配置)服务自发现(根据服务类型,访问路径等自动生成对应的路由负载均衡配置等)快速构建测试环境:虚拟机环境:物理机硬件配置,系统与网络,利用工具自动配置环境应用部署流水线:单应用标准化部署,并行,容错:错误中断/优先完成环境变更:入口管理-约定大于配置,调用链管理-自发现,数据库-SOA调用链/来自生产快速创建;创建和拆分、合并后的环境冲突。容器:概念:是软件的一个轻量的、独立的、可执行包,包括了执行它所需要的所有内容:代码、运行环境、系统工具、系统库、设置。特性:交付结果一致,交付自动化,交付个性化,交付版本控制构建提速:升级硬件,搭建私有仓库,使用本地缓存,规范构建流程,善用共建工具持续集成工具:Travis CI,Circle CI,Jenkins CI,Gitlab CI容器镜像:DooD(Docker-outside-of-Docker):是指通过加载宿主Docker socket和程序的方式达成重用宿主镜像的目的。 优点:复用镜像共建环境,宿主机只需安装Docker Daemon缺点:内部环境需与外部一致,Docker Daemon出问题影响其他容器。DinD(Docker in Docker):在容器中安装一个全新的完整的隔离的Docker版本,该容器和外部的Docker系统完全隔离。 优点:内部是一个完整的镜像构建环境缺点:安全和文件系统问题,构建性能(镜像缓存随容器重启而消失)容器个性化&合规检查:自定义环境脚本(.pass),平台化环境选项与服务集市,自定义镜像发布 发布流程:单机发布抽象步骤: 下载新的版本,不执行覆盖;通知上游调用方,自己现在为暂停服务状态;运行命令 load 变更重启服务;验证服务的健康状况;通知上游调用方,自己服务恢复正常。集群灰度发布:蓝绿发布,滚动发布,金丝雀发布不可变模型(Immutable):任何基础设施的实例一旦创建则只读,如需修改或升级只能创建新实例来替换灰度发布系统设计:类目:集群,实例,发布日志,发布历史,发布批次,发布操作2种时态: 发布中:展示处理的过程,结果,耗时,当前情况未发布时:显示版本演进路线图,当前各集群,服务器上具体版本的情况3种结果:成功,失败,中断4种情况按钮组合(谁发布,谁运行): 开始发布中断发布中断或重试发布(局部错误时)中断或继续发布(发布刹车时)5个发布步骤(演进自上述单机发布抽象步骤) markdown:拉出集群download:根据版本号下载代码包install:停止服务、替换代码、重启服务verify:启动、预检、预热markup:拉回集群策略:单机单应用优于单机多应用,全量发布优于增量发布,header附加堡垒标识从而保证堡垒机流量定向监控:用户监控:(可以通过打点收集,或者定期采集日志的方式进行数据收集) 端到端监控:访问量,成功率,响应时间,发包回包,地区,运营商,app版本,网络类型移动端日志:系统崩溃异常设备表现监控:CPU,内存,温度,卡顿白屏,堆栈分析uid监控:获取一个独立用户的具体情况网络监控(通过模拟手段或定期采样进行收集):公网内网监控 业务监控(定义正确的指标,实时性):单位时间内的订单预测线 应用监控/调用链监控(可以通过中间件打点采集,也可以通过日志联合分析进行数据采集):收集应用层全量的数据进行分析,要分析的内容包括:调用量、响应时长、错误量等;面向的系统包括:应用、中间件、缓存、数据库、存储等;同时也支持对 JVM 等的监控。 系统监控(定期采样):基础设施的CPU、内存、I/O、磁盘、网络连接等作为监控指标。 其他:代码静态检查;破坏性测试:混沌工程(Chaos Monkey);Mock 与回放 持续交付中的数据:稳定性指标统计所有的故障时间(开始、结束、时长),计算过去三个月内这个时间段产生的持续交付平均业务量、业务量与月平均量相比的损失率 性能指标push 和 fetch 代码的速度;环境创建和销毁的速度;产生仿真数据的速度;平均编译速度及排队时长;静态检查的速度;自动化测试的耗时;交付能力成熟度指标与代码管理子系统相关的指标包括:commit 的数量,code review 的拒绝率,并行开发的分支数量。与环境管理子系统相关的指标包括:计算资源的使用率,环境的平均大小。与集成编译子系统相关的指标包括:每日编译数量,编译检查的数据。与测试管理子系统相关的指标包括:单元测试的覆盖率,自动化测试的覆盖率。与发布管理子系统相关的指标包括:周发布数量,回滚比率。例:移动 App 持续交付生命周期代码及依赖管理、项目信息管理、静态代码检查、构建管理、发布管理、运营管理、热修复。 细节:利用发布快车的发布模式,可以有效地管理客户端的版本,保证研发工作按节奏持续向前进展;采用带发布分支的 GitLab Flow 配合发布快车的模型,可以使其做到物理落地;发布快车本身也有一些弊端,比如对 Master 分支的合并,检查不够严格的话,会拖累项目进度,因此我们采用改造构建通道的方式,避免了这个问题的产生;移动 App 的发布,有其独特的流程,通常是先内测,后正式发布;但其流程相对固定,且容易自动化。所以,我的建议是,实现发布的完全自动化,以提高研发效率。进一步,提升交付效率:利用组件化的思想提升开发效率,但同时也会带来组件依赖及发布的问题;利用扁平化依赖管理的方法解决组件依赖和发布的问题,同时采用二进制交付的方式,进一步提高构建效率;合理利用静态代码扫描、UI 自动化、自动 Monkey 等测试工具和方法,进一步提升测试效率;确保分发的精准性和稳定性,是提升发布效率的有效手段。参考资料《持续交付36讲》 ...