2022 年 7 月 4 日,【可观测,才牢靠——云上自动化运维 CloudOps 系列沙龙_第一弹】正式推出,第二位分享的讲师是阿里云弹性计算技术专家郝晨栋,他带来的分享主题是《云上可观测能力:问题的发现与定位实际》,以下是他的演讲内容整顿,供大家阅览:
01 云服务器可观测能力价值
云服务器可观测性是指,客户可能感知到服务器外部运行状况的能力,从而保障云上资源的可靠性。与传统 IT 运维相比,上云 IT 的应用形式和运维形式产生了一些变动。比方,传统 IT 运维场景下,客户会自购机房、自购机器,操作的是硬件资源;而上云后,客户通过 OpenAPI 操作各种计算资源。同时,传统场景下,业务规模受限于机房或物理机;而得益于云上的弹性能力,客户可能轻松将业务规模扩充到上百台或上千台服务器。
上云后的运维也减少了诸多挑战和难度,须要云服务器的可观测性来解决。
云服务器可观测的价值次要有以下三点:
① 晋升问题定位效率。通过自助服务疾速定位问题,可能做到有据可依。
② 简化运维,不便把握云服务器的运行细节。
③ 晋升资源可靠性,及时把握云服务器客户 OS 外部以及底层状态,防止黑盒。
阿里云针对晋升云服务器的可观测能力提供了很多支流工具集,蕴含衰弱诊断、零碎事件、云监控、ARMS 和操作审计。这些工具尽管定位和角度不一样,但其目标都是统一的,即为了让客户清晰感知到以后实例的衰弱状态,帮忙疾速发现问题,升高运维老本。
02 应用自服务工具定位和剖析典型问题
自服务工具 On-demand self-service 指用户可能自助获取计算资源或服务,而不用与服务供应商打交道。
客户在云上常常面临的典型问题有比方实例无奈启动、实例无奈连贯、操作不失效等。传统场景下,客户只能提交工单寻求售后反对,问题解决速度取决于客服对问题的了解水平或回复效率。
而在自服务场景下,咱们将典型的客户问题全副收纳到衰弱诊断工具集里,客户能够在管制台上自助发动诊断,进行问题解决,只需分钟级即可定位问题。
实例无奈启动个别有两方面起因:
其一是操作系统内问题,比方客户操作系统中病毒,一些要害文件被毁坏或删除,客户的误操作导致操作系统一些外围零碎服务没有开机启动,Fstab 文件配置谬误,也可能是镜像与规格抵触导致。针对操作系统内问题,目前衰弱指南工具能够疾速定位问题,并将对应修复计划推送给客户。
其二是云平台底层问题,此类问题较为少见,次要有库存有余、宿主机告警、控制系统异样、虚拟化异样以及磁盘扩缩容异样等。针对此类问题,诊断工具会向客户推送人工服务中转入口。同时,针对一些较为重大的谬误,会向客户推送问题上报入口,如果运维团队确认客户上报的问题十分重大,会被动触发运维动作,且步骤对客户齐全通明。
实例无奈启动的状况下,阿里云诊断工具如何实现对实例操作系统外部的探测?
以个人电脑操作系统为例,比方个人电脑坏了当前,通常会应用 U 盘作为修复盘,启动时进行调整,启动 U 盘再进行重装系统或修复,最初将修复盘卸载,电脑即可失常启动。
诊断工具的工作原理相似,如上图左下方所示。如果客户操作系统无奈失常启动,诊断工具会为客户挂载一块修复盘,并且会生成用于登录修复盘的长期明码等。修复盘挂载好当前,主动为客户启动实例,原先的系统盘会作为数据盘挂在当初的实例下,而后进行实时探测。如果发现问题,会给客户举荐具体的修复计划,客户能够依据修复计划解决问题。原先零碎盘内的问题解决当前,将修复盘卸载,即可失常启动,整个流程对客户齐全通明。
实例无奈近程链接次要起因为 ECS 两个服务器之间无奈连通以及 ECS 实例与公网 IP 无奈连通。诊断工具反对三种类型输出,能够抉择 ECS 实例、网卡或公网 IP。
诊断工具会列出发动端和目标端之间的要害门路,比方实例账户自身状态、实例操作系统、以后实例所在交换机等要害门路,顺次探测每个要害门路是否连通,最终得出结论。
要害门路能够分为两大类,实例配置类和操作系统内配置,其中实例配置类包含实例欠费、Vswitch 未放行流量、实例被锁定等;操作系统类次要借助云助手实时下发开源诊断命令,如果发现操作系统内存在问题,则会在修复计划里告知用户。网络连通性诊断报告里会显示无奈连通的要害门路及其起因。
实例变更操作不失效指客户在管制台上做了一些变更,但后果与预期不符。这一类的问题难度较大,变更动作十分多,没有失效的起因也十分多。目前自服务诊断工具曾经反对的诊断能力有云盘扩容未失效、重置明码不失效、实例变配不失效以及实例续费生效。
比方客户云盘超过容量,在管制台上做了扩容,从 40G 扩容到 100G。管制台上曾经显示为 100G,但仍然须要客户进入 OS 里做一些扩容命令能力真正失效,否则会导致业务受损。诊断工具有专门针对云盘扩容的专项诊断,如果发现客户理论失效磁盘与扩容大小不统一,会给用户推送扩容倡议,防止客户业务受到侵害。
还有一类实例变更操作不失效是因为客户对产品规定不相熟导致,诊断工具会给客户推送当初的产品规定。
上述典型问题都须要依附客户在管制台上被动发动诊断,属于被动服务。而自服务能力背地的被动探测工具是对账零碎。如果客户在云上应用的服务与理论运行的不统一,则会影响业务。因而,能够通过对账工具来保障客户在管制台上看到的与理论运行值统一。比方会比对管制台上客户看到的 IP 与理论 IP 是否统一等。
通过客户被动发动诊断,再加上自服务工具背地的被动服务,来确保客户可观测到的数据与理论运行统一。
上图为自服务诊断工具的诊断能力总览和用户场景。
诊断能力次要分为两大类,别离是问题排查和规定类。问题排查类又细分为操作系统和云平台类,目前已有大概 80 多种诊断能力;产品规定类目前曾经提供了 30 多种能力。
阿里云平台诊断剖析依赖于阿里云底层的数据采集。阿里云在寰球有靠近 30 多个地区、上百个可用区,每时每刻都有实时数据被采集上来,比方物理机、IDC 有机房、操作性能、串口日志等。这些根底日志是衰弱诊断工具的输出,有了这些底层数据,诊断能力做数据荡涤、聚合计算、抽取与异样相干的特色,最初产出诊断根因。
另一部分诊断能力与操作系统内客户的关系较为亲密,通过在实例内装置云助手服务实现。客户发动诊断时,通过云助手在客户实例上执行开源脚本,进行实时数据收集,包含负载类和配置类,比方实时探测以后客户 OS 内的 CPU、内存、iOS 等负载类,或 DHCP、IP 等配置类。
阿里云平台诊断和操作系统内诊断两大能力独特组成了衰弱诊断服务。目前衰弱诊断服务曾经输入到控制台上供云客户应用,也输入到外部给云产品应用,近期也将推出 OpenAPI。
03 集成诊断实现自动化运维
对于没有本人运维平台的中小型客户,咱们举荐间接在管制台上应用诊断产品,既不便又快捷,诊断产品还提供了诸多具体计划供客户参考。
对于有本人运维零碎的中大型用户,倡议通过 API 的模式集成到本人的运维零碎中,高效便捷。比方能够将监控零碎与诊断做整合,监控零碎发现实例负载不失常时,会间接调用诊断 API 并依据诊断后果做解决;能够将诊断服务集成到巡检零碎里,每天对一些集群的外围实例做实时诊断,如果有异样则及时更换或扩容;能够将诊断服务集成到后盾运维零碎里,供值班人员应用,比方 RDS 实例发动诊断时,也能够同时对 ECS 层面发动诊断。
此外,诊断产品还联合了运维编排能力,凋谢了很多运维编排的公共模板,能够疾速实现定时运维、事件驱动型运维,也提供了批量操作的能力,比方批量发动诊断或跨地区发动诊断等,以上能力都能够在 OS 管制台上间接应用公共脚本来实现。同时,还反对 ECS 产品依据诊断按后果来触发操作,比方诊断后果为以后实例负载过高,能够触发创立新实例或升配;如果诊断后果为云盘容量曾经占满,可触发扩容命令等。
04 瞻望
自服务诊断工具冀望成为 ECS 产品问题定位和排查的总入口。近期咱们会公布衰弱诊断的 Open API,目前也正在密集开发更多的诊断能力。此外,在阿里云官网社区里也有建设了技术圈,供业内同仁在业余上的交换分享。
Q&A 环节,观众发问
Q1 主动诊断后为什么不执行主动修复?
答:咱们曾做过一些主动修复的尝试,但成果并不好。首先,局部修复动作存在危险;其次,修复动作可能须要用户受权。因而,最终咱们决定只将修复计划方提供给客户。
Q2 问题发现和定位的精准度如何?
答:诊断工具无奈做到全面笼罩,目前次要以保障产生频率较高的问题为主。问题起源有三个渠道:第一类为客户工单,从产生频率较高的问题里评估哪些能够集成到诊断工具里;第二类是定期访问一些 GC 3 以上的客户;第三类是平时团队外部的管控值班周报。
点击这里,观看嘉宾的演讲视频回放。
近期流动预报
【自动化,才高效——云上自动化运维 CloudOps 系列沙龙_第二弹】来袭,就在 7 月 25 日 -27 日,敬请期待。
自动化即是通过使用工具或零碎达到缩小、甚至是齐全取代人工的操作。在研发效力与运维工作中,自动化是降低成本、晋升效率必不可少的形式,自动化还能缩小人工带来的谬误,晋升团队满意度。因而,阿里云弹性计算云上自动化运维 CloudOps 系列沙龙,将以“自动化与智能化”作为第二弹的主题,分享相干思考与实际。收费报名通道曾经开启!即刻扫描下方海报中的二维码报名,进群还能取得最新讲师 PPT 材料。
沙龙小 Tips:观看直播时在弹幕区提出本人的疑难,被讲师抽中答复问题的同学,还会取得加湿器等精美礼品哦!同时在直播完结时填写问卷,也有机会取得便携玻璃杯等多重好礼。