关于故障恢复:可观测性最佳实践-警惕未知的风险正在摧毁你的系统

无声的刺客最为致命，往往外表看似云淡风轻，理论早已危机重重，血雨腥风剑拔弩张。这样的局面看似离咱们很边远，但每个开发运维人员理论都遇到过。在寰球数字经济大潮下，古代企业纷纷投身于业务数字化转型的浪潮。越来越多的行业演变成一个个互联网利用，以实时在线的数字化形式提供服务，解脱了传统意义上物理地位和营业时间的解放。此时在线服务的稳定性、可靠性和并发性能变得尤为重要，因为这些都会极大地影响用户体验和服务质量评估。

▲ 图源自网络，侵删

比方在刚过去的 2022 年，全国百姓的日常民生问题，都和一个小小的在线实时生成的二维码产生亲密关联，若因服务质量不稳固会造成多重大的结果可想而知。如果此时零碎内呈现无声的刺客，他可能捣毁的不仅仅是一个零碎，甚至关乎企业多年累积的客户信赖与品牌形象，决定企业存亡。如何去发现和辨认这些未知的危险，提前做好预防和优化，是每个开发运维人员须要继续面对的问题。本文以零碎性能瓶颈为例，展现如何通过零碎全链路可观测，来辨认和定位系统前端性能、链路性能、基础设施性能瓶颈以及高效剖析系统日志。所波及到的实现思路和工具会笼罩软件开发、测试、部署和运维各个环节。

性能瓶颈个别是体现在用户体验方面：

比方用户反馈说：页面加载过慢，动画卡顿，交互提早；
比方用户反馈说：你们这个页面怎么加载这么慢啊，好几秒才出现；
比方 PM 反馈说：这个列表滑动的时候加载数据一卡一卡的。

总之前端的性能瓶颈往往都是有体现的，须要针对具体表现具体分析具体解决。

前端性能瓶颈通常包含以下几个方面：

加载工夫：页面的加载工夫是一个重要的方面。当页面加载工夫很长时，用户体验会受到显著的影响；
渲染工夫：渲染工夫是指浏览器将 HTML、CSS 和 JavaScript 代码转换成理论界面的工夫；
CPU 占用率：应用大量的 JavaScript 代码能够导致 CPU 占用率过高，从而导致页面性能降落；
内存透露：内存透露是指未能开释已不须要的内存。当 JavaScript 代码不合理地应用内存时，页面的性能会受到影响。
图像品质和大小：图片文件的大小会影响页面的加载工夫。
more… 小编继续更新

工欲善其事，必先利其器，前端排查思路个别有以下几种：

可在浏览器的 devtool 里一项项排查，查看邻近运行状态，跟进片段的脚本调用，一点点调试，如下图：

输出网址能够看到网站的性能测试后果，能够把所有性能相干指标（FCP、LCP、TBT、CLS）状态展现进去，然而仅仅代表点击测试之后的后果，偶现性能后果不代表所有测试后果，如下图：

为什么要可视化？

收集到性能监控或者性能指标后，就须要将数据可视化展现进去，广义上数据可视化是将性能的监控指标通过图表的模式展现进去，场景化能满足对数据观测的需要，其中就蕴含帮忙发现数据中暗藏的外在法则。

接入观测云，将前端利用数据采集到后，能够通过「观测云控制台」查看利用性能剖析，改善页面加载（LCP）、互动性（FID）和页面稳定性（CLS），进步用户体验。

先讲一下谷歌网站外围指标几个外围指标：LCP、FID、CLS，咱们用这三个指标来掂量网站的载入速度、互动性和页面稳定性。

将我的一个网站接入 RUM 后，在 Web 利用的「性能剖析」页面能够看到，例如统计 PV 数、页面加载工夫、网站外围指标、最受关注页面会话数、页面长任务分析、XHR & Fetch 剖析、资源剖析等指标，如下图成果展现：

性能指标等数据可视化，疾速定位

总之，前端技术栈的性能调优须要从多个方面动手，并综合应用多种办法来进步页面的加载速度和用户体验。

在思路 3 中，咱们曾经介绍了用的是观测云可视化进去性能指标，可视化后，有了根据这样就能够有针对性进行解决，以下实战中疾速定位了多个维度的优化点，别离从长工作、Image、XHR、JS、CSS、Document、Font 方面展现。

TopN 长耗时页面，通过饼图形式，将长工作耗时和页面关联，直观地看到是因为 xxx 页面导致的卡顿。

长耗时工作在不同页面的时序散布，能够针对页面进行优化排等级，如 /statics 页面呈现的长耗时工作较多，可能须要优化的优先级就可能会靠前，或者对应的前端负责人员设定绩效考核点，让绩效间接跟性能挂钩。

依照耗时来排序，找出耗时最长或者排名靠前的一个资源，定向进行优化，Image、XHR、JS、CSS、Document、Font，定位之后，明确性能优化方向，疾速解决问题。

综上瓶颈所述，对前端性能瓶颈的优化措施须要从多个方面着手，包含加载工夫、渲染工夫、CPU 占用率、内存透露和图像品质和大小等，总体来讲总结一下：

压缩文件大小：通过压缩文件大小能够缩小页面资源的下载工夫。能够应用 Gzip 或 Brotli 等压缩算法来压缩 CSS、JavaScript 和 HTML 文件。
应用 CDN：应用内容散发网络（CDN）能够将页面资源缓存在多个服务器上，从而放慢资源加载速度。
提早加载：提早加载能够将页面上的资源加载推延到页面加载实现之后，从而缩小页面的加载工夫。能够应用 lazyload.js 等工具来实现提早加载。
优化图片：图片通常是页面资源中最大的局部。能够通过压缩和合并图片、应用响应式图片、应用 WebP 等办法来优化图片。
应用缓存：应用缓存能够缩小页面资源的下载工夫。能够应用浏览器缓存、HTTP 缓存和应用程序缓存来缓存页面资源。
防止重排和重绘：当页面元素发生变化时，浏览器须要从新计算布局和重绘页面。这些操作会耗费大量的 CPU 工夫。能够应用 CSS 动画、将页面元素缩减到起码等办法来防止重排和重绘。
代码优化：通过优化 JavaScript 代码能够缩小页面的加载工夫。能够应用代码压缩工具、将脚本放在页面底部、应用异步脚本等办法来优化代码。另外，能够使用性能剖析工具（如 Chrome DevTools）来辨认潜在的性能问题并进行优化。
优化 HTTP 申请。

提早减少：利用链路可能会因为不同的起因导致提早减少。当利用链路中的某个服务呈现问题时，它可能会影响其余服务的响应速度，从而导致整个零碎的提早减少。
谬误减少：利用链路问题可能会引起服务之间的谬误传递。一开始谬误可能只是在一个服务中呈现，然而如果未能及时发现，它可能会在整个利用链路中传递并引起其余服务的谬误。
服务不可用：如果某个服务因为某些起因无奈应用，整个利用链路可能无奈失常工作。服务不可用的起因可能是打算内的保护、不可预测的故障或者运行环境的更改。
重试增多：利用链路中的某些服务可能无奈失常工作，这会导致其余服务频繁重试。如果服务重试次数越来越多，可能会导致整个利用链路解体。
资源耗费减少：利用链路中的某个服务可能未能及时开释资源，导致资源耗费减少。如果未能及时发现和修复，可能会导致其余服务的资源耗费减少。
服务版本不统一：利用链路中应用的各种服务可能有不同的版本。如果不同版本之间没有正确协调，可能会导致不兼容的问题，甚至可能会导致整个利用链路解体。
数据一致性问题：利用链路可能蕴含多个服务，每个服务都有本人的数据库。如果多个服务解决同一数据，然而数据的一致性没有失去保障，就可能导致利用链路中呈现数据一致性问题。

总之，利用链路问题可能会体现出不同的体现特色。监测和定位这些问题须要应用一些工具和技术，如观测云的利用性能监测、分布式跟踪、日志治理和异样告警监控。只有及时发现和解决利用链路问题，能力确保整个利用可能失常运行。

观测云的利用性能剖析性能，是一种用于定位利用性能瓶颈的弱小工具。它能够帮忙追踪应用程序的各个局部，并找出哪些局部须要优化。

在应用观测云性能时，咱们能够采取以下步骤来定位应用程序的性能瓶颈：

首先，须要在应用程序中定义要害业务指标和性能指标。这些指标将有助于理解应用程序的性能和行为。须要确定哪些指标对业务最为要害，并将其作为性能监控的重点。

须要应用 APM 工具来跟踪应用程序的各个局部。这些局部可能包含数据库、网络、前端和后端等。须要理解每个局部的性能情况，并找出性能瓶颈所在的具体局部。

一旦咱们收集了足够的数据，须要对数据进行剖析。能够应用火焰图来查看应用程序的各个局部，并确定哪些局部须要优化。咱们能够查看响应工夫、吞吐量和错误率等指标，以确定性能瓶颈所在的具体局部。

最初，咱们须要依据剖析的后果来优化应用程序的性能。这可能包含对代码进行更改、优化数据库查问、减少缓存等。须要对性能瓶颈所在的具体局部进行优化，以进步应用程序的整体性能。

还想再次强调一点：在应用利用性能工具时，须要关注应用程序的整体性能和行为。须要搭配观测云的指标、日志、巡检等性能，及时发现和解决性能问题。这是确保应用程序高效运行的要害。

1. 登录观测云工作空间，查看「利用性能监测」模块的服务列表，从服务页面曾经能够看出 browser 服务的 P90 响应工夫是比拟长的。

2. 点击 browser 服务名称，查看该服务的概览剖析视图，能够看出影响以后服务响应工夫的最要害的资源是 dept 这个接口，因为这个接口是观测云的一个数据查问接口，所以接下来咱们看下这个接口在查问过程当中，到底是因为什么导致耗时较长。

3. 点击「资源名称」，跳转到「查看器」，通过点击「持续时间」倒序查看响应工夫的最大值。

4. 点击「Span」数据，查看剖析以后 Span 在整个链路外面的执行性能和其余相干信息。

点击右上角「全屏]」模式按钮，放大查看火焰图相干信息。联合整体链路查看，能够看出 ruoyi-system 服务在整个链路中的执行工夫占比高达 65.12%，从「Span 列表」也能够得出此论断。

依据「火焰图」的占比和对应的链路详情信息，咱们能够总和得出 browser 的这个 query_data Span 在整个执行过程中 resource_first_byte（资源加载首包工夫）耗时 2.07 秒；再联合查看 province 的地理位置定位非杭州，而咱们的站点部署在杭州节点，则能够得出是因为地理位置问题导致数据传输的工夫变长从而影响了整个的耗时。

通过观测基础设施资源耗费状况，往往能够发现零碎的性能瓶颈。

CPU 使用率和负载都是用来形容 CPU 性能的指标，但两者之间还是有肯定区别的。CPU 负载反映的是过程排队的状况，即有几个过程在期待 CPU 资源；而 CPU 使用率反映的是 CPU 以后解决的过程的占用状况，即以后 CPU 正忙的水平。

CPU 利用率：CPU 使用率是指 CPU 资源被以后运行过程应用的工夫占总工夫的比例。

CPU 负载：一段时间内零碎中运行或期待运行的过程数量。

对于指标零碎是否处于高负载状态，须要综合思考这两个指标。当 CPU 负载较高时，不肯定会导致 CPU 使用率也很高，因为期待 CPU 资源的过程可能只是在期待 IO 等其余资源；然而如果 CPU 使用率也较高，零碎表明 CPU 资源正在被占满，须要进一步优化零碎资源分配和调整工作优先级等。

个别状况下，单核 CPU 负载 0.5~0.8 之间算是一种现实状态，如果是双核主机，那就是 0.8*2=1.6 左右。而 CPU 使用率单核 80% 以下，超过这个值就阐明存在性能瓶颈，可能会影响利用，须要进行扩容或者优化资源。

内存作为一种重要的计算机硬件，对计算机系统的性能起着至关重要的作用。然而，内存的性能也可能成为计算机系统性能的瓶颈之一。

内存带宽是指内存的数据传输速率，如果内存的数据传输速率比其余硬件或其余组件的传输速率慢，就会影响性能。

内存提早是指获取内存数据所需的工夫。当计算机 CPU 须要应用内存数据时，如果内存提早过高，则 CPU 须要期待太长时间，这将导致 CPU 效率重大低下。

如果计算机的工作须要更多的内存，但计算机内存容量有余，那么内存容量就会成为零碎性能的瓶颈。

通常状况下，磁盘是计算机中速度最慢的一个子系统，因而很多状况中，磁盘 I/O 会成为零碎的瓶颈。

使用率：是指磁盘解决 I/O 的工夫百分比。个别超过 80% 就意味着磁盘性能瓶颈了。
饱和度：是指磁盘解决 I/O 的忙碌水平。当饱和度为 100% 时，磁盘无奈再承受新的 I/O 申请。
IOPS：每秒的 I/O 申请数。
吞吐量：每秒的 I/O 申请大小。

个别在数据库，大量小文件等这种随机读写比拟多的场景，IOPS 能够更好反映出零碎的整体性能。而多媒体等程序读写较多的场景中，吞吐量才是重点。

很多时候大家都容易疏忽网络对系统的影响，实际上网络带宽在一些状况下也会成为零碎的瓶颈。

利用程序处理的网络流量和频率，能够帮忙您更精确地剖析。例如平时流量不高，忽然产生激增，可能因为大量申请或者后端服务器梗塞导致。

能够通过应用程序的网络拓扑，包含所有网络设备、路由器和交换机，是否存在潜在的瓶颈。

日常工作中须要一直地检索服务器、应用程序和设施的各种日志，以便理解其运作状况以及排除异样。其中，检索日志中的异样是一项十分重要也十分具备挑战性的工作。

对于一个大型简单的零碎而言，会波及到很多不同的日志文件，其文件格式和存储地位也可能各不相同。因而，正确的确定要检索哪些日志，须要综合思考零碎的构造和用处，以及具体的异样类型。常见的日志文件包含系统日志、应用程序日志、数据库日志、网络设备日志等。

抉择一个适合的日志剖析工具是要害的一步。通常状况下，日志文件很大，要手动查找异样是十分艰难的。而日志剖析工具能够大大简化这个过程，它们能够依据咱们设置的条件和规定，疾速地搜寻、过滤、剖析和可视化日志信息，从而帮忙咱们疾速地找到异样。

在应用日志剖析工具前，咱们须要精确地定义检索关键字，以确保可能查找到异样信息。这些关键字须要依据具体零碎和异样类型进行设置。

Too many open files：句柄数限度，零碎的默认值较小，能够适当调整，另外也要留神程序存在关上句柄却在某些状况下没有敞开的状况。

Out of memory：常见的内存溢出，利用零碎中存在无奈回收的内存或应用的内存过多，最终使得程序运行要用到的内存大于能提供的最大内存，此时程序就运行不了。

Connection refused：连贯回绝，个别是连接数限度不能承当以后的压力或者没有相干权限导致。

当咱们搜寻到异样日志后，须要进一步进行剖析和可视化，这样能够更好的了解异样的起因和产生工夫，配合指标、链路信息进行关联剖析，疾速定位问题，极大晋升排查效率。

对于本文的任何问题或者纳闷，大家能够退出观测云官网社区随时征询，此处不不便放链接，大家能够在观测云官网（guance.com）增加小助手入群。

作者 AUTHOR
产品技术专家：王亦凡 & 冯海杰
解决方案架构师：范俊

关于故障恢复:可观测性最佳实践-警惕未知的风险正在摧毁你的系统

前端性能瓶颈

体现行为

前端瓶颈介绍

面对瓶颈的排查思路

思路 1：F12

思路 2：利用某网站测试性能平台思路

思路 3：可观测建设思路，性能指标等数据可视化

实战 1：疾速定位长工作卡顿页面

实战 2：疾速定位优化的优先级

实战 3：疾速定位出 Top 资源耗费

性能调优倡议

链路性能瓶颈

体现行为

排查思路

1. 定义要害业务指标和性能指标

2. 跟踪应用程序的各个局部

3. 剖析数据

4. 优化性能

理论链路数据分析

基础设施资源占用

CPU 应用

1.CPU 使用率和负载区别

2.CPU 使用率和负载剖析

3.CPU 现实值

内存应用

1. 内存带宽

2. 内存提早

3. 内存容量

磁盘读写

1. 磁盘指标性能

2. 磁盘读写剖析

网络流量

1. 流量与频率

2. 网络拓扑

检索异样日志信息

确定日志范畴

日志剖析工具

检索关键字

可视化剖析