关于运维:聊点技术-可观测性十问十答

随着各个企业在数字化转型的浪潮中一直翻涌后退，IT 业务复杂程度与规模体积爆发式增长，可观测性工具成为倒退刚需。在 Gatner 公布的 2023 年须要摸索的十大策略技术趋势中，“可观测性”被列为其中之一。

那么，为什么可观测性如此重要？有哪些值得关注的演进趋势？如何设计落地计划？本文将围绕可观测性为大家一一解答。

Q1、什么是可观测性？

在 IT 和云计算中，可观测性是基于系统生成的数据（如指标、调用链、日志）来测量零碎外部状态的能力。

可观测性依赖于源自多云计算环境中端点和服务的仪器的遥测。在这些古代环境中，每个硬件、软件和云基础设施组件以及每个容器、开源工具和微服务都会生成每个流动的记录。可观测性的指标是理解所有这些环境和技术之间产生了什么，从而检测并解决问题，以放弃零碎高效牢靠的运行。

可观测性解决方案能够帮忙企业检测和剖析事件对其经营、软件开发生命周期、应用程序平安和最终用户体验的重要性。

近年来，随着云本地环境变得更加简单，故障或异样的潜在根本原因变得更加难以查明，收集和解决可观测性数据对业务的益处更加不言而喻。

因为云服务依赖于一个独特的分布式动静体系结构，可观测性有时也可能指企业用来解释云性能数据的特定软件工具和实际。

Q2、可观测性的三要素是什么？

可观测性三要素即：Metrics、Trace、Log (指标、调用链、日志)。这三种因素在监控体系中独自去看也是有本身价值的。但如果只通过一种数据的模型，那就很难构建出寻找问题外围的能力。所以说，须要把这三种类型的数据有机的贯通在一起，造成一个立体化的架构，使它们相互去施展各自的特长，做到可能应用遥测数据来实现改善最终用户体验和业务成绩的最终目标。

Q3：为什么可观测性很重要？

在企业环境中，可观测性有助于跨职能团队了解并答复无关高度分布式系统中产生的事件，可能理解什么是慢的或坏的，以及须要做什么来进步性能。有了可观测性解决方案，企业能够收到无关问题的警报，并在问题影响用户之前被动解决问题。

因为古代云环境是动静的，规模和复杂性一直变动，大多数问题既不已知也不受监控。可观测性解决了“未知的未知”这一常见问题，帮忙企业在呈现新问题时可能继续主动地了解它们。

可观测性也是 AIOps 的一项要害能力。随着越来越多的组织采纳云本机架构，他们也在寻找实现 AIOps 的办法，利用 AI 在整个 DevSecOps 生命周期中自动化更多流程。通过将人工智能利用于所有——从收集遥测数据到剖析整个技术堆栈中产生的事件——企业取得牢靠的答案，这对于自动化应用程序监控、测试、间断交付、应用程序平安和事件响应至关重要。

可观测性的价值并不局限于 IT 案例。一旦开始收集和剖析可观测性数据，企业就有了一个理解数字服务业务影响的贵重窗口。这种可视性可能优化转换，验证软件版本是否满足业务指标，掂量用户体验 SLO 的后果，并依据最重要的内容确定业务决策的优先级。

当可观测性解决方案还应用合成和实在用户监控剖析用户体验数据时，企业能够在用户之前发现问题，并基于实在、即时的反馈设计更好的用户体验。

Q4：可观测性的劣势体现在哪些方面？

可观测性为 IT 团队、企业和最终用户带来了微小的益处。举例来说：

1. 应用程序性能监控：齐全的端到端可观测性使企业可能更快地理解应用程序性能问题的本源，包含云本机和微服务环境中呈现的问题。先进的可观测性解决方案还可用于更多自动化流程，进步经营和利用团队的效率和翻新。

2.DevSecOps 和 SRE：可观测性是应用程序及其反对基础设施的一个根本属性。创立软件的架构师和开发人员必须将其设计为可观测的。同时 DevSecOps 和 SRE 团队能够在软件交付生命周期中利用和解释可观测到的数据，以构建更好、更平安、更具弹性的应用程序。

3. 基础设施、云和 Kubernetes 监控：基础设施和经营（I&O）团队能够利用可观测性解决方案提供的加强环境来进步应用程序的失常运行工夫和性能，缩小查明和解决问题所需的工夫，检测云提早问题，优化云资源利用率，并改善对 Kubernetes 环境和古代云架构的治理。

4. 最终用户体验：良好的用户体验能够进步企业名誉，在竞争中获得劣势。通过在最终用户留神到问题之前发现并解决问题，并在用户提出要求之前进行改良，企业能够进步用户满意度和保留率。还能够通过实时播放来优化用户体验，间接取得一个窗口，让最终用户的体验与他们看到的雷同，从而很快在改良方面达成统一。

5. 业务剖析：企业能够将业务上下文与全堆栈应用程序剖析和性能联合起来，以理解实时业务影响，改良转换优化，确保软件公布满足预期业务指标，并确认企业恪守外部和内部 SLA。DevSecOps 团队能够利用可观测性来取得对他们开发的应用程序的更多见解，并自动化测试和 CI/CD 过程，以便更快地公布品质更好的代码。

从生产力的角度来看，可观测性进步了企业的效率，增强了对无效单干至关重要的踊跃工作关系，进一步为企业翻新和数字化转型关上了大门。更重要的是，最终用户将以高质量的用户体验的模式受害。

Q5：可观测性和监控之间有什么区别？

尽管可观测性和监控是相干的，并且能够互相补充，但它们实际上是不同的概念。

在监控场景中，通常会事后配置仪表盘，以揭示当前可能会看到的性能问题。然而，这些仪表盘依赖于一个要害假如，即可能在问题产生之前预测将遇到什么类型的问题。

云原生环境不适宜这种类型的监控，因为它们是动静的、简单的，这意味着无奈提前晓得可能会呈现什么样的问题。

在可观测性场景中，环境已被齐全检测以提供残缺的可观测性数据，能够灵便地摸索正在产生的事件，并疾速找出可能无奈意料的问题的根本原因。

Q6：可观测性所波及到的环节有哪些？

可观测性波及到的环节较多：

1. 可观测性须要数据作为撑持，并且对于数据的品质有肯定要求。数据须要通过标准化的处理过程，能力真正作为基座来应用。

2. 可观测性须要海量的数据，并且波及到不同的类型。要谋求每一笔交易、每一个动作都能有残缺的链条，所要面对的数据规模是非常宏大的。同时，可观测性技术自身就是一个大数据汇总的平台，因而须要高技术引擎和关系图谱引擎的撑持，来将数据有机的联合到一起。

3. 若要真正施展可观测性带来的价值，不能仅仅只把数据做一个简略的列举，咱们须要分析数据，做关联剖析。而这一过程须要 AI 的加持，这样能力让效率真正晋升上来，这其中波及到一整套的系统工程。

做好以上这些，能力领会到数据作为大脑引擎的驱动力，让企业的运维治理更智能、更便捷、更高效。

Q7：如何使零碎具备可观测性？

后面咱们提到了可观测性三要素：指标、调用链、日志。然而，仅从后端应用程序观测原始遥测数据并不能全面理解零碎的运行状况。

疏忽前端透视图可能会扭曲甚至扭曲应用程序和基础设施在事实世界中对实在用户的体现。为了扩大“三要素”办法，IT 团队必须利用用户体验数据加强遥测收集，以打消盲点：

1. 日志：这些是特定工夫产生的离散事件的结构化或非结构化文本记录。

2. 指标：这些值示意为计数或度量，通常在一段时间内计算或汇总。指标能够来自各种起源，包含基础设施、主机、服务、云平台和内部起源。

3. 调用链：当事务或申请流经应用程序时，它显示事务或申请的流动，并显示服务如何连贯，包含代码级别的详细信息。

4. 用户体验：这扩大了传统的可观测性遥测，通过在应用程序上增加特定数字体验的由外而内的用户视角，即便在预生产环境中也是如此。

Q8：国内市场对于可观测性的认知与需要是怎么的？

从整个行业的应用客户中能够看出，不同行业对于可观测性的诉求也是不同的。比方金融行业，他们曾经针对可观测性做了很多方面的尝试，不论是在数量亦或是品质方面都是比拟可观的。这并不是说可观测性技术的渗透率有多高，而是说很多企业曾经对此产生了共鸣。

可能很多企业仍旧处于初试验阶段或者技术考查阶段，但在将来几年里，可观测性的倒退速度可能会有指数级的变动，因为故障的产生是无可避免的，而可观测性技术能够笼罩到软件的整个的生命周期之中，造成残缺的链条。同时可观测性技术还能够与自动化体系联合在一起，使企业的效率失去数倍的晋升。

从目前的市场状况来看，可观测性曾经有了一些落地的实际，之后也会有一个缓缓成长的过程。疫情过后，很多人对于数字化转型可能有了全新的认知，在新的零碎架构和开发模型下，企业须要一种能力来躲避问题的产生，升高问题的影响，所以可观测性恰好适应了当初整合技术的倒退门路。

Q9：可观测性面临哪些挑战？

1. 数据孤岛：多个代理、不同的数据源和孤岛式的监控工具使得很难了解应用程序、多个云和数字渠道（如 web、挪动和物联网）之间的互相依赖性。

2. 容量、速度、多样性和复杂性：在一直变动的古代云环境（如 AWS、Azure 和谷歌云平台（GCP））中，从每个组件收集的大量原始数据简直不可能失去答案。Kubernetes 和容器也能够在几秒钟内高低旋转。

3. 手动检测和配置：当 IT 资源被迫手动检测和更改每种新型组件或代理的代码时，他们大部分工夫都在尝试建设可观测性，而不是依据可观测性数据进行翻新。

4. 不足预生产：即便在预生产阶段进行负载测试，开发人员依然无奈在将代码投入生产之前察看或了解实在用户将如何影响应用程序和基础设施。

5. 浪费时间进行故障排除：应用程序、经营、基础设施、开发和数字体验团队被拉进来进行故障排除，并试图找出问题的根本原因，节约贵重的工夫进行猜想，试图了解遥测并找出答案。

6. 多个工具和供应商的问题：尽管一个工具能够让组织察看到其应用程序体系结构的一个特定畛域，但一个工具可能无奈在所有可能影响应用程序性能的应用程序和零碎中提供残缺的观测能力。

此外，并非所有类型的遥测数据对确定问题的根本原因或理解其对用户体验的影响都同样有用。因而，团队依然须要在多个解决方案中开掘答案，并费劲地解释遥测数据，这是一项耗时的工作，而此时他们能够将本人的专业知识用于立刻解决问题。然而，有了繁多的假相起源，团队能够更快地取得答案和解决问题。

Q10：企业在理论落地可观测的过程中通常会陷入哪些误区？

首先是开源和商业化如何均衡的问题。不论是可观测性还是之前的监控技术，都有大量的开源能力在反对，有很多的收费计划供应用。对于任何一个企业来说，是否在专一地去做这样一个零碎，还是说只是为了辅助主营业务来做零碎叠加，后期的投入与最初的后果很可能是有较大落差的。

其次企业在可观测性的建设过程中，总是冀望大而全，这就须要思考到几点因素。第一点，零碎须要人为去操作，组织架构中人的程度与素质很大水平上决定了零碎的应用能力下限。第二点，技术栈的繁杂性导致了数据治理须要较长的工夫，而到了数据的理论应用场景，咱们会发现，这其中波及运维、研发、测试、业务等各部门的人员，部门间的数据孤岛会对数据产生肯定的割裂，导致数据无奈真正对立在一起。

最初是老本问题。技术并不是变化无穷的，从根底监控到网络监控，从 APM 到可观测性，技术是不停在倒退的，包含研发的过程，通过了屡次的更新迭代，才到了当初微服务的架构。因而要保护一个简单的技术栈，后续的模型是不是可能真正跟得上就很重要，这须要一个团队继续去迭代，所以企业须要从综合老本方面去思考可观测性的计划。

关于运维:聊点技术-可观测性十问十答

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）