关于监控工具:数字化时代如何做好用户体验与应用性能管理

38次阅读

共计 4833 个字符,预计需要花费 13 分钟才能阅读完成。

云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的 AIOps 开发者生态。

引言

随着数字化时代的到来,各个行业的利用零碎从传统私有化部署逐步转向私有云、行业云、微服务,这种变迁给运维部门和利用部门均带来了较大的挑战。基于以后企业 IT 运维均为多部门负责,且应用多种运维工具,因而,当业务呈现问题时很难疾速定位故障本源。而随着业务上云,云平台运维和利用运维的责任归属不同,业务方(租户)只负责云平台之上运维,若是要对业务体验全链路负责,就会导致有责任没伎俩。同时,容器微服务架构利用后的业务之间的拜访关系更加简单,也会产生利用呈现故障后剖析艰难等问题。基于以上的背景,企业数字化时代利用的衰弱诊断变得至关重要。

问题及挑战

如下图,当代码量的增长达到 100 倍,故障被企业 IT 部门觉察前已由用户申报达到 80% 时,作为企业会十分被动。用户对服务超时十分敏感,当 5 秒打不开利用时便会间接抉择放弃。同时,用户对故障解决时效要求也比拟高,75% 的用户心愿在 5 分钟内解决业务故障,而业务零碎须要超过 24 小时能力解决的故障占比在 25% 左右。

利用是一个端到端的多技术栈简单整合环境,用户端包含挪动端、浏览器、小程序,网络层包含路由器、防火墙和负载平衡等,后盾撑持利用包含中间件、数据库、主机、MQ 等。所以如何去高效精细化的实现整个利用端到端的全链路性能问题洞察和诊断、疾速找到故障的边界、以及特地是 VIP 用户呈现性能问题如何疾速追踪。这些利用的复杂度是企业运维部门和业务部门都须要思考的问题。

传统的监控工具早已无奈满足以后企业面临的问题。因为一个利用会波及到数据库、第三方的 API 调用、应用服务器、中间件、Web、网络层等多个链路,因而,当零碎慢是无奈疾速定位就是是拿个环节、组件以及指标导致。日常企业去判断上述问题时,会须要网络团队、开发团队、数据库团队、基础设施团队等多方帮助排查,且排查效率较低。

解决方案与性能场景介绍

基于以上问题与挑战,云智慧提供了全新一代架构的利用性能治理解决方案。以晋升数字化用户体验,帮忙企业实现数字化转型赋能为指标,提供了 web 用户、移动用户、被动拨测、压力测试前端侧性能监控,同时贯通网络层到后端各个组件的全栈一体化性能监控计划,蕴含 Web 服务器反对 IIS、Nginx 等。此外,利用后端反对市面上支流的开发语言以及微服务容器架构,基于 Smart Agent 的探针技术,部署在容器宿主机上就能够主动发现容器外部利用拓扑关联关系,实现整体的业务关联疾速剖析和根因疾速诊断。

产品技术架构

下图为产品整体的技术架构,次要是分三层:

  • 数据采集层:APM 产品反对市面上比拟支流的开发语言,如 Java、PHP、Python 等。APP 端反对 android 和 iOS 等各种版本。依赖被动拨测,基于寰球 IDC 实现 Monitor 数据监测。
  • 数据存储层:采集到的数据对立放到产品的数据存储层进行数据存储。云智慧产品基于列式存储的技术,在各行业我的项目上通过大量数据实际,能够实现秒级查问和展现。
  • 数据分析与展现层:该层次要提供了具体产品的相干性能。包含拓扑展现,申请剖析、用户追踪,代码堆栈详情剖析,网页性能剖析,页面响应工夫剖析、可用率剖析等相干性能。

整个平台提供告警告诉性能及规范 API 接口,不便用户其余业务零碎调用数据进行利用。接下来,咱们次要围绕 APM 和拨测两款产品的利用场景进行整体论述。

监控宝:7*24 小时被动 IT 性能监控

云智慧拨测产品监控宝提供 7 *24 小时被动 IT 性能监控;产品在寰球范畴内大略有 300 家的 IDC 节点,提供 800 家的服务器,IDC 数量决定了数据反馈的全面性,能够无效保障业务在寰球的用户体验;国内节点笼罩 30 多个省份和 100 多个城市和地区,更能精准的定位问题所在区域。此外,也较为全面的笼罩了多个运营商,包含挪动、联通、电信、教育四大运营商。以上三个维度,能够看出云智慧监控宝产品能够为各行业企业提供业务保驾护航的能力。

监控宝平台反对的协定包含 http/https、ping、DNS、ftp、traceroute 等,反对协定类型品种丰盛,满足企业多方面应用需要。性能包含网页性能诊断、CDN 评估成果、网络品质探测、网站访问速度、接口服务可用率等。同时,整个产品反对多页面脚本录制,不便企业在大型网站上提供多页面监控能力,以及可能疾速发现深层次的页面性能问题。

透视宝:端到端全链路利用性能诊断

云智慧 APM 透视宝产品提供端到端全链路的利用性能诊断。用户体验端包含 APP、浏览器、小程序的全栈性能剖析和性能探测。后端反对利用拓扑的发现和代码品质的追踪,真正做到端到端一体化,实时把握前端、透视后端,实现全业务链环节问题监控与剖析。

下图为透视宝产品的技术实现原理,APP 端通过嵌入 SDK 实现用户行为和 APP 解体卡顿数据的抓取;浏览器通过页面嵌入 JS 形式实现页面详情的剖析;主机操作系统通过部署 agent 实现 cpu、内存、网络、io 等指标监测;利用后端依据不同开发语言部署不同的探针,在中间件启动脚本里注入参数,重启利用后就能够实现数据的采集,小程序通过 mini agent 抓取相干数据。

利用场景介绍

  • 业务服务继续监测与告警

业务服务的继续监测和告警在一些互联网企业当中常常会遇见。比方北京区域网站拜访是衰弱的,但其余区域网站拜访异样时,也会收到的其余区域用户投诉。针对上述问题,因为目前各行业网站页面加载时序元素简单,外加整个页面会有一些动画图片成果的出现,所以须要可能实时探测网站在中国区域到地市级别和区级别的监控的被动拨测产品。监控宝可监测不同运营商链路拜访网站速度、404 相干谬误,以及可通过 IDC 节点被动收集数据,帮忙企业及时剖析并被动探测业务问题。该场景次要利用于互联网企业,电商企业,还有企业官网、在线教育等行业。

  • 内外网及网络专线品质监测与告警

企业内外网业务服务于全国。运营商网络不稳固的用户投诉,分公司专线或 VPN 经常出现的各种问题,均会导致业务经营受到较大影响。外网网络品质监测依靠于云智慧在寰球 IDC 节点提供被动的 ping、MTR、traceroute 网络探测,60 秒的探测频率能够让问题被及时发现。针对内网专线的监测,云智慧提供魔盒产品。相似机顶盒的小盒子,使用寿命长、无风扇设计、节能环保,间接部署在分公司数据中心机房中即可应用。该场景次要利用于医疗行业、电商、金融、政府军工等团体企业。

  • 网页用户体验剖析与继续优化

随着网站内容更加复杂化,大量元素加载耗时变长,首屏响应工夫变得更加重要。如:当用户点击二级页面时会呈现 404 谬误或响应慢等景象,企业尽管做了 CDN 减速,在此状况下也很难确定减速的品质的好坏。然而在互联网时代下,用户对网页的加载速度提出更高要求,呈现网页响应过慢或无法访问则会导致用户失去急躁而散失,以此便会给企业业务收入以及品牌均会带来损失。基于上述问题,监控宝产品提供了多页面脚本录制性能,能够模仿人点击操作所有页面各个环节的性能诊断,及时发现元素性能问题。此外,基于企业同时应用多家 CDN 厂商导致具体减速品质难以判断的景象,监控宝也提供了 CDN 整体性能评估性能,不便用户做 CDN 厂商性能体验比照。该场景次要利用在网站有丰盛的大型 logo/ 图片 / 轮播要展现的企业,如汽车类、广告展现类以及大量应用 CDN 服务商的企业。

  • 业务流程监测与优化

业务流程监测与优化次要解决业务调用第三方 API 接口性能问题。因为业务流程现状复杂性,残缺的互联网或外部业务拜访须要经验多重用户认证,以及多个外部环节解决能力最终实现。任何一个环节呈现问题都可能导致业务不能失常进行,以及用户体验不佳、满意度降落,甚至呈现用户散失。所以须要监控宝帮忙企业从业务视角精确感知整体业务的性能和品质情况。该场景次要利用在应用第三方 API 服务的互联网企业、关注用户业务拜访过程及体验的企业。

  • 利用拓扑主动发现与监控

全自动发现利用所有技术栈及其关联关系能够帮忙企业从宏观视角把握一个利用及其关联利用的整体状态以及申请数、响应工夫、谬误等变化趋势,以此疾速定位各层级问题。

随着企业应用上云和容器微服务化,利用之间调用关系愈来愈简单。全局拓扑主动发现与监控是通过将简单的申请调用关系拓扑图化来帮忙运维人员和业务开发人员疾速定位性能问题。产品能够直观的通过色彩变动分辨出是迟缓问题还是谬误问题。同时拓扑上能发现各个组件的调用状况以及本身利用拜访的组件,数据库、MQ、Nosql 和 API 接口状况。此外,通过拓扑能够直观的判断是本身利用问题还是其余利用性能导致的间接问题。此外,产品提供相似时光机的回溯性能,抉择肯定工夫范畴能够统计申请次数,迟缓次数、十分迟缓次数和谬误次数。

  • 利用性能问题及故障疾速诊断

随着云计算、大数据、容器、微服务等技术在企业的宽泛采纳,企业业务零碎数量一直减少,运行环境也更加简单,须要一直依据市场环境和客户需要的变动进行疾速响应和迭代,一直推出新的业务,缩小业务故障危险,推动业务营收的减少;

第二个场景是利用性能问题及故障疾速诊断,应用人员通过拓扑发现问题后须要第一工夫定位问题,产品提供简略直观的操作界面,在拓扑图上点击利用实例就能够疾速跳转到具体问题剖析界面,比方下面截图的内容,能够看到后盾代码堆栈追踪,慢 SQL 语句、内部接口详情、本身耗时、申请参数等详细分析问题的指标,性能问题一目理解,问题定位指挥若定。

  • 端到端全链路性能问题追踪

目前企业业务都是通过 APP、小程序或浏览器拜访,因而在应用 APM 产品排查剖析前端各种解体、卡顿、网络等问题后还是不能解决业务慢的问题。然而此时更多的是撑持业务后端的利用产生了性能故障,企业该如何去疾速判断,精准的定位呢?云智慧产品提供了前端页面一键跳转后端的串联性能。如下方图片所示,当业务在登陆时曾经能看到体验十分差,此时,在点击申请性能剖析界面的查看按钮,便能够间接跳转到后端代码剖析详情页面。该操作的前提条件是监测利用曾经注入探针,不然是无奈实现的。该场景能够无效的把前端和后端买通,串联追踪。

案例分享

某银行部署了 APM 整套产品,实现了利用后端整体性能监控,探针数量 115 个、接入利用数量 225 个、日均业务申请量 1500tps、日均利用申请的落盘数据量 150G 左右。截止到当初平台稳固 7 *24 小时运行、探针对业务系统资源占用率管制在 3% 以内。在大量申请并发的状况下,云智慧基于列式存储的技术架构,也能实现页面妙级查问和妙级响应。

写在最初

近年来,在 AIOps 畛域疾速倒退的背景下,IT 工具、平台能力、解决方案、AI 场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在 2021 年 8 月公布了 AIOps 社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。

社区先后 开源 了数据可视化编排平台 -FlyFish、运维治理平台 OMP 、云服务治理平台 - 摩尔平台、 Hours 算法等产品。

可视化编排平台 -FlyFish:

我的项目介绍:https://www.cloudwise.ai/flyF…

Github 地址:https://github.com/CloudWise-…

Gitee 地址:https://gitee.com/CloudWise/f…

行业案例:https://www.bilibili.com/vide…

局部大屏案例:

请您通过上方链接理解咱们,增加小助手(xiaoyuerwie)备注:飞鱼。退出开发者交换群,可与业内大咖进行 1V1 交换!

也可通过小助手获取云智慧 AIOps 资讯,理解云智慧 FlyFish 最新进展!

正文完
 0