关于云拨测:双十一即将到来你的网站真的准备好了吗

作者|白玙 在电商时代,流量已成为企业外围竞争力,秒杀、抢购等流动成为必备营销伎俩。自淘宝开启双十一流动,各大电商平台以及品牌主的促销流动更是如雨后春笋般不断涌现。当须要向一个宏大群体提供服务时,可用性成为电商经营&网站运维的要害,面对电商大促带来的流量浪涌,如何在应答分布寰球不同地区与国家的海量用户以及流量激增的同时,保障业务稳固运行已成为企业必须解决的问题。以领有千万注册用户的某电商举例,在大促流动期间,该企业将面对近千万不同地区的用户同时涌入,零碎可用性将影响着大促的胜利与否。 对电商网站而言,网站的加载迟缓或者不可用往往代表着后期的营销造势都付之一炬,这不仅仅是损失数千万元订单,更会对品牌口碑造成影响。在双 11 这种电商大促场景下,因为流量的减少,网站一旦产生可用性问题,造成的社会影响也会成倍放大。 因而,针对双 11 这类大促场景,不论是电商平台还是自建站都会在后期进行压测,通过压测发现零碎的性能瓶颈并做出对应的容量布局。然而仅仅做压测和扩容就够了吗?远远不够,压测这种场景更多的是从商家或平台的视角评估网站的性能和容量,不足用户视角的性能评估伎俩和办法。 这样的网站优化不只是对 IaaS 层资源进行简略扩容那么简略,而是须要对整个网站浏览门路上的各环节进行优化调整。模仿寰球不同地区用户的应用,如果没有仿真海量用户且模仿实在用户行为的测试工具,想预知这个简单购物网站零碎的性能、瓶颈或故障点位于何处,更像是一项不可能实现的工作。 咱们以某驰名大型电商网站的产品预售流动为例,咱们心愿在产品预约、抢购流动开始之前,对网站零碎的性能进行测试,找到零碎瓶颈,进而帮忙系统优化,确保预约/抢购流动的顺利进行。 本次测试为寰球范畴的拨测测试,波及到网站零碎的店铺页、商品详情页、订单页。要对每个模块以及整个零碎的性能进行测试。须要模仿大量寰球不同地区的实在用户同时操作,查看页面响应工夫,确保零碎在不同地区用户浏览时响应及时,不会产生未知谬误或者提早影响网站用户体验。 咱们借助工具对相干性能与体验指标进行收集与整合后,就要开始进行相干剖析,咱们以实在用户的性能与体验数据为外围,那么剖析流程应与实在用户拜访流程大抵为:终端—网络—利用—零碎。在剖析的过程中,咱们须要确保领有足够的样本量,以及本身对于不同指标对用户体验影响的权重评估。其中,咱们着重关注终端、网络局部。 (1)全地区可用性摸底在大促流动前,咱们会针对本人面向的市场,抉择全国不同省份的重要城市不同运营商的实在用户监测点,甚至是海内城市监测点,对网站的落地页地址发动多轮网络拨测,从延时、丢包率、可用性等指标维度评估域名、 IP、API 性能状况,造成可用性整体报表,针对可用性较差地区或运营商会进行重点治理。 (2)外围门路页面用户体验评估用户体验决定着促销流动的成果,尤其是页面的大略速度,更是间接决定着用户的去留。有钻研数据表明,如果网页的关上速度在 6-8 秒,大部分访客会来到,关上速度在 12 秒,99% 的用户会来到。在大促前对用户体验的评估也是咱们须要重点关注的中央。 针对于用户体验,咱们后期会梳理出用户的外围浏览门路,在外围浏览门路上的页面会进行重点优化和治理。通过云拨测的浏览工作,咱们会取得不同地区和运营商用户拜访该页面的首屏工夫、100K 工夫等外围的体验指标。尤其针对整体首屏工夫,要求外围浏览门路的首屏工夫必须合乎相应要求。 (3)DNS 解析成果评估DNS 解析是最容易被疏忽的中央,前端工夫 Facebook 的教训还历历在目,所以针对 DNS 咱们也会进行重点治理。通过遍布寰球的 1000+ 监测点,包含实在用户监测,全天候 24 小时对指标域名发动网络申请,帮忙用户监测 DNS 服务对可用性和解析性能,同时 DNS 拨测反对指定递归、迭代不同查问形式以及解析服务器,通过灵便的拨测参数配置尽可能模仿实在用户的拜访。 通过定时的拨测工作,阿里云拨测能够生成不同地区的 DNS 解析用时的报表,同时针对每次拨测都清晰的列出 DNS 申请对详情,包含 A 地址、DNS 用时、DNS 解析过程等,能给帮忙用户疾速剖析和定位 DNS 解析的问题。另外,通过配置 DNS 告警,针对于 DNS 的可用性问题和解析性能问题,也能够先于用户感知并问问题的修复争取时间,进步用户的满意度,升高经济损失。 (4)CDN 品质监测随着网站的图片、视频内容越发丰盛,为了解决不同地区、不同运营商拜访速度慢的问题,十分多电商网站都在应用 CDN 服务,进步网站加载速度,升高带宽老本,减少内容可用性和冗余。选取了指标用户群体,如北美、欧洲、南美洲、东南亚等次要国家的 LastMile(实在网民)监测点,配置浏览器拨测工作,对大促网站进行拨测。 通过对拨测日志进行剖析,实时理解 CDN 部署后的展现性能为多少,是否有晋升台主机节点的性能状况,可用性是否稳固。指标客户是否正确命中对应主机节点,或匹配度是否正当,CDN 节点与源站同步、对元素公布是否提供到位并长期有效。并基于以上评估规范对 CDN 设置策略进行调整及优化。 ...

October 24, 2021 · 1 min · jiezi

关于云拨测:Facebook宕机背后我们该如何及时发现DNS问题

作者|白玙 在咱们享受国庆假期的时候,大洋对岸的互联网世界却出了一件重大“事变”:Facebook 及其旗下 Instagram 和 WhatsApp 等利用全网宕机,停机工夫将近 7 小时 5 分钟,浏览器在尝试关上时显示 DNS 谬误。这对于旗下利用群月活和日活高达 35.1 亿和 27.6 亿的 Facebook 而言,堪称损失惨重。据投资机构预计,7 小时宕机导致超过 9.68 亿美元影响老本。并间接让 Facebook 市值损失 643 亿美元,其创始人马克·扎克伯格净资产蒸发 70 亿美元。 Facebook 示意,故障根本原因是例行保护工作出了问题,协调数据中心之间网络流量的骨干路由器配置变动,继而导致其 DNS 服务器产生问题并以致外部工具和零碎被敞开,运维人员无奈近程拜访设施以便复原网络。因而,运维人员不得不进入有着流程措施严格的数据中心进行人工重启。因而,MTTR 被重大拖长。 一句话总结,一条蹩脚的命令、一款有缺点的审核工具、一套妨碍胜利复原网络的 DNS 零碎以及繁琐的数据中心流程,独特导致了 Facebook 长达 7 个小时的重大故障。 具体而言,运维人员对骨干网络的一部分进行断网保护。例行保护的一部分就是评估寰球骨干网容量的可用性,但无意间中断开了骨干网络所有连贯,也断开了 Facebook 寰球数据中心的连贯。与此同时, 因为 Facebook 的架构设计是依据服务器可用性来扩大或缩减 DNS 服务。当服务器可用性因网络故障而降至零时,就会停用所有 DNS 服务器。主动响应骨干网解体仿佛成为导致 DNS 瘫痪的起因。这种停用通过 Facebook 的 DNS 名称服务器向互联网边界网关协定(BGP) 路由器发送音讯来实现的,这些路由器存储用来到达特定 IP 地址的路由方面的信息。这些路由通常被布告给路由器,让路由器理解如何适当地疏导流量。 Facebook 的 DNS 服务器发送的 BGP 音讯禁用了布告给路由,因而无奈将流量解析成 Facebook 骨干网络上的任何对应内容。最终后果就是,即便 DNS 服务器仍在运行,也拜访不了,用户也会因试图拜访的网络解体而失落服务。更可怜的是,DNS 服务用于面向客户的网站,还将其用于本人的外部工具和零碎。 ...

October 11, 2021 · 1 min · jiezi