乐趣区

关于高可用:华为前端工程师分享查明网站访问故障原因教你4招快速应对

摘要:在第七届寰球软件大会上,华为软件工程师杜志刚,就为宽广开发者分享了华为云官网的高可用保障计划,深度剖析了网站在各类极其重大劫难场景下,如何疾速复原的计划和工程化实际。

本文分享自华为云社区《网站拜访故障背地产生了什么?华为工程师教你疾速应答【寰球软件技术大会技术分享】》,原文作者:技术火炬手。

最近,某 CDN 服务故障,导致海内少量出名新闻网站无奈失常拜访或加载,一石激起千层浪。的确,随着越来越多的业务上云,一个网站或者某个业务是否保障继续的在线,十分考验背地的高可用、高牢靠方案设计。

在第七届寰球软件大会上,华为软件工程师杜志刚,就为宽广开发者分享了华为云官网的高可用保障计划,深度剖析了网站在各类极其重大劫难场景下,如何疾速复原的计划和工程化实际。

网站不靠谱,损失不可估量

从网站所有者角度来看:网站不可用间接导致的是经济支出方面的影响,特地对于电商类网站,每分每秒都在产生交易,一旦拜访中断,经济损失的影响不言而喻。除此之外,从客户角度来看,面对网站不可拜访,最直观的感触是不靠谱,对网站以及网站背地的企业品牌产生不可挽回的口碑及信任度方面的负面影响。

从近十年的互联网重大故障事件来看,DNS、CDN 导致的大范畴影响历历在目,其余 IT 基础设施导致的区域型及全局型故障也影响甚大。

业界宽泛应用的网站可用性指标包含网站不可用工夫及网站年度可用率,不同类型的网站和利用对可用性的要求也不尽相同。

其中网站不可用工夫(故障工夫)= 故障复原工夫点 - 故障产生工夫点。网站年度可用率(Yearly Uptime Percentage)=(1- 网站不可用工夫 / 年度总工夫)*100%。

华为云官网作为云基础设施提供商的互联网拜访入口,对可用性有着极高的要求,面向最终用户的外围页面要做到 7 *24 小时在线,如果呈现重大故障,如云服务区级别,或基础设施导致的单云全局故障,5 分钟内告警告诉到相干责任人,15 分钟内实现故障切换。

网站拜访呈现故障,背地产生了什么?

上面联合图例剖析一下网站页面拜访的整体流程及要害故障点:

在①处,DNS 故障会通常会导致网站整体不可拜访,到了②是 CDN 故障会让局部天文区域用户不可拜访,③是单云全局故障会导致网站整体不可拜访,④是云服务区级别故障会导致分流到该区域的用户不可拜访,⑤是云服务可用区级别故障会导致路由到故障 AZ 的用户不可拜访,⑥是容器集群故障导致路由到对应容器服务的用户不可拜访,⑦是服务节点故障会导致路由到故障服务节点的用户不可拜访。

综上,云化场景下,页面拜访面临诸多的关键技术挑战,包含

  • 单个 DNS 服务商整体故障如何应答?
  • 单个 CDN 厂商整体或多个区域故障如何应答?
  • 基础设施故障导致的单云整体故障如何保障页面还能够失常拜访?
  • 单个云服务区级别故障如何对用户拜访影响工夫降到最小?
  • 页面拜访依赖的后端服务泛滥,如何最大限度较少故障点,升高计划整体复杂度及老本,保障计划通用可行?

四个计划,轻松应答网站各种故障

针对以上要害挑战,通过华为云官网近几年的实际,总结了 4 个计划分享给大家,咱们将一一拆解,为大家展现这些计划的实际效果。

1、单个 DNS 服务商整体故障:双 DNS 服务商解析

DNS 是相对来说十分重要但却没有失去应有器重的薄弱环节,对于可用性要求极高的商业门户网站,将 DNS 依靠于一家服务商,不出问题惊涛骇浪,一旦产生全局性故障,导致的影响可能是灾难性的。

咱们以后的策略是:采纳双 DNS 厂商域名解析计划,在一家服务商产生局部或整体故障时,能够在短时间内主动实现故障切换,将域名解析工作交给其余服务商实现。此外,咱们还构建了对立运维平台实现多厂商域名解析的对立配置,以及 DNS 可用性监控、故障服务的疾速剔除能力。

双厂商 DNS 配置如图所示:

这个配置的前提是域名注册商及域名解析商反对多厂商 Name Server 配置。具体配置方面,首先将域名注册托管迁徙到反对多厂商 NS 配置的注册商,而后同步 DNS 厂商配置的解析记录到新厂商,最初域名注册服务及解析服务同时配置 NS 记录指向双厂商 Name Server(0~72 小时失效)

这样配置能够在单个产商 Name Server 产生故障时,ISP Local DNS 主动将故障 Name Server 升高抉择优先级(BIND SRTT 算法,失败惩办),应用优选的 Name Server 进行 A 记录或 CNAME 域名解析。

演练步骤能够拆解为:

第一步:双厂商 NS 记录配置。

第二步:通过浏览器查看服务可失常拜访。

第三步:拨测 Name Server 可用性,验证不同地区 ISP 是否应用了不同厂商的 Name Server 进行域名解析。

第四步:关停 Bind 模仿单个厂商 DNS 故障。

最初,通过 HTTP 从多个地区拨测服务是否能够失常拜访。

2、单个 CDN 厂商区域性故障:多 CDN 服务商计划

上面介绍一下多 CDN 厂商的配置与切换,如图所示:

应用这个计划的限度条件有三个:DNS 协定不反对多厂商 CDN 的 CNAME 解析配置;DNS 智能解析反对不同地区或网络配置不同的 CNAME 解析记录;CDN 呈现整体故障概率较低,更多是区域性故障。

多 CDN 厂商的配置要先对国内及海内拜访别离做主备 CDN 减速,而后 CDN CNAME 解析 TTL 设置为 60s,让单 CDN 厂商服务不可用时,故障切换失效工夫更短;最初是构建 CDN 治理平台,对接多厂商 DNS 治理 API,事后配置切换和回切策略,呈现故障一键切换。

最初的配置成果也很显著,CDN 告警厂商 A 大面积故障后,可通过 CDN 运维治理平台,将对应区域的 CNAME 解析 Failover 到厂商 B 提供服务,失效工夫 1 分钟。

下图是咱们运维平台的切换界面示例,可按不同二级域名分国内及海内用户拜访场景别离切换。

2020 年和 2021 年咱们都遇到了理论的现网故障,CDN 的故障切换性能失去了无效利用,让页面拜访实现了疾速故障复原。

3、区域性天文劫难场景:页面拜访异地多活计划

这里介绍了咱们中国站和国内站双站异地多活的组网策略,如图所示:

如果产生区域性天文劫难场景,咱们应用站点多 Region 多活部署,应用这个解决方案要保障内容治理服务公布的页面内容在多云服务区放弃同步。同时,LB 及网关路由配置多活云服务区保持一致。

具体配置时,先将国内及海内用户 CDN 回源流量按比例分流至不同云服务区;随后配置健康检查策略,当呈现云服务区级别故障时告警,便于主动或手动切换回源流量至衰弱的云服务区;如果海内与国内服务存在差别时,通过云厂商外部专线在 LB 或网关进行跨云服务区路由。

这样,在非容灾场景下,多云服务区同时提供页面拜访服务,升高单云服务区回源压力。即使呈现云服务区级别故障时,也可通过 CDN Admin API 实现一键故障切换,CDN 回源疾速回到可用状态。

如图所示,通过咱们的运维平台,在单个云服务区故障场景下,可实现故障云服务区的疾速剔除,这个过程次要通过批量切换二级域名 Region 级别回源 DNS A 记录实现的。

4、单云全局故障场景:网站备份与切换计划

最初介绍一下整个高可用计划的最底层的保底计划:网站备份与故障切换,首先来看一下网站的备份流程,如图所示:

运维人员先配置站点元数据及配置备份策略,站点治理依据备份策略下发备份工作到调度服务,而后调度服务再定时调用备份服务执行备份工作。

采集的话是由备份服务启动 Headless Browser 加载入口页,再加载动态页面资源,执行页面脚本加载动静页面资源,而后执行预置脚本加载动静页面资源,最初辨认页面跳转 URL,包含 HTML 标记及脚本触发的动静跳转点,启动新 Headless Browser 实例,实现级联爬取。

采集完是存储,页面主文档及相干页面资源加载实现后通过 OBS 接口转储到对象存储服务,再通过云厂商提供的对象存储跨 Region 同步能力实现页面内容异地容灾。跨云复制则通过跨云同步工具将备份站点页面内容,同步到其余云厂商对象存储服务,实现跨云容灾。

备份完结后,再看一下故障切换流程。当基础设施问题等起因导致的单云多 Region 故障使得 Web 服务整体不可用时,开始故障检测,页面可用性拨测服务监测到云服务区 A、B 不可用,在 5 分钟内收回告警。

往下是故障转移,成立重大问题应急解决作战小组,同时关上运维容灾治理平台,查看不可用区域、备份站点拨测是否失常。如果同云备份站点可用,优先切换同云备份站点;如果不可用,第三方云厂商备份站点可用,切换到备份站点。整个切换通过更新回源域名 A 记录解析地址指向 OBS 公网拜访地址实现。

最初是故障修复阶段,先定位解决问题,拨测 Web Server 可用,再手动执行故障回切,而后用户回归失常拜访。

总结

以上是在各种极其场景下如何保障网站继续在线的一些实践经验的总结,相干计划曾经在理论场景下验证无效,并且做到继续的例行化演练。

另外,对于不同类型或规模的网站,高可用并没有具体量化的规范,能够给几个比拟粗的级别供参考:最根底的保障性能可用,不思考网元的单点问题。要求再高一点,思考应用服务集群化部署、DB、缓存等中间件进行相应的高可用部署,确保没有根本的单点问题。再往上思考多数据中心部署,解决单数据中心不可用问题。最初是思考异地多活或容灾,应答某一天文区域劫难的场景。

除了以上传统套路外,随着越来越多的企业都在上云,还要思考单个云厂商基础设施产生整体故障时如何疾速替换及逃生的问题,例如 CDN,DNS 等,这些都是网站拜访根底场景要重点思考的故障点。

福利

本次,还有两位华为的专家给大家带来《华为云官网智能化实际的五大要害动作》和《华为云官网前端的技术演进与低代码实际》的分享,他们也答复了开发者关怀的问题,例如网站智能举荐的实际心得,低代码平台的选型等等。欢送 扫码观看视频

点击关注,第一工夫理解华为云陈腐技术~

退出移动版