关于阿里云:一个字稳云原生产品家族支撑冬奥会九大业务场景打造云上奥运新体验

1次阅读

共计 8790 个字符,预计需要花费 22 分钟才能阅读完成。

北京冬奥会曾经成为收视最高的一届冬奥会,在转播时长、技术、内容制作形式等多方面都书写了新记录。云技术的利用,是本届北京冬奥会赛事转播的一大特色。

而云原生作为云计算的新界面,如何稳固撑持北京冬奥会多个业务零碎?

九大业务场景,打造冬奥会体验「稳稳的」

业务场景一:奥运票务,践行 ACK Anywhere,落地云边一体

票务零碎是阿里优酷奥运小组依靠大麦原有的现场服务能力,提供的奥运换验服务。次要承载现场售票的验证服务,晋升现场服务平安、稳定性,力保为冬奥观众提供丝般顺滑的现场服务。

为了升高验票的时延,晋升奥运观众的入场速率,票务零碎须要别离部署在每个奥运场馆中,实现验票流程的本场馆闭环,充分发挥边缘计算大连贯、低时延的劣势,晋升票务的验票体验,缩小奥运观众排队等待时间。然而因为票务零碎扩散部署在每个奥运场馆中,奥运场馆间隔都比拟远,为了平安思考,部署在奥运场馆的服务器不容许有公网 IP,每个奥运场馆都有本人的内网环境,这对于票务零碎的开发、测试、验证和降级部署运维都带来了很大的挑战。若每个场馆安顿几位利用交付人员去做利用的降级和部署工作,老本太高,效率太低。

工作人员现场验票

基于以上思考,票务零碎团队心愿开发人员可能在云上开发、云上治理运维这些边缘侧节点和利用,实现云与边的一体化运维能力,因而急须要一套云边一体的架构和平台去撑持。

阿里云边缘容器服务(简称 ACK@Edge)是一款提供规范 Kubernetes 集群云端托管,反对边缘计算资源、业务疾速接入、对立治理、对立运维的云原生利用平台,可能帮忙用户轻松实现云边一体化协同。 用户利用 ACK@Edge 通过纳管边缘节点将云上利用延长到边缘,联动边缘和云端的数据,使得边缘节点领有云端雷同能力。在云端提供对边缘设施、边缘利用的对立 Ops 能力,保障边缘设施及边缘智能利用少运维、高可用。

基于 ACK@Edge 云边一体、Kubernetes 容器编排调度的能力,以及 ACK@Edge 在 Kubernetes 之上针对边缘场景叠加的如边缘自治、边缘单元化、单元化部署、Tunnel 通道的能力,切实解决了票务零碎利用运维的痛点,最终承载了北京、延庆、张家口三地冬奥会、冬残奥会所有较量场馆及鸟巢开闭幕式现场票务服务的对立治理和运维业务。

ACK@Edge 针对于 Kubernetes 在边缘计算场景提供了独有的增强型性能:

节点单元化 - 边缘节点池: 别离每个奥运场馆代创立了对应的边缘节点池,奥运场馆的边缘服务器能够疾速接入到对应的边缘节点池中。

利用单元化 - 单元化部署: 票务零碎通过 ACK@Edge 的单元化部署 UnitedDeployment,将业务部署到不同的奥运场馆的边缘服务器中,实现了在云上对立散发利用、对立运维的能力,业务人员无需现场部署,即可实现全副奥运场馆票务零碎的疾速降级部署工作,此性能在票务零碎上线过程中施展了重要作用。

云端运维,近程调试: ACK@Edge 提供的 Tunnel 通道,能够让业务人员疾速查看容器日志和进入容器调试。

边缘自治: ACK@Edge 的边缘自治能力,能够在云边网络断开、主机重启这种极其状况下,还能保障本地边缘服务器上的业务能失常运行。期间,ACK@Edge 团队与票务零碎团队做了大量的断网、重启操作,最终证实票务零碎始终失常提供服务。

截至目前,ACK@Edge 基于云原生的云边一体架构,曾经宽泛用于 CDN、IoT、智慧物流、工业大脑、新批发等诸多场景。本次冬奥会票务零碎的完满保障,进一步验证了 ACK@Edge 在云边一体、边缘计算畛域的价值。 同时阿里云将 ACK@Edge 全副外围代码奉献进去,成立了 OpenYurt 开源社区。 OpenYurt 作为 CNCF 的沙箱我的项目,秉承着凋谢、自在、中立的态度,吸引了大量来自于 VMware、中国电信、浙大实验室、中国联通、中国移动等公司和组织的泛滥开发者参加。在《2021 中国开源年度报告》中,OpenYurt 我的项目进入 CNCF 中国我的项目活跃度 Top 10。将来,阿里云会在边缘计算畛域拓展更多的业务场景,通过一直打磨产品能力、壮大开源社区,来更好的服务社会。

业务场景二:奥运轻利用,基于容器服务 ASK 疾速交付

因新冠疫情影响现场,现场观赛要求比拟严格。PinQuest 推出奥运主题冒险类手游,能够让用户在手机上开启属于本人的“冬奥探险”之旅,让公众通过离奇、乏味的线上形式,加强与赛事的交互体感。

赛事的不同导致游戏在线人数实时变动,因而须要具备极致弹性的能力。该游戏基于 ASK(阿里云容器服务 Serverless 版)提供的极致弹性能力部署要害模块,后盾服务可实时扩容,让用户体验如丝般顺滑。

ASK 集群是阿里云推出的无服务器 Kubernetes 容器服务。用户无需购买节点即可间接部署容器利用,无需对集群进行节点保护和容量布局,并且依据利用配置的 CPU 和内存资源量进行按需付费。 ASK 集群提供欠缺的 Kubernetes 兼容能力,同时升高了 Kubernetes 应用门槛,让用户更专一于应用程序,而不是治理底层基础设施。

业务场景三:冬奥外围零碎,从容应对大规模突发网络流量

冬奥外围零碎是整个冬奥会和冬残奥会信息服务的重要载体,集成赛事相干信息,提供服务功能模块,实现“一个 APP 走冬奥”的个性化服务,也为赛会组织和运行提供挪动通信协同和共享服务平台。冬奥外围零碎是奥运会最重要的赛时外围零碎之一。

其中,冬奥挪动服务由北京冬奥组委提供,次要提供赛事信息、即时通信,以及冬奥会交通、餐饮、住宿、抵离、场馆等业务畛域的移动信息服务性能。城市挪动服务次要提供场馆以外的吃、住、行、游、购、娱等服务信息。举个例子,衰弱填报性能与运动员非亲非故,海内到达的运动员须要在冬奥通上进行衰弱填报,才能够顺利开启较量打算,这只是冬奥外围零碎性能的一个例子。总的来说,稳定性至关重要。

冬奥外围零碎基于 ACK 集群实现了前端、代理和后盾等服务。在这些品种繁多的业务中,零碎对立页面入口部署在 ACK 集群上,也就是说客户的流量须要通过 ACK 能力拜访到如上各种丰盛的后盾服务,流量链路非常复杂。

压测期间,在高流量、高并发拜访的场景下,客户端申请错误率持续上升,成为上线妨碍。接到问题申请后,阿里云容器服务 ACK 团队第一工夫会同客户在集群的各级链路部署了性能观测埋点。通过排查,ACK 团队发现该业务链路以短连贯申请为主,作为流量入口的七层 SLB 在高并发场景下会高频地复用源端口,产生五元组抵触。通过具体验证,通过优化 Time-Wait 状态 TCP 会话的回收工夫等伎俩, 将压测流量晋升到原来两倍,错误率升高到 0%,解决了冬奥外围零碎上线前的一个重要的妨碍点,最终胜利保障了冬奥会全程的稳固。

冬奥外围零碎后盾利用为 Java 系的微服务架构,蕴含了近千个 Kubernetes 的 Deployment 利用实例,这些利用实例混部在集群的大量节点上,既要高效的利用资源,又不能让这些利用间相互影响,这给资源的共享和隔离带来了比拟大的挑战。

容器团队通过节点超卖评估、JVM 内存参数查看、Pod 资源调优、Pod 瓶颈和 OOM 实时监控等伎俩,对利用配置做调优,使集群的资源利用率和业务稳定性达到均衡。特地是在 JVM 自身的内存治理和理论的 Pod 内存限度带来的一系列匹配问题上,ACK 引入了自动化评估配置合理性的伎俩来疾速发现异常的内存配置,防止冬奥会期间利用的 OOM 的产生,保障了赛事期间的利用稳定性。

业务场景四:奥运新闻公布平台,安稳运行背地的一站式容器智能诊断

InfoAV 是北京冬奥会的新闻发布会平台,承接了本届奥运会全副发布会的直播、导播、点播的外围性能,涵盖如赛前采访、赛后运动员群体采访等。最后,客户基于自建 Kubernetes 部署 InfoAV 业务,然而遇到了无奈同城容灾、运维艰难等问题。

采纳容器服务 ACK 后,显著放慢了业务的上云和迁云。 InfoAV 所在的 ACK 集群不论是 Kubernetes Master 还是 Kubernetes Worker,都实现了同城多数据中心级别的高可用和容灾能力;InfoAV 应用了 ARMS 丰盛的可观测性能力,高精度观测到 Kubernetes 集群资源、组件、流量等指标,无力晋升了客户的保障能力。

架构上,InfoAV 基于 ACK 部署的业务包含视音频编辑、媒体内容治理等业务。InfoAV 零碎的业务特点是计算密集型、负载高,因而 ACK 提供的疾速全面的日常巡检能力,显著晋升了保障的可靠性。

InfoAV 界面,新闻发布会现场

业务场景五:奥运全球化业务,云原生利用制品平安托管和高效散发最佳实际

北京冬奥的容器化业务,无论是在线场景的 APP、InfoAV 业务,或是边缘场景的奥运票务业务以及 Serverless 场景下的 PinQuest 游戏业务,都对业务利用容器镜像散发的安全性、稳定性、规模化提出了不同要求。北京冬奥业务扩充至寰球 5 个地区,启用了 14 个 ACR 实例来保障冬奥业务容器化利用部署、扩容、快恢等链路。

阿里云容器镜像服务(简称 ACR)是云原生架构重要基础设施之一,负责托管和散发云原生利用制品。其中 ACR 企业版为冬奥业务提供企业级云原生利用制品平安托管及高效散发能力。

本次冬奥业务波及近 200+ 利用容器镜像,通过 ACK、ASK、ACK@Edge、EDAS、ECS 多种形式在边缘、Serverless、在线场景下进行部署,保障容器镜像的安全性,确保简单场景下的稳固、高效散发。

针对冬奥业务的安全性要求, ACR 企业版提供公网、VPC 访问控制能力,管制业务利用容器镜像更新及分发祥;同时针对容器镜像自身的安全性保障诉求,ACR 企业版提供了涵盖容器镜像破绽扫描及修复、容器镜像加签及验签、散发平安阻断等云原生利用交付 DevSecOps 能力,进一步升高业务利用公布更新后的潜在危险。

针对边缘场景, ACR 企业版反对在边缘节点中部署边缘前置实例,提供散发缓存、边缘 P2P 组网等散发减速能力,晋升云边互联场景下容器镜像散发效率。此外针对全球化业务,ACR 企业版也提供了寰球同步能力反对容器利用寰球多地区部署、容灾业务。

除业务链路保障外,在本次冬奥会保障过程中,借助于企业版实例全景监控及业务异样剖析,ACR 企业版可能疾速辨认用户业务利用容器化部署异样并反馈给客户,让客户可能第一工夫解决因凭证、权限、配置谬误等起因导致的利用公布失败问题。同时依靠于集群事件及监控实现全链路容器镜像散发问题辨认及诊断,如本次冬奥会过程中辨认到节点重启后 DNS 短暂解析异样导致节点拉取镜像失败(即利用复原失败)的景象,可能让客户提前更正当地布局利用水位,晋升利用整体稳定性。

业务场景六:数据交换与共享平台,基于云原生微服务的“数据中台”

2022 年北京冬奥会和冬残奥会数据交换与数据共享平台(以下简称替换共享平台)负责为组委会提供委内零碎、组委外专线数据源以及互联网数据源的数据交换、数据共享服务,是货真价实的“数据中台”。此零碎是所有云上外围零碎群的数据中枢和数据大脑,承当了云上数据汇聚、数据过滤、数据投递,以及数据保护的性能。

替换共享平台基于 Spring Cloud 微服务架构设计,并 依靠企业级分布式应用服务 EDAS 实现了利用全生命周期治理、微服务治理能力和环境隔离治理能力。 EDAS 企业服务助力替换共享平台实现了疾速上云、迭代公布和运行反对。

利用生命周期治理: EDAS 对业务所在的 ECS 集群进行治理,提供利用分批公布、灰度公布等丰盛的公布策略,以及变更记录、日志查问等性能,大大提高了替换共享平台的利用公布和运维治理能力。

微服务治理: 提供利用监控、限流降级、全链路灰度等性能,确保了替换共享平台的高可用性。

环境隔离治理: 通过微服务空间划分了生产环境和测试环境,保障环境之间数据、流量隔离;并反对服务东西向鉴权,确保替换共享平台的安全性。

本次冬奥会秉承云上绿色奥运理念,围绕赛事直播、数据公布、人员治理等多个场景构建了相似 ADS 人员抵离、MDV 数据大屏、InfoAV 数据公布、RHP 约车出行等 20 多个数字化管理系统。这些零碎之间随同业务逻辑会产生大量数据交换的需要。

因为业务子系统泛滥、业务逻辑分类简单,传统的零碎间同步调用会导致各子系统耦合度大幅晋升、零碎数据链路治理艰难等问题。 北京奥组委技术架构组采纳了基于音讯队列构建对立的 DES 数据交换平台,通过规范化数据格式和通信形式解决零碎的耦合性和复杂性问题,为组委会外部零碎、组委会内部专线数据源以及互联网数据源提供数据交换、数据共享服务。

在北京冬奥会 DES 数据交换平台中,应用阿里云 RocketMQ 构建了底层的异步牢靠通信通道:

  1. 各方数据源子系统通过对立的 API 标准上报数据到 DES 网关。
  2. DES 网关进行数据格式、权限校验后,进行简略数据封装和格局转换,写入到后端的 RocketMQ 主题。
  3. 上游数据生产方子零碎订阅 RocketMQ 主题获取本身须要的数据,实现和上游零碎的齐全解耦。

冬奥会期间,基于 DES 数据散发平台传输的数据有两类,一类是工作同步型数据,例如须要的人员注册信息,外围 OMS 系统生成注册信息后推送到 DES,再由冬奥外围零碎后盾订阅拉取人员信息实现登录认证;另一类实时告诉类数据,例如赛事赛程、奖牌榜和气象数据,通过外部 ODF 零碎产生实时问题数据并公布到 DES,再由音讯队列推送到上游零碎做大屏展现。

业务场景七:RocketMQ 承载冬奥 ADS 抵离和 RHP 约车出行突发流量

冬奥期间,随同着国内外泛滥人员的出入境和日常出行需要,北京奥组委技术架构组为人员出行治理设计实现了 ADS 人员抵离零碎以及 RHP 约车出行零碎。ADS 人员抵离零碎负责从首都机场和移民局接管人员的抵离行程信息和出入境信息,写入后盾管理系统,不便后续推送解决。RHP 约车出行零碎则须要治理大量的网约车订单治理。

因为冬奥期间人员流动存在极大的不确定性,出行人员的出入境和出行数据处理存在不确定的流量压力。北京奥组委技术架构组在实现数据处理过程中,应用了阿里云音讯队列 RocketMQ 来做流量缓冲和牢靠数据传递,零碎链路如下:

ADS 和 RHP 的网关零碎接管来自内部的数据调用,校验合法性。

网关零碎内置 RocketMQ SDK,将流量调用写入 RocketMQ 音讯做异步缓冲,防止突发流量打垮后盾数据库等零碎。

后盾解决零碎异步生产音讯实现流量平滑写数据库等零碎,如果遇到写入问题则应用 RocketMQ 牢靠重试机制做重试解决。

借助 RocketMQ 亿级沉积能力和海量并发写能力,RHP 出行零碎平滑承载了冬奥期间 6000+ 司机乘客的出行治理需要以及全副人员的出入境治理和推送需要。

业务场景八:云端一体,MQTT 反对央视新闻 App 海量用户评论转发

央视新闻 APP 中,在直播间应用微音讯队列 MQTT 版实现用户的评论发送,接管其余用户的评论信息。2 月 4 日,央视新闻 APP 直播了冬奥会的开幕式,开幕式开始后,微音讯队列 MQTT 版均匀音讯并发数十万,当中国队出场时,评论区沸腾,2 分钟内达到了百万,全程上、上行音讯总量数十亿。

阿里云微音讯队列 MQTT 版是基于开源 MQTT 3.1.1 协定构建的端与云互通的消息中间件,实用于物联网,挪动互联网业务场景。通过 MQTT 客户端 - 服务器的音讯公布 / 订阅传输模式,为低带宽和不稳固的网络环境中的设施提供牢靠的音讯传输服务。而且,在业务高峰期如果呈现了性能瓶颈,通过微音讯队列 MQTT 版的负载平衡音讯推送能力,只须要疾速降级规格减少利用实例的数量,就能对用户无感实现程度线性的利用生产能力晋升。

通过应用微音讯队列 MQTT 版,开发者不须要在应用层关怀弱网络环境、断线重连、异样解决、海量并发、零碎高可用等简单的技术问题,极大水平上升高了开发成本,晋升了用户体验和业务的疾速上线。

业务场景九:极速生成缩略图,Serverless 撑持赛事转播

视频缩略图是在视频中某一帧动画的缩略图,相当于将视频的封面或其中一帧的画面内容转换成了图片文件,选取的视频缩略图可能把视频中亮点画面突出显示,疾速抓住用户眼球,进步点击播放率,赛事视频缩略图与一般视频缩略图有些不同,须要对海量视频做更为疾速实时的抓取。

函数计算反对的客户须要对北京冬奥会的海量较量直播视频进行实时处理,在直播视频里的不同工夫点上做截屏(专业术语 “ 视频图片采集 ”),客户的需要如下:

须要定时事件触发截屏操作

客户只想集中精力在具体的逻辑开发,外围视频截图逻辑代码量不大,须要疾速实现开发

客户不心愿治理部署虚拟机 / 物理机,心愿越简略越好

客户须要这个外围业务逻辑具备弹性高可用,免运维

通过应用阿里云函数计算(FC),用户开发了视频截图的外围业务代码,开发成本低,一键部署,即失去了一个弹性高可用免运维的直播视频截图服务,帮忙实现冬奥视频亮点实时抓取。

全面的保障体系,为冬奥会护航

在此前的东京奥运会上,阿里云容器服务 ACK 通过一体化运维、全场景诊断和欠缺的保障体系反对了奥运会的顺利运行。而本次的 2022 北京冬奥会,容器服务 ACK 增强了保障能力,提供新的数据化、精细化运维,打造更平面的护航保障体系。

数据化运维

容器服务 ACK 的对立运维平台集成了全网集群的监控、告警、事件、日志、巡检、元数据管理等性能,能够实时观测、治理全网 24 个地区的数万集群。但数据源扩散异构且碎片化让运维压力较大,无奈做关联剖析,因而容器服务 ACK 依照规范的大数据体系构建数仓平台,将数据对立荡涤并结构化存储,并按统计需要进行分层建模,提供富裕运维语义的实时 + 离线数据模型。

建模好的数据能够间接绘图剖析或用于报警,如量化集群衰弱水平:通过组件配置、监控值、事件 / 日志异样、历史水位等计算组件衰弱分,而后联合节点、工单、配额规格等加权计算集群整体健康分。再以该模型为根底,绘制宽表并按多维度聚合,展现高危项,并对立治理衰弱分低的集群。

异样剖析

容器服务 ACK 运维平台将集群 Events 和组件日志进行荡涤并对立格局存储,针对异样内容进行告警和趋势剖析。对全网各类型集群进行异样归类,提前发现,并专项分级解决,保障外围业务重要时段不受影响。

同时,以 SLO 定义驱动可观测性体系,针对 Kubernetes 的容量规模建设性能压测常态化能力,对 Kubernetes 集群外围 Verb 的 QPS 数有明确理解,同时联合不同工作负载场景进行 SLO 梳理,继续关注申请量、提早、谬误数、饱和度等黄金指标。

集群级别灰度和封网

对于重保流动,容器服务 ACK 有残缺业余的预案管理体系,大型流动保障期间遵循阿里云整体的管控打算,执行特定范畴、特定时段的封网。本次北京冬奥会,ACK 将封网管控细化到集群级别,对重保集群的运维操作须要独自申请特定权限,读写操作分两级申请,公布变更须要走非凡审批流程,一键回收已有权限并从新下发特定人员。

通过细化到集群维度的灰度管控,能够更严格的管制危险范畴,同时防止大范畴拦挡,影响惯例运维。

欠缺的保障预案体系

针对奥运会,容器服务基于已有的保障流程,针对性地制订了全程保障计划,包含提前预案、应急预案、故障演练、值班排期等。容器服务有丰盛的保障教训,每年例行的保障流动包含每年的双十一、618、春节等,这些大型保障流动简单而全面,容器服务每年在这些流动过程中获得了近乎 0 故障的佳绩。

除了上述重大保障流动,容器服务外部有常态化的基于混沌的故障演练和突袭,混沌零碎随机注入故障,容器团队值班人员会收到告警并依据预案零碎中的预案,立刻进行解决;通过常态化的训练,团队的应急解决能力锻炼得成熟默契,能够很好的实现 1-5-10(1 分钟内收回警报、5 分钟内定位故障、10 分钟内修复故障)的指标和方法论。这些通过实战重复打磨的保障体系,使用到了奥运会保障专项中,无力保障和反对了奥运会的稳固运行。

对奥运集群的提前预案,在赛事开始前会对每个奥运重保集群施行,能够最大水平上发现并提前打消危险点。巡检形式包含千舟平台和自动化巡检脚本,查看我的项目笼罩集群节点和组件的水位和状态、网络流量、Pod 是否按可用区打散、要害组件(CoreDNS、Ingress Controller 等)配置和技术指标、Kubernetes 事件等多维度;执行每日巡检的机制,能够继续发现新增问题,并疾速反馈客户修改。

以 ACK 集群的 Apiserver 相干的预案为例来解释一下。ACK 具备精细化的流控策略,能够针对压测和故障演练过程中发现的异样进行防护能力建设。具体实现上,阿里云容器服务内置了自研的 UserAgentLimiter 进一步做精细化限流,更加全面的保障 Kubernetes。Apiserver 应急预案能够基于如上策略,疾速下发限流配置,秒级稳固 Apiserver,疾速复原集群。

欠缺全面且继续迭代的应急预案,是故障产生后疾速止血、保障业务的必备武器。针对北京冬奥运会保障,容器服务 ACK 和容器镜像服务 ACR 筹备了针对核心管控和运维、管控链路、用户面、数据面 4 个大类的几十个应急预案并屡次演练,全面笼罩高风险故障场景。确保如果险情产生,保障人员有谨严的步骤和流程来逐渐操作,显著晋升了应急响应的速度和成果。

极致的弹性能力

大型赛事、直播等业务场景,往往随同着特定工夫点的突发业务流量,对系统的压力也是实时变动的。阿里云音讯队列提供 Serverless 按需服务能力,业务规模 5000 TPS 并发以内能够实时弹性,业务齐全无感。超大规模并发也能够随时降级铂金版规格,分钟级平滑扩容,单实例最高反对 100 万 TPS。

在冬奥开模式期间,央视直播客户端大量的用户直播评论带来零碎压力的回升。 微音讯队列 MQTT 版及时扩容到单实例 100 万 TPS 规格,极强的弹性能力保障了零碎的稳固运行。

不说再见

北京冬奥会曾经落幕

但云原生的保障护航还在持续

在行将到来的冬残奥会

咱们也将全力以赴

稳稳的!

正文完
 0