乐趣区

关于运维:一份不大的救命文档一场时间与生死的接力

简介: 一份文档,能成为照亮光明的灯塔,关上一条求生通道。

2021 年 7 月 20 日,一场暴雨突破了一座城市的平静。短短 24 小时,就让这座黄河边上的“中原粮仓”变成了一片汪洋。

常见的特大暴雨席卷了整个河南,大雨冲毁了城市里大部分的基础设施,通信碰壁导致大量灾区民众无奈取得无效的救济,许多人曾经在水里泡了好几个小时却无人知晓。

自 7 月 20 晚开始,大量河南暴雨的信息开始在各类社交媒体急速流传,各类在线文档也开始呈现。不同类型的救济信息,被志愿者们分门别类地编辑进不同类型的文档,一时间“待救济人员名单”、“避险名单”、“住宿交通物资信息”等文档开始在各类社交媒体内进行流传。

放在平时,一份文档对于咱们来说可能是工作和生存的必备工具。但在这次的灾情中,每一份文档都是一条信息高速通道,每一个字符都寄托着社会各界对受灾同胞的殷殷关切。

文档是救济的方舟,在此刻显得尤为重要,石墨文档在第一工夫向奋战在抗汛一线的政府部门 / 医疗机构 / 公益组织 / 社会个人 / 集体志愿者等收费提供高级版产品及服务。助力各方做好信息收集与公布,实现更高效的沟通协调。

依据目前的数据,自 20 日晚起,截止本周,全国共创立了超过 1600 个灾情相干文档,累计为数百万设施提供了文档合作服务。主题包含现场求援、物资同步、洪灾志愿者填报、洪涝自救常识科普等。在灾情产生 24 小时内,石墨文档挪动端访问量激增 5.4 倍以上。

《河南洪灾紧急求助信息登记表》分省市拜访趋势图

灾情相干文档实时热度图

一条又一条的救命信息,为灾区人民提供了活力,但也让石墨文档背地的 IT 零碎面临着微小的挑战。而其中最重要的挑战就是:如何保证系统的安稳运行。

只有零碎安稳地运行,用户能力在第一工夫对各类救命文档进行整顿、编辑、演绎等操作,让更多人参加到文档的独特合作当中,让各条救命信息能送到真正有须要的人手中。

在此次灾情中,石墨文档杰出地实现了作为“信息载体”的工作,确保文档始终稳固可用。而此次在灾情期间石墨文档能有如此杰出体现,很大一部分起因是因为石墨文档早在 5 个月之前利用阿里云构建了一整套智能运维零碎,买通零碎全链路可观测数据,实现了对立治理,智能告警和预检能力。

在河南疫情产生不久后,石墨文档 SRE 团队工程师在 7 月 20 日晚值班时忽然接到告警电话,电话那头语音主动播报石墨线上 K8S 集群资源使用率飙升,PV 同比增加 200% 以上。紧接着又收到某些业务接口访问量骤增和多个资源快到压力位的告警信息,并且随同着屡次容器主动扩容的事件产生。通过基于 SLS 打造的一条全渠道事件总线,疾速定位到事件起因:多个文档的读写次数和拜访人数出现异常增多。

定位到相干文档后,发现原来是有人应用石墨文档统计救灾信息,所以才有大量用户同时拜访。因为拜访人数增长过快,不晓得后续上涨趋势如何,于是 SRE 工程师紧急协调了数倍于来日的阿里云计算资源对基础设施进行了大规模扩容。确保这些救灾文档在数千人同时合作,数百万人次浏览的状况下也能保持稳定、晦涩的体验,保障救灾工作顺利进行。

一份文档,牵动一城的心;一份文档,关上一条求生通道;一份文档,为河南的受灾大众带去新的心愿……

在进入云原生时代后,逐步欠缺的 IT 基础设施,推动者企业业务进行数字化翻新。而如何晋升用户体验,让业务疾速且稳固地为用户服务,是企业在这个时代倒退的要害。尤其在面对各种突发状况须要用到该业务时,只有做到“疾速且稳固”能力让该业务在关键时刻起到最大的作用。

版权申明: 本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

退出移动版