关于运维:原神运维自动化的探索与实践

52次阅读

共计 1470 个字符,预计需要花费 4 分钟才能阅读完成。

2020 年 9 月 28 日凌晨米哈游办公区域,《原神》运维团队与 OpsMind 重保团队壁垒森严,迎接提瓦特大陆第一批旅行者。

两个月后,《原神》陆续拿下 Google Play Best of 2020 和 App Store Best of 2020 等荣誉,成为谷歌和苹果双平台寰球年度游戏。

​新年伊始,《原神》运维团队为咱们揭示了《原神》运维自动化技术的摸索实际经验。

工夫是惟一的敌人

运维自动化是必然,工夫是咱们惟一要跑赢的敌人。

与米哈游现有我的项目比照,《原神》在服务器数量及运维工作量上都面临较大挑战,如何通过运维自动化工具撑持超大规模集群的公布治理没有教训可寻。

然而,是采纳自研还是商业计划是首先面临的决策,运维工具的效率、稳定性及满足游戏上线要求是重中之重。要想在短时间内由 0 到 1 自研运维自动化工具是一项低投入产出且高风险的技术投资。在工夫和人力不富余的状况下,抉择采纳现有的商业计划显得可行性更高。在待考查的计划中,不乏一些在运维行业内比拟出名的商业化计划。在深刻调研后,发现这些计划各有优缺点,比方有些平台性能有余无奈满足定制化的需要;而有些产品研发与交付服务是割裂的,如果呈现 Bug 或新的性能需要,须由产品研发团队评估后能力排期立项,少则数月、多则半年,甚至可能 杳无音信。

在摸索过程中,OpsMind 低代码运维开发平台的产品状态十分特地,能通过很少的人力,在短时间内搭建起一体自动化运维平台,切中《原神》的痛点。并且能够疾速的以周为单位进行 Bug 修复、性能更新迭代,而《原神》运维开发只须要专一自动化工作流的设计编排以及业务方的需要实现。

挑战无处不在

因为《原神》面向的是寰球用户,大陆、海内蕴含多个区服,服务器量大,上线时又要保障工作下发百分百无误;这对米哈游和 OpsMind 都是很大的挑战。面对 100% 成功率的指标,单方一起配合查找影响成功率的问题点,在多层代理、自动检测专线衰弱度、优化超时解决机制、数据进一步压缩等措施下,最终以 100% 的工作下发成功率完满撑持了《原神》的上线。

对游戏行业来说,疾速迭代、疾速公布是广泛需要。在谋求效率的同时,更加强调品质。为了晋升运维品质以及与其余部门的配合效率,须要疾速搭建起贴近自有业务场景的运维平台。包含监控、公布自动化、CMDB 等,并且数据彼此互通,可提供给游戏研发及其他部门或零碎应用。基于这个指标,《原神》运维团队与 OpsMind 从建模设计、工作流业务划分、页面的配置、自定义指标的收集与下发策略等几方面动手,在一个月内将整个体系搭建起来。为了整体替换老零碎,并兼容老零碎对外输入的 API,OpsMind 开发 Endpoint 性能,通过 Endpoint,《原神》运维团队可自定义 API 调用格局,驱动工作流执行。

“因为 OpsMind 产品的灵活性、性能的全面性,使它能够满足《原神》我的项目运维的所有需要,这是一个很大的劣势,这就使咱们能够把其余工具都扔掉只留 OpsMind。能够说《原神》和 OpsMind 是互相成就,互相成长。”《原神》我的项目运维团队示意。

值得期待的 OpsMind

《原神》是一款研发难度极具挑战性的游戏,《原神》的运维工作也同样极具挑战性。通过一年的单干,OpsMind 在产品和性能上有了很大的晋升,实现了高速成长。

“心愿 OpsMind 近阶段在做的监控零碎性能优化工作能获得一个很好的成绩,这也会极大晋升《原神》运维的工作效率。此外,对于 OpsMind 正在做的平台侧的革新,使交互变得简便,能够升高平台的应用门槛,进步配置效率,也是咱们十分期待的。”《原神》我的项目运维团队负责人示意。

正文完
 0