为什么这个92年的小哥从实习生到P8级技术Leader只用了6年

61次阅读

共计 4332 个字符,预计需要花费 11 分钟才能阅读完成。

简介: 那个 92 年生的少年,如何从实习生成长为阿里 P8 级技术 Leader…….

很难设想,1992 年出世的郑洋飞曾经是云原生性能容量团队 Leader、2018 年双十一稳定性总负责人,2020 年双 11 的副队长。间断 6 年双十一,不仅是他率领团队的练兵场,更能从中看到蚂蚁团体技术演进的轨迹。

我问郑洋飞:“进入蚂蚁以来,你感觉做得最好、最值得吹牛的一件事是什么?”

我本心愿从他口中听到双十一“买买买”的冷落红火、以一己之力保障 13 亿订单量的豪情壮志。但眼前这个青年抓抓脑袋,说了一个生疏的词语:“应该是我接下来做的这个云原生容量技术吧。”

“我是第五个挑战这个技术的人,很多前辈都失败了,但我感觉我能做成。”

抛下从前的光环,郑洋飞急着奔赴下一站。技术之路无穷无尽,蚂蚁团体站在千万人搭起的台基上,筹备攀越新的平地。

“双十一”:从新兵到老将

2013 年,实习生郑洋飞还在给服务器做“人肉扩缩容”的琐碎工作。

2015 年,他曾经被拉上双十一火线,跟主管签下“对赌协定”,负责整个双十一全链路压测的稳定性。从石破天惊的参与者到我的项目主导者,郑洋飞的视线释然洞开。

身为 90 后,这是郑洋飞第一次独挑大梁。

时局艰苦,洪水猛兽。因为上半年故障问题高发,整个稳定性团队正值士气高涨,质疑声接连不断,全团队都憋着一口气。郑洋飞婉言:“就是要给蚂蚁争口气,不能让人感觉咱们不行。”

少年冲阵斩将,闯入“光明顶”。郑洋飞回顾说,过后光明顶(双十一全链路压测现场)留给支付宝团队的地位很少,阿里经济体大促负责人在现场举着大喇叭,一有问题就声震云霄:“支付宝怎么了?支付宝怎么又跌啦?”

郑洋飞屏息凝神,应答所有,“在那个会议室里你得解决任何事件,什么状况你都要能 cover 住。”这时哪还顾得上什么 KPI、什么对赌协定,只有压测曲线一抖动,全团队的心都跟着抖动。

但最终,他们扛住了。当双十一 0 点的流量洪峰扑面涌来,支付宝顶住了压力,郑洋飞从主管手中接过了本人博得的赌注:一只 Apple Watch。

线上购物节的狂欢暴发了,时代的车轮在悄无声息中后退。跟前一年相比,2015 年双十一的全链路压测在几个方面做了大刀阔斧的改良:一是从外围零碎扩大到全副零碎,二是和整个团体的压测买通联动,三是平台化,也就是打造一个全链路压测的平台工具,将技术人员的一部分工作交付给平台。

尔后的几年,全链路压测技术一路演进,从大促走向常态和产品化,随着技术的积淀和业务的了解,郑洋飞的职责也从双 11 压测负责人逐步扩充为双 11 稳定性负责人,这几年的大促用他的话说,“熟能生巧,丝般顺滑”。越来越多的技术被交融到平台里,这几年间断诞生大促中控平台、巡检平台、变更外围,限流平台,预案等平台,随着大促保障技术的积淀,缩小了一线的纯技术保障人员逐年缩小,大促技术团队得以解放双手,去攻关破解更具备技术难度的问题。

“大促要朝着无人驾驶的方向倒退”,这是所有双十一参与者的愿景。

云原生容量:从舒服区到“无人区”

一度被称为“压测小王子”的郑洋飞说:每年对于大促技术同学很要害的一个技术问题就是容量评估,如何用最低的老本,最快的效率,保障双 11 大促的稳定性。随着大促流动的常态化,日常每个流动都会带来流量的突增,这些流动也会带来很多容量和稳定性问题,那么如何用低成本,快效率,高稳固解决大促和日常中的这些容量技术问题

为了解决稳定性问题,郑洋飞和团队在这些年实现了大促中控平台、巡检平台、变更外围等平台工具。当初横亘在团队背后的,是一个更生疏、难度更高的畛域:云原生容量。

云原生容量技术的作用,正是依据历史趋势和实时预测,计算出每个利用应该正当应用多少资源。基于经典和机器学习的预测算法,再加上基于云原生开发的容量伸缩工程技术,实现云原生整体利用容量的稳定性和资源的正当应用。

之所以要做这件事件,是因为在线利用资源利用率始终很低,并且因为是长期运行(Long-Running)的属性,导致资源规格和正本数在刚申请时就已固定。蚂蚁技术危险团队冀望找到一套适宜金融级规模化的弹性伸缩技术(autoscaling),联合利用流量特色来对利用规格和正本数进行弹性调整,为传统的在线利用实现 Serverless(无服务器化)从而晋升在线利用的资源利用效率,节省成本。k8s 等开源社区具备的 HPA/VPA 技术并不能在蚂蚁生产落地,次要起因有三点:第一,大部分在线利用的服务能力和资源利用率关系并非简略线性关系,无奈间接像社区 HPA 技术一样通过 metrics 来驱动;第二,因为蚂蚁的金融属性业务稳定性要求高,历史起因导致的业务复杂性也很高,从而使得弹性伸缩变成一件高风险的事,须要建设技术危险管制伎俩,避免异样导致故障;第三,在线利用扩缩容速度须要 10 分钟以上,扩缩容无奈满足疾速弹性的要求。针对下面的这些起因,须要自研设计适宜蚂蚁生产环境应用的容量托管弹性计划。

云原生弹性容量技术架构次要由画像零碎和 AutoScaler 的组成的多层关闭负反馈控制系统,画像零碎通过大数据技术和机器学习算法实现了利用的最优布局,AutoScaler 依据画像剖析的利用画像来执行多级 HPA 变更和 VPA 变更。画像零碎会对利用特色进行大数据积攒,加上离线和实时算法剖析,通过积攒利用的数据法则和生产环境的数据反馈实现 workloads 的最优求解,也会对画像零碎进行变更治理和灰度管制,升高技术危险,AutoScaler 建设多级 HPA 实现程度伸缩,通过 VPA 垂直伸缩,其中多级 HPA 通过 ServiceMesh 极大的缩短了利用的启动工夫,提供稳固高效的利用扩容速度、升高缩容危险

一言以蔽之,就是在保障稳定性的前提下,对资源进行最优化的配置,实现经典利用的 Autoscaling。“这项技术成熟后,能够实现容量故障的大幅降落和资源利用率的晋升”郑洋飞畅想。

说来轻松,上手何其艰巨。在郑洋飞之前已有 4 个失败的先例,他自己也曾在这下面栽过跟头,有数质疑和反对声涌来,郑洋飞束之高阁:“当初的云原生基础设施比以前好很多,咱们对问题的定义和了解也变深厚了,并且咱们是一支不怕困难的团队,我感觉能做成。”

既然认准了路线,就只顾裹足不前。对云原生容量的钻研还在起步,团队的工作已小有功效:2019 年,郑洋飞和团队为蚂蚁投入的运维经费节俭了大概 10%。

他兴奋地挥挥手:“感觉如同手上多了一大笔钱,我想买啥就买啥!”

“技术危险部的新定位”

郑洋飞的经验,勾画出蚂蚁技术危险部的倒退轨迹:“职位能力化,能力平台化”。

多种多样的平台工具,成就了“无人驾驶”的十八般兵器。如果说之前的双十一是硝烟四起的战场,当初的双十一则更像是一场练兵:人力老本大幅度降低,技术危险部常会安顿新人上场磨难能力,“太过依赖现成的平台,就没有咱们当年那种紧张感了。”

平台是技术的凝缩,人则是发明和演进技术的要害。以 SRE 为例,这个最早由国外互联网公司提出的概念是指 Site Reliability Engineer,“网站可靠性工程师”。SRE 被要求同时具备弱小的编程算法能力和网络架构技术,只有顶尖的互联网公司才会呈现真正的 SRE。

在蚂蚁外部,SRE 的定义又有不同,指的是 Site Risk Engineer。许多不分明这个概念的人时常抱以质疑的态度:这是不是单纯的 PE(运维工程师)?是给其余业务“背锅”的?

郑洋飞一锤定音:“SRE 不是一个岗位,而是一种能力。”

“当咱们技术危险能力做到足够成熟时,就不须要 SRE 岗位了。”郑洋飞示意,团队这两年曾经在逐渐地“去传统 SRE 化”,SRE 作为一种能力被编入了软件和平台内,工程师的工作不再是传统运维工作,而是为这些平台提供软件工程服务。

无论在蚂蚁内外,郑洋飞和整个技术危险团队身边从来不不足质疑的声音。有些人抉择退缩和放弃,也有人矢志不移,举步向前。

“技术危险部存在的意义,就是认真剖析每个故障背地的起因,总结出一套法则,防止这一类故障的产生。”作为坚守多年的老将,郑洋飞俨然曾经是部门内的资深成员,“我就是想证实,一方面我在这里是有成就感的,一方面咱们做的事件是能失去价值认可的。”

我问他,什么时候第一次意识到本人的工作和所有人非亲非故?

郑洋飞回顾说,某天一项性能公布时呈现了问题,征询和投诉电话立即打爆了支付宝客服热线,那一天很多客服妹子都没能吃上午饭。“没有身在其中过,就很难意识到本人敲下的每一行代码有着怎么的重量。”

“我不是什么天才少年,必定不是。”郑洋飞说,“我就是一个普通人。”

他套用了最近正火的杨超过“金句”:老天爷不肯定只爱聪慧的人,他的万分之一也会宠幸到咱们这些笨小孩。“感激公司给咱们这种普通人一个机会。”说到这里,“笨小孩”乐不可支。

人人生而平庸,但偶然也像群星闪耀。蚂蚁翻越山岭,天地宽阔,每颗星星都在本人的地位上发光。

团队介绍

蚂蚁技术危险中台团队,负责蚂蚁团体的技术危险底座平台建设,包含智能监控、资金核查、性能容量、全链路压测以及危险数据基础设施等平台和业务能力建设,解决世界级的分布式解决难题,辨认和解决潜在的技术危险,参加蚂蚁双十一等大型流动,通过平台能力保障整体蚂蚁零碎在极限申请量下的高可用和资金平安。

因业务倒退须要,亟需大数据分析、监控业务域等相干畛域的同学。

职位形容:
1、负责蚂蚁金服智能监控、性能容量、危险数据基础设施的研发建设,包含需要调研,系统分析设计,外围模块实现,调优与保护。

2、主导核心技术问题攻关,解决世界级的分布式解决难题,辨认和解决潜在的技术危险。

3、对平台本身稳固系和零碎品质负责,保障系统运行可用率和数据品质相干掂量指标。

4、参加蚂蚁双十一等大型流动,通过平台能力保障整体蚂蚁零碎在极限申请量下的高可用和资金平安。

5、继续对接平台上各类技术危险防控业务方和防控零碎,满足一直倒退的业务需要。

职位要求:
1、有强烈的技术激情,工作责任感;计算机软件或相干业余,本科或以上学历;

2、有翻新精力,乐于和热于技术钻研。思维谨严,逻辑清晰,具备批判性思维能力和习惯;

3、具备扎实的计算机专业根底,包含算法和数据结构、操作系统、计算机体系结构、计算机网络、数据库等;

4、具备扎实的 Java/C/C++/Rust/Go 等语言根底,良好的编程素养,对代码美感有谋求,至多相熟一种关系型数据库如 Oracle、Mysql 等;

5、具备出名互联网企业高可用教训,具备实时计算(Spark/Flink/Storm)或海量数据处理(Hadoop/HBase/Hive)相干教训优先思考;

6、有很强的剖析简单问题和解决简单问题的能力,有强烈的责任心和使命感。

简历请投递至:techrisk-platform-hire@list.alibaba-inc.com

正文完
 0