关于阿里云:独家专访阿里云存储负责人吴结生我经历的三个重大决策

52次阅读

共计 7440 个字符,预计需要花费 19 分钟才能阅读完成。

简介:云原生正在从新定义存储,而存储只是根底软件畛域中的一环。本期 C 位面对面,咱们有幸邀请到了阿里巴巴高级研究员,阿里云智能存储负责人吴结生(Jason Wu),他亲历了阿里云存储技术高速倒退的 8 年,此次,他将与 InfoQ 独特解读存储技术的当初与将来,以及他自己在职业生涯中面临的一些抉择和个人成长感悟。

深耕根底二十年

回顾 IT 技术倒退历史,其每一个期间都有不同的焦点,往回推 30 年是高性能计算,推 20 年是搜寻,推 10 年是云计算。先后在中科院计算研究所做超算,在 ASK.com 做搜寻,在微软和阿里云做云存储的 Jason 自认为是一个职业抉择上的幸运儿——高性能计算、搜寻、云计算这三个关键技术的倒退,他都未曾缺席。“到前面的话,AI 和机器学习可能是另外一个新的技术倒退点。”当初的 Jason 又成为了 AI 和机器学习的乙方,他所负责的存储产品,正撑持着大数据分析、AI、机器学习、主动驾驶等新型负载。

Jason 在 2008 年退出微软 Azure 团队,参加了 Azure 代码的编写,包含后续的运维和线上故障排查工作。“因为我不是最早的那一波,所以只能算是参加了 Azure 从 0.2 到 1 的过程,最早的那波 2007 年就在团队里了。我感觉那几年我还是十分侥幸的,可能在晚期阶段参加到这样一个大的产品和技术体系的演进中。”

“我记得 2012 年的时候,我来阿里云这边面试,王坚院士问我说,你在 Azure 做了 4 年,你感觉你最大的成就是什么呢?我过后也没有怎么想,就说本人最大的成就是让这个零碎变得更加稳固了一些。原来我可能一周要工作 7 天,每次进来的时候都要带着电脑一起,有时候可能开车开到半路就得找个星巴克去排查问题。2008 年到 2011 年这种状况很多,到 2012 年咱们零碎基本上就稳固了,这种状况就变少了,能够变成(一周工作)说可能是 6 天或者 5 天,本人进来要带上电脑去排查问题的次数变得少一些了。”

“起初据说博士对我这个答复还是很称心的,说在零碎的初期阶段的确有很多问题要解决,有很多坑要填。”

然而,拿到 Offer 的 Jason 并没有抉择立刻退出阿里云。“因为过后给我 Offer 的时候,有两个抉择,一个是回到杭州,另外一个是让我回到硅谷,阿里云在硅谷有一支研发团队,想让我去带那个团队。”但他更偏向于留在西雅图。因而,直到 2014 年阿里在西雅图设立了 Office,犹豫了两年的 Jason 才接过这个橄榄枝,不过,最初让他做下决定的,还是因为看到了云计算在中国的前景。他认为,相较于芯片、操作系统,云计算是一个很适宜中国做并且能做得比拟好的技术。

“然而明天我的意识产生了一些扭转,其实芯片这个事件咱们也能够搞一搞,像操作系统,阿里云也在做本人的操作系统。随着咱们深刻到芯片和操作系统畛域,其实它能够把全栈站的买通做得更好。”

在阿里云的经验:三个重大决策和教训

从 2014 年到 2022 年,Jason 曾经和阿里云走过 8 年的工夫,成为了阿里云存储负责人。在这个过程中,他参加过许多重要的决策,也取得了许多教训和教训,接下来,他将跟咱们分享三个小故事。

2015 年最重大的决策,派最精英的人去写 SDK

飞天零碎如雷贯耳,但 2015 年的时候,阿里云对象存储的业务倒退并不如意。
“咱们都认为本人的分布式系统很牛,咱们的飞天操作系统很牛,咱们的盘古很牛,咱们的产品也就很牛,而后咱们就推理进去说,因为咱们有很牛的产品,咱们的客户必定会很喜爱来用。”

然而理论状况并非如此,那么,起因到底是什么?

“咱们发现,咱们后端是很很牛,然而咱们跟客户交互的那些货色的确做得不好,SDK 也不是很好,用户体验也就不怎么好。”

“举个例子,你可能花了一个月工夫在前面做了一个优化,让整个零碎的性能进步了 50%,但可能就因为 SDK 外面某一段写得不那么好的代码,客户就有可能是拿不到这 50% 的(优化)。而咱们后端这些做分布式系统的精英程序员领会不到这一点。”

所以,离客户最近的那一段的路须要十分好,这是阿里云存储团队在 2015 年取得的最大的一个教训。“就如同某个人有一个豪宅,但进去的路遍布荆棘的话,其实大家进去的机会也就少了,所以你必须要把这些路给修好,对不对?像咱们的 SDK,咱们的控制台,这些货色实际上就是这些路。”

痛定思痛,阿里云存储团队在年底做出了 2015 年最大的一个决策——派最精英的人去写 SDK,重点关注控制台的构建和响应工夫,以及 NPS,即客户愿不愿意把购买的产品举荐给其余敌人。“咱们把最精英的同学放在那个畛域去工作,让 SDK 和控制台真正可能让客户能感触到易用、高性能,而后咱们在这些细节方面做得更好,起初咱们的业务也就起来了。”

如果你也是一位开发者,还是一位后端同学,这个故事应该对你有所启发。从全链路角度登程,做好每一个细节,能力保障后端的优越可能被客户真正享受到。

2019 年 3 月,阿里云存储团队的至暗时刻

2019 年 3 月份,阿里云存储团队外部的至暗时刻。一个月内,阿里云产生了两起重大故障,一次是块存储 EBCS 在华北 2 地区可用区 C 呈现了一个重大故障,导致服务中断几个小时,造成多个 App 和网站瘫痪。紧接着一周之后,阿里云对象存储 OSS 也产生了一次 P1 级的故障。

那一时刻,Jason 真正地意识到了什么叫“根底不牢,地动山摇”,一旦基础设施底座呈现了问题,将给下层客户带来微小影响。“咱们须要把零碎做得更稳固,把咱们的服务质量,把咱们的快速反应能力,把咱们的故障恢复能力晋升到新的高度。客户把身家性命都放到了阿里云下面,咱们必定要通过技术和服务给他提供一个永不宕机的零碎,这是咱们的责任。”

哪怕是 3 年后的明天,整个阿里云存储团队都对这个月份历历在目。他们甚至会重复将这些案例通知新来的同学,通知他们,敬畏本人的每一行代码,每一个操作。

2020 年,搜寻举荐广告全面上云

现在,阿里巴巴团体业务,尤其是搜寻举荐广告(搜推广)业务的全面上云,对整个阿里云特地是存储团队来说意义非常重大。

当初在做阿里云的时候,王坚院士有一个指标幻想,就是阿里云能反对多个搜索引擎,不仅包含阿里本人的搜寻推广业务,也心愿内部的搜寻公司也能架构到阿里云下面,这意味着,云平台须要具备相应的能力去撑持搜寻这个技术简单沉重的业务。“实际上,搜寻推广上云的过程有点波折,咱们从上云到下云再到上云,通过 12 年的倒退才走到这一步,但最初咱们在 20201 年证实这个货色是成立的,而且咱们曾经全副上云了,所以这也是在整个存储技术的倒退外面十分可喜的一个成就。”

以后存储面临的挑战和乏味的发现

以后的存储技术曾经取得了长足的倒退,但一些技术趋势会带来一些新的挑战,须要通过全链路设计和架构的重构解决问题。

首先是稳定性,这一挑战长期存在。过来,零碎的可用性可能 3 个 9 就够了,但现在它曾经进步到了 4 个 9、5 个 9,咱们还不仅仅满足于此,冀望能达到更优的稳定性指标。因为新设施的引入,新业务、新负载、新技术的一直面世,整个零碎的架构都在产生着变动,对底层有了更高的要求。比方云原生带来了疾速弹性的拉取,在没有本地存储内存减速的状况下,底层将受到微小的冲击。

换句话说,磁盘的物理能力是否能完满反对存储虚拟化的技术?

“尽管明天的磁盘容量曾经变得很大,但如果把性能跟容量相除,你会发现一个乏味的景象,磁盘的单位容量上的性能实际上是在往降落的。”

Jason 给咱们举了一个例子:“比方,原来大家可能用的是 4T 的磁盘,几年前,它变成了 8T,当初它可能是 20T。而 HDD 磁盘的其余维度的指标基本上是恒定的,IOPS 大略在 120~150 左右,带宽大略在 150~200M 左右。但磁盘的容量从 4T 到了 20T,曾经减少了 4 倍,但它另外两个维度的指标都没有变动,所以你如果把这些性能指标除以容量的话,你就会发现整个曲线是往下走的。”

如果把一块 20T 的盘通过资源的复用以及云技术,用多租户的形式分享给更多的用户,会产生什么?

“一块 20T 的磁盘,我给每个客户 4T,这样就相当于 5 个 4T 的盘,但我每个客户都心愿本人能享受到 120~150 的 IOPS。但实际上这个盘的物理能力没方法撑持这样的存储虚拟化的 1 变 5 的能力的,所以明天对咱们来讲这是一个很大的技术上的挑战,咱们须要去解决。”

多租户的状况下还有资源性能隔离的需要,如何做好互不烦扰的能力,如何把硬件的能力全副应用进去,如何降低成本,这都是存储畛域的经典问题,只不过在明天这样大规模的云环境上面,所有的问题都被放大。

阿里云存储的进化方向

面对以上挑战,阿里云存储团队接下来的发力方向是什么?除了进一步提高零碎可用性,Jason 走漏,他们将面向数据湖、机器学习、AI、主动驾驶、搜寻推广等新型负载进化,一是对外公布一个更高速的基于盘古的分布式文件系统,该零碎目前服务于阿里团体外部的搜寻推广业务。二是持续做好并行文件系统 CPFS,其在 AI 计算和主动驾驶场景都有落地利用。值得一提的是,阿里云自研的分布式存储系统“盘古”去年入选了世界互联网当先科技成果。另外,他们还将联结阿里云其余产品,给客户提供优质的数据管理和数据治理能力。并且聚焦高性能网络,自研网卡和磁盘,网络、磁盘和服务器之间的软硬一体设计的继续演进。

“其实咱们在将来有两个主战场,一是向下做深根底,在芯片磁盘、网络和服务器设计方面不断创新,寻找全栈多点技术交融的机会,二是面向用户做产品设计。举个例子,阿里云、AWS 过往在做 EBS 产品设计的时候,每一块盘都给一个固定的性能指标,如果用户要变更到另一个性能指标,就要进行变配操作,用时长达几分钟甚至十几分钟,非常影响用户体验。因而,阿里云从新设计后推出了 ESSD Auto PL,即在设定的底线之上,能够进行无级变速;,也就是说,用户依据本身的业务需要,能够自在回升和回落,不必再去过多思考容量资源的调配。这个设计对产品和研发来说是一件极具挑战的事件,但也印证了阿里云本身的文化主张,把简单留给本人,把简略交给他人。”

个人成长漫谈

在技术之外,Jason 也给咱们分享了他本身的一些小故事。

1. 谈工夫治理

因为在西雅图、硅谷和国内都有团队,Jason 须要频繁往返于国内和西雅图之间,疫情之前,Jason 每年回来 4、5 次,每次呆 1 个月工夫,而在疫情之后,频率就变成了每年回国一次,呆 3、4 个月。

咱们很好奇,在这样的状况下,Jason 这样的大咖是如何做工夫治理,怎么去高效工作的。Jason 示意,本人也是程序员出身,起初才做的管理工作。在做程序员的时候,工夫绝对间断集中,除了本人写代码和调试代码的工夫,最多须要加入一些设计测试,但在做了治理当前,一个最显著的变动就是会议的增多,有一些必须加入的重要会议。此外,还有一些在日历上显示不进去的工夫开销,比方要花更多的工夫跟团队的同学交换,以及跨团队的沟通。“我当初给本人定了一个小指标,每个月至多要跟 5 个不是间接向我汇报的同学沟通,这样的话,你能够理解他们的一些想法,也能理解这个团队。”

“其实还有一部分能够补充,你要花很多的精力去为团队或者为整个畛域去寻找一些气味相投的人,要花工夫去跟他沟通,给他讲你们的想法,期待适合的机会,让他们退出你的团队。”

2. 谈压力

在忙碌的工作中,Jason 面临着许多压力,最次要的压力还是来自于怎么保障系统的稳定性,给客户提供一个稳固牢靠的运行状态。这一点看起来很简略,实现起来却十分难,特地是在超大规模的分布式系统外面。“当零碎呈现抖动或者小故障,各种不可预测的状况产生,客户的业务可能受损,咱们怎么样可能疾速复原零碎,对客户的影响降到最低点。很多时候咱们是在跟工夫赛跑,这是我当下最大的压力。”

当谈到是否有 KPI 的时候,Jason 说本人的 KPI 非常简单——零碎没有 P1 故障,永远在线,客户的数据在阿里云上不丢不错。

“根底不牢,地动山摇”,在交谈中,Jason 屡次提到这句话。

3. 谈解压

Jason 会从身材和心态两个方面去缓解本人的压力。平时,他喜爱一些体育运动,比方足球。在西雅图,他一周会踢两次,个别都是早晨踢,周五早晨正好是国内的周六凌晨,能够错开工夫。随着球龄的增长,他在球队的地位一直后移,除了守门员,从前锋到中后卫都踢过。“这一块可能让本人的身材状态比拟好,也能够应酬更多压力,至多你得有一个好的身材去熬夜排查问题。”

在心态上,Jason 倡议用倒退的眼光对待问题,当故障产生的时候,不是第一工夫去指责人,而是去优化零碎、流程、团队合作,等等,防止下一次故障的产生。,而后触类旁通,排查其余模块和零碎里是否有相似的破绽以便改良。Jason 曾通知本人的团队,“一个弱小的产品,或者一个十分弱小的零碎,它很多时候是随着故障而成长起来的。”

零碎是在犯错中成长的,人也是。

“然而每一次故障对客户产生了的影响,咱们也是十分心痛的,咱们感觉这些事件其实能够做得更好,所以在这样一个一直绝对螺旋回升的过程中,咱们让整个零碎可能达到咱们想要的那种永不停机的状态,我感觉这种心态还是是对咱们缓解压力还是有帮忙的。”

4. 谈学习

在工作之余,Jason 也会给本人安顿一些学习工夫,关注 USENIX、OSDPI、SOSP 等顶级会议上发表了哪些 Paper,Facebook(当初叫 Meta)、Twitter、Amazon 和 Google 等公司发了哪些工程方面的 Blog。“InfoQ 的很多文章我也看,还有极客工夫,我感觉 InfoQ 还是一个十分好的社区、IT 技术交流中心。有时候,我也会去看一些知乎上的问答,我感觉也是十分不错的。”

从国际性的顶级会议的确中能够找到一些前沿技术趋势,甚至能看到国家翻新的聚焦点。咱们也看到了一个踊跃的景象,目前,国内有许多老师和研究生,包含阿里在内的企业,在这些顶级会议上发表的高水平文章越来越多,这也反映出我国的钻研程度的回升。

据理解,阿里间断赞助了多届存储畛域优秀论文的宣讲,Jason 通知咱们,尽管奏效迟缓,然而学术研究相对是值得长期投入的,因为在很多时候,一种实践的冲破才会让整个行业有更大的倒退。达摩院的建设就是阿里在中长期技术钻研上的投入,而阿里云存储团队自身也在做一些技术预研方面的工作,每年都会与多家高校单干,招收实习生,一方面心愿给高校学生提供一个业界实在的工作环境,同时也心愿通过一些联结钻研我的项目,让高校师生更深刻地理解工业界,掂量解决问题的计划。达摩院这样的机构或者组织越多,对工业界的冲破越无利。

5. 谈成就感

Jason 认为,做工程师和做治理,从成就感的水平上看可能差不多,但感触到的形式不太一样。做工程师的成就感,来自于零碎上线且稳固运行,服务了很多客户。而做管理者,更多是来自于团队倒退,你看到团队的同学成长起来了。因为负责存储业务线,他还有一个成就感来自于客户的反馈,“客户感觉这个货色很好,我还想举荐给其他人用,我的这种成就感就会更多一些。”

6. 谈抉择

在谈到过往的重大抉择的时候,Jason 通知咱们,本人也有一些迷茫的时刻,但不多。“其实很多时候你就像一个天平外面,只有在哪一边加一根稻草,就可能把你的迷茫给突破了。”

说到这里,Jason 给咱们讲了本人换工作的故事。他博士毕业后的第一份工作在 ASK,Base 阳光灿烂的硅谷,如果要去微软,就要搬到雨水和阴天都很多的西雅图,所以他有些犹豫。但一想到西雅图的房价比硅谷的房价要至多低一半,“我找到了一些心理上的均衡。”

7. 谈指标

在工作上的指标,Jason 给本人制订了 OKR,其中有一个 O 是没有 P1 故障,以及一些很巨大的指标。“咱们有些指标是实打实要实现的,有些指标就是一个牵引。”

Jason 坦言,本人的集体指标其实也有一些没有实现,2021 年,他给本人定了一个跑完 365 迈的指标,但最初大略只跑了 100 迈。

“我原来说每个月至多要跟 5 位不是汇报给我的同学沟通,我感觉这个也没有实现得那么好,大略实现了 60~70%,也就是说可能均匀下来每个月也就 3~4 位同学没到 5 位。”

团队倒退尤其是海内团队建设方面的指标,Jason 认为也没有特地达标,一方面是因为疫情影响,一方面是因为当下的技术趋势,整个海内人才市场竞争十分强烈。

2022 年,Jason 心愿疫情能逐步完结,争取多回国一些工夫,此外,他也心愿多减少一些和家人去休假的工夫。

8. 谈成长

2022 年,极客邦的主题是“无限生长”,Jason 别离从个人成长、技术成长、非技术成长三个维度来解读了这个词。

他认为,不论是在遇到不善于的事件的时候,可能被动担当;,还是从各种各样的反馈中,拿到有用的货色,让本人变得更好;,又或是不局限于现有的思路,做产品翻新,给客户带来更多价值,这都是无限生长。这和阿里外部推崇的“突破边界”有殊途同归之意。“从单干的角度来看,如果你做了一个货色,你不仅能本人用,还能推广给他人,让其余产品或者团队应用,让你的模块或者代码施展的价值更大。”

“其实你如果去看那些成熟的技术的倒退,整个团队实际上你都能够认为是在攀不同的顶峰,就像咱们做 ESSDC 这样一款产品,咱们是业界第一个提出来做 100 us(微秒)提早个 Microsecond 的块存储团队,并且还立下了 100 万 IOPS 的指标,2018 年,咱们公布了 ESSDC,咱们把这个指标达到了,到目前咱们也始终处在性能当先的位置。往年咱们又给本人定了一个指标,提早要做到 80,咱们还有一款新产品能够做到 30。”

这种对技术的谋求,也在激励着开发者们突破现状,做出翻新,让本人跟着业界技术趋势去成长,把技术指标变成产品,让产品更加具备竞争力,服务好更多的客户,无限生长也体现在这里。

非技术方面的成长,则包含如何做项目管理、跟团队沟通、进步团队单干能力,将本人变成团队战斗力晋升的驱动力。“咱们在阿里云这边常常会讲一句话,就是要一起拼、一起赢。我感觉咱们包含我的团队,或者包含阿里云的文化,技术文化或者组织文化,其实都跟无限生长十分符合。”

结束语

咱们从交谈中发现,Jason 是一位十分奢侈的工程师,正如千千万万在根底软件畛域默默坚守的从业者,他们的致力灌注出一代又一代松软的底层基础设施,成为下层业务的强有力撑持,让企业在数字化转型浪潮中迎接未知的挑战。

他的成长经验也印证了咱们的观点——底层未必不能做到顶层,国产根底软件畛域大有可为。而长期以来,根底软件都是 InfoQ 重点关注的畛域,越深刻越能看见国产根底软件背地的微小价值,这也是 DIVE 寰球根底软件翻新大会诞生的初衷。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0