关于数据库:从-Google-删库到蚂蚁跑路Care-与-Fear-点燃的-Flare

32次阅读

共计 4253 个字符,预计需要花费 11 分钟才能阅读完成。

Bytebase 第一次实现融资后写了一篇文章,次要讲了从行业层面做 Bytebase 的逻辑。一年过来了,这一年咱们所处的开源 /infra/ 数据库 / 企业服务赛道从热点归于平静,尤其在国内,又习惯性地反馈适度,间接降到冰点。但从寰球来看,整体行业其实是在持续减速倒退的,年初咱们的一篇「苍狼白鹿,星霜几度|万字长文回顾 2022 年数据库行业」在中英文渠道都取得了不少的关注,而明天这篇文章想讲一段集体的经验,回到做 Bytebase 的初心。Enjoy。

注释

2015 年某一天下午,Google 加州山景城总部 CL2 一楼,Google 云数据库工程团队所在地。彼时一个工程师正盯着屏幕,校对着一组亟待修复的数据库实例,筹备采取下一步口头。「啪」,沐浴在加州阳光下的金手指敲下了按键,指令立马顺着 Google 盘根错节的网络,横穿大半个美国,飞奔到了千里之外的爱荷华数据中心。眼看着待办工作上又划掉了一项,工程师习惯性地往后靠了靠座椅。只是紧接着几秒之后,就看到他把头伸到了屏幕前,双眼瞪大,紧盯着眼前的文字:

Instance XXX has been successfully deleted.

升迁,跳槽,转行,这些都能够作为职业生涯的宰割点。而对我来说,一个重要的宰割点,就是 2015 年这个敲下指令的霎时,因为在这一刻,我也可怜毕业,退出了误删过生产数据库的大军。多年当前,我仍然能很清晰地回顾出之后的每一个口头细节,先是后背立马冒出冷汗,僵滞了几十秒的工夫,脑海疾速检索各种急救计划,无果之后,从工位起身,走到 TL 旁边,强装镇定地通知对方本人刚误删了数据库。TL 深思了片刻,而后说到,这个是有版本治理的,能够尝试复原一下?我被一下子点醒,慌乱之中,竟然忘了这套当年 Google 云开创团队写的基于 Bigtable 上的 Megastore 上的 VFS,存储性能尽管蹩脚,然而实现了强悍的增量变更和版本化,所以撤销误删数据库,只有一个简略的版本回退,相当容易。

劫后余生后,可能伤疤也是兵士的功勋章,我承当起了更多治理数据库的职责,再加上业务自身的倒退,万级,十万级,始终到 2018 年来到 Google 的时候,我负责的曾经是寰球首屈一指体量的数据库实例集群。而接下来的一站,则是回到中国,退出过后如日中天的蚂蚁金服,也连续我在 Google 的数据库老本行,负责蚂蚁外部的数据库平台。蚂蚁的数据库平台业务次要分为三块,一个是面向 DBA 的运维治理平台,一个是面向业务研发和 DBA 协同的开发者平台,还有一个是做数据库诊断的智能平台。通过这几个平台,收拢了所有蚂蚁外部开发者和 DBA 们对数据库的变更和运维操作。

尽管本人不再像在 Google 那样,在一线操作数据库,但压力却又高了一个数量级。毕竟负责的平台要保驾护航的,是那些撑持着支付宝,余额宝,花呗这些国民级利用的外围数据库。一开始退出时,团队同学先给我这个外来和尚科普了下国内等保的概念,而后指着屏幕上的数据库列表通知我,看,这几个都是最高等保级别的,肯定要好好看着,可都是能要了公司命的!到起初慢慢和大家混熟后,他们再给我讲当年出了重大的数据库事变后,7×24 连轴转,享受着全程被所有总裁们站在身后围观的待遇。

置身于这样的环境中,偶然我也会产生一种仿佛能手握着一家千亿美金估值公司命根子的错觉,但下一秒马上被钉钉里的告警告诉拉回打工人的事实。蚂蚁的技术水位整体比不上 Google,但这套外部的数据库平台,有些方面却还是当先的(最近不又中了一篇 SIGMOD)。毕竟业务场景是工具平台最好的试炼,蚂蚁撑持的业务事关民生,金融,保险,蚂蚁在业务层面的创新力也强于 Google。数据库平台团队,每天就在被各种变态的业务场景践踏中走向成熟。但饶是如此,身为局中人,本人当然也晓得平台自身的各种不欠缺。记得有一次线上 P1 故障,就是因为一个危险操作按钮,没有加二次确认,导致了 DBA 的误操作。蚂蚁外部的故障是要定责的,定责又是和绩效挂钩的。所以到了故障复盘会那天,业务方和数据库团队坐在一起,后面的根本都是铺垫,最初定责的那一刻才是低潮,开始相互甩锅。但锅总有甩不掉的时候,我在数据库团队呆了一年,而这一年里背的故障,比我其余整个职业生涯加起来的还要多。但当我辞别团队的时候,却还是由衷地感激大家,没有提前终结我在蚂蚁的生涯。

数据库团队之后,我被调去了开发者工具部门,起初又去了生产力协同平台。不同部门有各自的精彩和挑战,但在数据库团队时的压力无疑是最大的。在微小的压力背后,会暴露出更实在的兽性,有些是负面的,但也有不少的善意。比方咱们和业务团队掰扯故障定责败了,就把故障带回到数据库团队外部消化。到了外部所有还是好磋商的,DBA,平台,引擎这几块的主管在一起,盘一下身上曾经背的故障,再联合往年团队的状况,匀一下。蚂蚁的技术在整个业界其实还是挺当先的,然而蚂蚁的业务总又是走在技术的后面,许多时候都是没条件先硬上。所以故障分完,马上大家都还是要背靠背去支援前线的业务。这样一年下来,数据库团队背的故障数总是遥遥领先。到了这里,就又体现了老板们的治理智慧,因为还是会给数据库团队一些关照,如果真的依照故障数打绩效,那数据库团队根本就年年认领 3.25 了。

其实后面提到和业务团队开复盘会的相互甩锅也是调侃,身为平台技术团队的咱们也晓得,本人一开始 YY 进去的轮子都是方的,业务团队都是硬着头皮开着方轮子的车,踏上征途,再在旅程中一点点把轮子磨圆。一路平稳,不断抛锚,偶然翻车,但大家一边骂骂咧咧,一边还是一起把车扶起来,持续赶路。有人问我,国内做 infra 有什么劣势,能想到的还是那服基建狂魔的祖传药方,场景多,人心齐,脑子活,干劲足。

没有圆模子的车间只能生产方的轮子,那就一边赶路一边把轮子磨圆,越磨越圆,尽情向前。

团队间日常撕的虽狠,但一起扛过了一场场硬仗,发现最终积淀下的还是战友般的信赖。大家团结一心,致力工作,为本人,为家庭,也为世界带来更多渺小而美妙的扭转。支付宝,支托付,蚂蚁对内对外最强调的都是信赖二字。的确只有信赖的招牌不倒,队伍就能从新集结,业务一时被锤,也有重整的一天。

尽管我负责的业务没有被捶,但起初我还是从蚂蚁跑路了,因为本人想要做一款工具,就是 Bytebase。始终说做产品要从本身的痛点登程,光这点,Bytebase 是完满合乎的。Bytebase 是一款面向研发和 DBA 协同的数据库开发者工具,放眼整个业界,这也是一个新品类,因为是我从蚂蚁三段跨界经验,数据库,开发者工具,生产力协同中提炼进去的。但说到底这还是一个数据库畛域专业性很强的工具,而设计内核基于的是在 Google 以及蚂蚁数据库团队经验的痛点。

把这个设计内核掰开来看就是两半, 一半是 Care,一半是 Fear

Care 的局部,在于我看到凡是要和数据库打交道的一线同学,无论是业务研发还是 DBA,都有点像部队里扫雷的工兵,工作危险高,但部队要推动,又不得不做。Google,蚂蚁的工兵配备倒是挺欠缺了,尽管也是险象丛生,但踩雷了还能幸存。但其余公司,扫雷的工作还是要做,可是又没有根本的作业配备,那我心愿 Bytebase 就能成为他们的出门配备,帮忙他们高效平安地作业。
Fear 的局部,在于我身为技术负责人,也胆怯数据库误操作导致的毁灭性打击。我在 Google 算是逃过一劫,然而每当想起,我还是会后怕,假如那个数据库真的被删掉无奈复原了,对于我本人,我的主管,整个产品甚至公司品牌会带来多大的负面影响。在蚂蚁数据库团队,所幸团队给力,否则也有可能因为数据库误操作引发公共事件,而我作为主管,也很可能要承担责任,被扫地出门。有教训的技术负责人肯定是心愿尽量对立数据库操作入口,数据库标准和操作变更流程的,以防止诸如 #删库跑路 导致的团灭。所以对于技术负责人,我也心愿 Bytebase 能成为落地他们这些想法的工具。

而说到 #删库跑路,它之所以能成为梗甚至破圈,也是因为它能先在宽广程序员群体产生共情,因为有教训的程序员都晓得带上 #删库跑路的徽章是一个概率事件,要做的就是如何把这个危险降到尽可能的低:

  • 集体养成良好的操作习惯,升高 20% 概率
  • 公司建设标准化的操作流程及培训体系,升高 20% 概率
  • 技术架构简略,升高 20% 概率
  • 文档清晰,升高 20% 概率

而通过引入业余的数据库开发工具,把理念和流程通过工具进行承载,缩小甚至完全避免手工间接操作数据库的机会,则又能升高至多 50% 的概率。

而说到引入工具,我在蚂蚁的平台部门,无论是做数据库工具,开发者工具还是协同工具,当把新工具推广到业务线的时候,总是会迎来反弹。一线的业务研发总会感觉,火线业务曾经忙不过来了,平台部门又在搞什么幺蛾子来卡咱们。事实中,许多被引入的平台工具的确是只器重了管控,但疏忽了一线的应用感触,反而连累了整体的生产力。
所以当咱们在设计 Bytebase 的时候,最外围的工作是去做地方管控和业务线灵便度之间的均衡。用户引入 Bytebase 的目标是心愿进步全局的总生产力,所以管控 / 流程这些都是须要的,但不同公司达到最高生产力的控制点是不一样的,所以 Bytebase 也留了肯定的调节空间,让不同公司能够做不同的配置。

同行还有投资人常会问我 2 个问题

  • Bytebase 这个场景很窄,为什么选了它 – 这个问题,压服有难度,因为没有类似的经验能够共情。Bytebase 的初心,既始于我带着一线研发帽子的 care,也源自我换成技术主管帽子的 fear,两者交错起来,点燃了心田激动的 flare。
  • Bytebase 这个货色国外没有对标,为什么你们能做 – 这个问题,我其实也恶感答复。因为对方间接上来假如了 infra 类工具只有国外团队能够无中生有,却疏忽了咱们团队已被国内外最严苛场景千锤百炼的事实。

限度中国 infra 团队走向寰球的往往不是主观的条件,而是主观的偏见。

从 Google 删库,到蚂蚁跑路,这一串的经验不仅赋予了我设计 Bytebase 的思路,也给了我足够的底气。因为我晓得整个数据库开发工具畛域目前的下限在哪里,Google 也不是在所有中央做的都是最好的,蚂蚁和阿里也有不少走在业界的最前沿。

而中西合璧的 Bytebase 还能把整个畛域带到一个新的高度,帮忙寰球不同的团队在他们各自的倒 V 型曲线上,找到数据库开发生产力的最高点。

Stay young, be simple, sometimes naive.


💡 你能够拜访官网:https://www.bytebase.com/,收费注册云账号,立刻体验 Bytebase。

正文完
 0