深入探访支付宝双11十年路,技术凿穿焦虑与想象极限

42次阅读

共计 8658 个字符,预计需要花费 22 分钟才能阅读完成。

摘要:支付宝与欲望、想象力的博弈乃至搏斗,10 年来不曾停歇。
小蚂蚁说:
双 11 十年间,交易规模的指数级增长不断挑战人们的想象力,而对蚂蚁技术团队来说,这不仅是一场消费盛宴,而是无数次濒临压力和焦虑极限的体验,更是技术的练兵场。如今双 11 对蚂蚁金服而言,已经绝不仅限于一个技术项目,而更像是一个社会化工程,可以叫做「连贯的,社会化的技术大协作」。

支付宝团队不正像那尊红漆雕塑一样?
一面对技术保持着敬畏、谦逊,一面又不得不玩命狂奔。
「双 11」就在眼下了,但蚂蚁金服的新园区里气氛明朗,人群也没往年那么匆忙。
进园区时,出租车司机左手扶稳方向盘,右手比划着说,秋天是杭州最好的季节,当然啦,春天也不赖。阳光猛烈,洒在园区的楼群上,映得金栗色玻璃深邃又清亮。
这座新园区里尚有很多事不为人所熟知。
每 3 分钟会有 1 人在 2 号楼门口左手边垃圾桶上捻灭烟头,吱呀作响;访客大厅的姑娘每天用胖大海跟人参片泡 4 壶茶,12 个玻璃杯倒扣,杯子把统一偏右 30 度;园区身着橙色外套的保洁员不间歇地扫落叶,她们每天工作 8 小时,3 班倒,总在推车上预备 3 个喷壶,以及 1 个保温杯;每个花坛里,通常能用竹质夹子够出三个烟头或纸片。
这里的秋天昼夜温差只有 6 摄氏度,但早晚都有人衣着单薄;穿冲锋衣的外卖员打手机时,话筒离开嘴边 20 公分,嗓门平均 70 分贝;下午时分,很多餐馆的员工们蹲在门口抽烟,只有星巴克客流不断,这里的大蛋糕与迷你蛋糕预定时间都是 3 天,收银员也偶尔会用墨色水笔给姓董的先生标注 Mr Wang;员工餐厅每天分四次供餐,楼群间额外排列着 18 家餐饮门店。
楼内有超过 1000 平米的免费健身房,私教价格仅为外边的一半,穿耐克跑鞋的姑娘每天会带着她的柯基犬来同时使用两台跑步机,尽管她的身型已没什么可挑剔。
当你在下沉广场跟第四个人搭话后,套着夹克衫的保安会盯着看,在你发毛之前问及身份,噢,是记者,别介意,履行职责嘛。
这是造价超过 11 亿元,面积 18 万平方米的蚂蚁金服新总部,设施功能齐全,堪堪媲美小型城镇,是 NBBJ 建筑事务所的手笔,也被叫做「蚂蚁 Z 空间」。
功能强大的综合体建筑容纳了这里的杭州人与新杭州人,注视着他们的每一单生意,每一次创新,这里承载上万人的财富与梦想,也记录着每个个体的骄傲与焦虑。
双 11 十年间,交易规模的指数级增长不断挑战人们的想象力,而急速扩张背后,对技术团队来说,是无数次濒临压力和焦虑极限的体验。
想象力和焦虑最初给蚂蚁金服技术团队结出了一张网,又织就成细密厚实的茧壳。从 2010 年开始的三四年里,人们总会在双 11 的消费前端感受到一些使用体验的卡顿、不舒适,而内里则是这批工程师与欲望、想象力的博弈乃至搏斗,并在很多个逼近焦虑极限的瞬间,不断打破桎梏。

「为了几十秒,值吗?」
杭州入秋的早晨,凉得很,黄勇(花名展一)起个大早,跟几位同事结伴跑了趟灵隐寺。这千年古刹在深山,向来香火旺盛。这几年,寺庙时兴环保,免费发清香,他请了三炷,点上,拜拜。采访时,我问拜的哪位菩萨,黄勇皱皱眉头,乐了,「还真不认识」。
烧香的心可是诚的,况且,来许愿的人,没几个比他的愿望还大,作为今年双 11 支付保障 PM(项目经理),他得事无巨细地操办这个事关几亿人的项目。
每逢双 11,蚂蚁金服的项目组成员们总要供上关二爷,穿上红内裤,换上红战袍,存几瓶红酒,烧几炉香。按支付宝双 11 保障团团长陈亮(花名俊义,技术风险部研究员)的话来说,这是对技术的敬畏。
可事实上,要敬畏的绝不仅仅是技术这一件事,双 11 作为枝节空前庞杂的项目,每个事物的细节上都有无数个随机的可能性,早已超出了人能控制的边界。黄勇能做的就是制定「容灾」机制,尽力去逼近那个不可能到达的「确定性」。举个例子来说,在采访当天,黄勇刚刚给所有 11 月 10 号晚上要进光明顶(支付宝双 11 作战室)的成员发了邮件,仔细交代了「如果当晚茶杯在电脑上打翻了怎么办」这个主题。
2012 年,负责支付宝双 11 项目的 PM 同事从西安请回一尊皮影关公像,大伙觉得新鲜,纷纷敬上香烟、酸奶跟水果。自打那会开始,每逢重要的项目启动,总有人提前往公司请关二爷。创业邦这次拜访蚂蚁金服时,作战室里就供着一尊二爷铜像,该上的供也早都摆上了。请二爷似乎也开始带来好运,那位请铜像的同学,前年双 11 还在公司里抽到一次大奖。
某年双 11,马云带几位合作伙伴在西溪园区参观,登上光明顶(支付宝双 11 作战室)的时候,一位女性投资人吃惊地问,你们工程师居然时兴拜关公?俊义就笑,还是那个说辞,敬畏。
信仰也好,敬畏也罢,双 11 显然都值得。十年里,从最初几乎不太被人感知的促销活动,由欲望、情绪、责任感和创造力混合驱动着增长,长成一个不断突破想象力极限的庞然大物。
2009 年,首届双 11 购物节的单日成交额是 5000 多万元,一个对比是,当年支付宝的日交易额最高突破了 12 亿元。「记得有几十个品牌参与,当时对它的感觉就是,淘宝做了个活动」,支付宝事业群总裁倪行军(花名苗人凤)回忆称。但他没有预料到,所有人都没预料到,从第二年,双 11 就开始刷新所有人的想象力上限,如今回头端详增长曲线,它在某些年份里维持着数字量级的增速,那线条着实显得陡峭,但想想吧,处在那个当下,未知和增长给人们心理带来的是更加强烈的冲击感。
在蚂蚁金服 CTO 程立(花名鲁肃)的记忆里,2010 年之后的几年双 11,对支付宝技术团队来说,是像电影《2012》一般的巨大考验,「你把一个船放在那里,上面有个大浪,没人知道能不能扛住,扛住就扛住了,扛不住就没了。」
这艘大船只能提前按既有的想象力建造,但在应对巨浪时,必须临时补救随机出现的漏洞,随机意味着不确定性,巨大的随机和不确定性就进一步施加给团队更庞大的压力。程立记得,现任阿里云副总裁李津当时在阿里巴巴集团负责双 11 项目,「受不了的时候,李津要开车到龙井山上,打开窗户睡一宿,他说压力太大了,要吸氧。」
2010 年,第二次迎接双 11 的支付宝经历了一次后来广为人知的「4 秒惊魂」。11 日的 23 时 59 分 30 秒,双 11 结束前半分钟,支付宝核心账务系统突然报警,资源行将耗尽。当时整个支付宝的账务数据库没有进行过任何拆分,一旦系统崩溃,所有业务都会挂掉,对淘宝和支付宝都会造成灾难性损失。在工程师将一个会计系统的应用关掉,释放出来资源时,离数据库崩溃只剩 4 秒。
单就技术本身,在当时就已经是一笔永远测算不清楚的账。
2012 年双 11 之前,支付宝技术组已经把能想象到的压力测试做了个遍,但当晚高峰期还是出了岔子,运维工程师巩杰(花名袁越)记得,当时后台一条数据通道设置的阈值太低,导致短暂宕机,但系统认定为无法响应,于是自动将其剔除了,随后服务器一台接一台地挂掉,「跟雪崩似的,导致几十分钟里交易一直在抖动」,直到做了降级,切掉一部分流量之后,系统才恢复正常交易——按程立的说法是,那根保险钨丝被高频交易熔断了,临时搭上一根铜线才应付过去。
此时,过于庞大复杂的系统,人力已经无法完成全面有效的测试了。巩杰说,因为有前两年数据库无法承压的情况,2012 年已经在应用和 DBA 层面做了大量的压力测试,但最终出问题的,恰恰是前面还没压到的「路口」。
采访中,俊义苦笑道,当时每年双 11 都信心满满,每年又都过得提心吊胆。在双 11 压力最大的那几年,整个支付宝技术团队每年要花费几个月乃至半年时间来「练兵」,做各种技术结构调整,系统测试。俊义最初产生过疑问,整个团队花费出的绝大部分时间精力,只是为了贡献给双 11 最高峰的那几秒。
「非得这样吗?」
「值吗?」
但时间会赋予所有原本未知事物以终极的意义,双 11 正是这样一个把意义逐渐延展开的时代产物。「在当时,淘宝是我们最大的客户,我们必须服务好」,俊义说。按照马云早年的讲法,在客户关系之外,淘宝天猫和支付宝更像是夫妻关系,也正是在淘宝天猫的业务倒逼下,支付宝团队的技术能力被空前地激发,一位今年入职的工程师毫不讳言,他入职蚂蚁金服的核心吸引力就是双 11,「对工程师来说,再没有比双 11 更值得挑战的项目了。」
巩杰也是后来才意识到,某信用卡团队早先在实验室环境里实现的数万笔每秒的交易峰值,早就被支付宝在实战里远远抛在身后。2017 年双 11,支付宝的交易峰值就达到了 25.6 万笔 / 秒。
按照资深技术专家李铮(花名祢衡)的说法,技术团队最近几年已经把双 11 两天 48 小时的工作量做了很细致的拆分,“我们做了非常详尽的作战手册,它有很多的步骤,按不同的时间点,你要去执行。”
技术之外,双 11 是个在更广泛的范围内牵扯着不同部门,不同团队,不同企业的庞大协作系统。蚂蚁金服集团副总裁陈亮(花名关胜,品牌与公众沟通部门负责人)记得,某一年的双 11 当晚十点钟前后,一家国有大行银行的交易系统内的一百万个单号发光了,后续单子无法生成,于是当晚最后两个小时,所有源自该银行的支付订单都无法执行。「总会有你无法预想的问题出现,我们做好所有准备,剩下只能兵来将挡水来土囤了。」
想想啊,就好比火箭升空一样,倪行军敲敲桌子说。多少软硬件技术环节,多少个零件组装拆卸,在设计制造的过程中,只能穷尽所有人脑可以企及的可能性去做测试,但在点火那一刹那,等待它的是圆满功成还是原地爆炸,你只能束手以待了。
倪行军觉得,无论是技术人员拜关公、烧香还是公关团队的预案,都证明了蚂蚁金服团队对双 11 的敬畏心。2013 年 5 月,支付宝下线了最后一台 IBM 小型机,随后逐渐以自主研发的 OceanBase 数据库替代了 Oracle,完成了去 IOE 工程。如今双 11 对蚂蚁金服来说,已经绝不仅限于一个技术项目,而更像是一个社会化工程。程立说,如果为它定义一个清晰的组织概念,可以叫做「连贯的,社会化的技术大协作」。

一面敬畏,一面狂奔
蚂蚁 Z 空间的楼群维持着古怪的几何形状,像个「撅着屁股」的 Z 字,又像个扭动起舞的水泥巨人。但与外部怪异的建筑设计、杂乱的人流相反,在楼宇内部密布着闸机与证件机器,构建起坚固的秩序和准入流程。室外,巨大的红色人形雕塑朝着人流入口鞠躬,姿态谦逊,气势却浑然不可当。
支付宝团队不正像那尊雕塑一样?一面对技术保持着敬畏、谦逊,一面又不得不玩命狂奔。这十年间,在双 11 之外,他们也有很多焦虑要去消解。
被问及在支付宝工作十几年间最难忘的瞬间,倪行军和陈亮的首选都是那次年会。2010 年 1 月 21 日,支付宝公司年会,此前内部并没有太多源自自觉的危机感。遥遥领先的市场份额与灼灼亮眼的业务数据,一切看起来十分顺利。
但年会一开场,人们就发现气氛就有些怪异。会场高音喇叭里首先传来指责、抱怨、无奈与批评,这些声音是来自客服电话录音里的客户投诉。
但现场事态发展,完全不只是「反思」而已。陈亮到了会场,才收到马云等阿里集团组织部的高管们将要到场的消息。随后,客户满意中心的代表上台,表达了「我们的体验如何糟糕,用户如何承受着折磨」;BD 团队则指出「合作伙伴是如何对支付宝的高期望,同时又是如何的失望和无奈」。
马云现场发火了。「烂,太烂,烂到极点」。
陈亮记得,这是他多年来唯一一次在公开场合看到马云发脾气。马云毫不客气地指出,支付宝在很多问题上太过保守,如果不重视用户体验,「将慢慢死去」。
这显然跟支付宝团队自我评价的结论相去甚远,事实上,在那个时点上,如果横向对比来看,支付宝的产品设计和市场占有率表现绝不算差,团队甚至把 2009 年定义为「用户体验年」。但回头看,当时在 PC 端的产品体验确实很不理想,每次支付都需要解决控件、插件、外接 U 盾一堆问题。
时任阿里巴巴 CTO 的王坚也给了一句非常严厉的评价,「自娱自乐」。这甚至使倪行军当下有点懵,他记得在年会之后一段时间里,一度陷入严重的自我怀疑,「搞了这么多年技术,怎么变成自娱自乐了?是不是我们对技术的认知出了问题?」
后来他反应过来,差池是出现在从技术到产品、到业务、再到客户之间的对话环节。做客户体验,单由使命与愿景来驱动不够。他原本认为的应该如何运作,与用户的现实期待之间,鸿沟已现。
整个中国的支付行业按照支付方式演变可以分成三个阶段:2009 年 -2013 年,从网银支付到快捷支付;2014 年 -2016 年,移动支付崛起;2017 年 -2018 年,则是指纹和刷脸支付渐成主流。
如今回头看,那次年会对整个蚂蚁金服公司来说都是个至关重要的节点,在此次转型的推动下,支付宝从网银支付迈进了快捷支付时代。「生生被逼出来的」,俊义回忆道,「如果那时候没有快捷支付,整个中国移动互联网的进程至少会落后两三年」。
微信支付加入之前,支付宝曾有十年时间只能自我调试,寻找发展坐标。而当前者入局,支付宝团队的反应是:哇!我们有竞争对手了。
「我们从没有遇过像这样的竞争对手,竞争是很正常的事情,但结局取决于竞争对手的能量,微信支付是非常值得尊敬的一个竞争对手。」陈亮如是说。
微信支付出现,促使蚂蚁金服又一次推进意识形态的提升。如今说来云淡风轻,当时可是风起云涌,情绪百般垂丧。时间回到 2014 年 1 月 26 日,腾讯推出微信红包,后者立刻以病毒式传播的方式活跃在微信群内,并在除夕夜全面爆发。数据显示,除夕当天到初八,超 800 万用户参与了红包活动,超 4000 万个红包被领取。
与微信红包这面的热火朝天形成明显反差的是,支付宝的「讨彩头」反响平平。后者推出于 23 日,还早了 3 天。
「微信一个红包就超过支付宝 8 年干的事。」这句话很快流传起来,马云后来则用「珍珠港偷袭」评价腾讯推出微信红包一举。
陈亮对这件事情对记忆尤其深刻,他参与了支付宝红包的产品讨论。因为也在广东工作过,知道当地有讨红包的习俗,于是他给出了做「讨红包」的建议。但微信做的是「发红包」,陈亮回想,当时讨论过程中,似乎也有人提出这一点,但产品设计最终并未将其采纳。
其实,即便支付宝当时采用了发红包的设计,在那一阵上也未必有胜算——没有关系链,没有社群,没有从交易体系到账户体系的整体准备。但陈亮仍然感到懊悔,控制不住的懊悔,甚至责怪自己技不如人。
眼看着媒体群里纷纷扬扬的红包雨和赞扬声,陈亮都不想上微信了,「不想说话了,不敢说话了」。
他想去友人处寻得开解,想驳斥那句一个红包顶八年的说法,但他刚开口就沉默下去,市场反应已然说明一切。可他还是在心里翻来覆去地想,怎么我们没有想到人家那个点子,怎么就没有呢?
但事情过去也就过去了。尽管公司层面的焦虑一直延续到 2016 年,但陈亮已经学会将焦虑情绪摒除在自己的生活之外。焦虑毫无用处这件事已被证明——前两年的焦虑除了让他自己难受紧张、动作变形外没有产生任何意义。
其实,接受这种量级的竞争,或许某种意义上也是在接受命运馈赠。陈亮后来总是被年轻同事认为对困难事物的感受很迟钝,他自己觉得原因在于再没有过境况更加艰难的时刻了。再碰到困难时,总有一种消解的情绪在,「最难的时候都过来了,这些算什么?」
而支付产业则更加受益于两家顶级公司的竞争推动,中国支付技术在国际上一骑绝尘。2017 年年末,西班牙《世界报》刊文表达了对中国支付产业的看法,给出的结论叫做:「中国的支付革命堪称中国史上最大的技术革新之一。」

技术的价值观
其实从 2010 年双 11 的「4 秒惊魂」之前,支付宝技术人员就意识到,使用 IOE 商用设备(IBM- 服务器提供商,Oracle- 数据库软件提供商,EMC- 存储设备提供商,三者构成了从软件到硬件的企业数据库系统)与开源软件,已经不能适用于双 11 交易量指数级增长对技术支持的要求,尤其是在谁也不能完全预设到当晚状况的时候。即使能支撑,成本也将是天文数字。支付宝决定去 IOE,自主研发分布式数据库,转云计算,OceanBase 项目随即启动。
俊义记得,他在支付宝做的第一个技术改造项目是拆分数据库。当时还不是因为双 11,单纯是因为支付宝网站交易量涨得很快,数据库扛不住了,不拆,业务就无法增加。这是在 2008 年。
2010 年,俊义又拆了一次数据库。这次,他将上次拆出的两个数据库中的交易数据库,拆成 10 个小型机。这时已差不多算是为去 IOE 铺下基础。但很快,10 个小型机也不够用了。
2011 年的双 11 结束后,应用服务器与数据库的连接已到瓶颈,容量没办法再增加,换句话说,IOE 集中式强大单点无法满足阿里特别是当时淘宝爆炸式业务增长应用的模式,同时也限制了技术潜力的发挥,另外,由于 IOE 是专用设备,对机架、电力、网络存在单独设计的要求,成本压力也已经非常大。
从 2010 年 1 月启动,到 2011 年 7 月完成商品库的去 IOE(经历读写分离、去小型机、去 Oracle 和 EMC),再到交易等其他核心系统的去 IOE,2013 年,支付宝最后一台小型机下线,IOE 中的 I 和 E 都已经被中国自主研发的技术取代,上云完成阶段性进展,这就像造发动机,意味着双 11 的交易量不会再受到技术制约。
不过在第一阶段,每年双 11 能否顺利通过,还是有点碰运气。从 2014 年开始,支付宝开始研发和施行全链路压测技术,这就有点像造飞机时候的风洞,造一个实验室,完全模拟当天峰值所有的真实环境,对系统进行压力测试。据 2018 年大促保障副队长巩杰说,全链路压测对真实用户请求的模拟可以达到与双 11 当天请求 90% 以上的一致度。这样一来,到了双 11 当天,平稳度过的概率就极高了,团队因不确定而产生的焦虑大幅降低。
全链路压测作为消除不确定性的“大杀器”,已经成为目前测试系统的常规手段,随着系统的升级,使用频率也在降低,李铮记得,全链路压测技术刚刚研发使用的时候,“恨不得每天都做一遍测试”,而今年的双 11 准备工作里,每周定期做 1 - 2 次压力测试已经足够了。
支付宝的双 11 已经是一个巨大的系统工程,已经无法再完全依赖人脑思考解决所有条线上的问题。所以,李铮觉得,“智能化”是另一个关键词。对系统工程的把控,也正是要辅以智能化全链路压测这类技术手段,才能更加精准高效地解决问题。
11 月 2 日,大促保障团组织了最后一次模拟的全链路压测,万事俱备,只欠东风,就等 10 日 24 点一过。

对支付技术来说,稳定压倒一切,稳定也意味着一切。一如往年,第 10 年双 11,稳定的重要性依然处于第一位置。
稳定之外,支付宝技术团队还有更多追求。在 2018 年的双 11 技术保障上,人工干预已经越来越少,因为整个保障系统的智能化程度越来越高。比如,往年筹备双 11 时,该配置多少计算资源,如何达到最优化的配置,都需要非常有经验的工程师进行严密计算,并进行反复的压力测试,不断调优。但现在,机器可以自动地进行计算和调优。程立打了个比方,双 11 的支付保障会越来越朝着「自动驾驶」的目标迈进,该往哪开,在哪停,如何躲避风险,保障安全,都是智能的。
新的变化还体现在生物识别支付和区块链技术的应用。
在倪行军的谈论中,支付宝对支付的理解,倾向于支付脱媒,到最后,支付时不需要任何载体,人体本身即为最大媒介,当然,脱媒不可完全脱离,但生物识别技术是 IoT 时代用户参与到数字化场景的敲门砖,任何的场景系统都要首先确定一个所谓的数字身份的问题,而人本身就是最棒的载体,不需要其它的媒介做二次切换。由此,生物识别是可以重塑体验的技术。
据倪行军透露,平日应用场景中的生物识别(包括指纹输入、面部扫描等)支付比例已经超过一半,这反映出整体人群对生物识别技术所对应的新支付体验的接受程度,这信号让他觉得,手机应用之外其他生活场景中,扩展生物识别技术用户的时机,已经到来。
今年上半年,生物识别技术真正走向规模化商业化,倪行军的预期是先实现规模化,在终端设备达到百万级规模的基础上,根据用户行为与各商业场景连接的磨合情况,再考虑后续的商业诉求。未来,新技术的应用势必重新定义整个商业流程,新的百万级的商业机会将在此诞生。
今年天猫双 11 用区块链技术为 1.5 亿跨境商品提供原产地溯源,包括比利时钻石交易所的钻石这类大额商品。
变化背后是蚂蚁金服的 BASIC 技术战略演进及开放,Blockchain (区块链)、Aritificial intelligence(人工智能)、Security(安全)、IoT(物联网)和 Computing(计算)这五条线索构成对未来更加清晰的想象力。
十年间,蚂蚁金服整个公司都在从中心化向分布式持续变化。
人员能力变得更加均衡。俊义记得,早年在双 11 和很多技术攻关的关键时刻,总会有几位技术大牛同事站出来,在当下拿出过人的洞察与能力,最终顺利过关。但如今,蚂蚁金服公司的整个技术结构益发庞杂,必须形成全局、众人的工程化作战。
IT 架构从 IOE 变成分布式,再演化出「离在线混部」。去年有 25% 是自有服务器处理,55% 在云上,20% 是离线资源;今年这个比例则会更新到 60% 在云上,在线与离线分别 20%,其间,性能较差的离线机房也能执行在线处理,核心在于资源的进一步合理分配。
分布式趋势渐成大势:机房越来越多,从杭州拓展到全国各地;应用系统与数据库越扩越多;团队从支付宝技术团队扩至各个产品线,集团运作从前尚可靠寥寥能力拔尖者把握,如今则需层层分解,整体组织协同作战。
「从中心化到分布式」是互联网发展过程中,近年形成的社会关系形态和内容的一大特征。如果将其视作一种价值观的话,作为一家工程师员工占比超过 51% 的互联网金融企业,它正在被深深影响、驱动并改变着,企业里大量人、事、物,都在明确地呈现这这种趋势导向,这家价值上千亿美金的企业,也正在成为一个由技术价值观驱动业务、团队革新与发展的经典范本。

本文作者:平生栗子阅读原文
本文为云栖社区原创内容,未经允许不得转载。

正文完
 0