谁顶住双11的世界级流量洪峰神龙架构负责人等9位大牛现场拆解阿里秘籍

117次阅读

共计 6323 个字符,预计需要花费 16 分钟才能阅读完成。

阿里江湖中,很多资源和技术,如神龙服务器、OceanBase、POLARDB 等等,在开源、自研、云这三架马车上形成协同效应,既是内功也是武器。

“不是任何一朵云都能撑住这个流量。中国有两朵云,一朵是阿里云,一朵叫其他云。”11 月 11 日晚,阿里巴巴集团 CTO 行癫(张建锋)不久前表示。

除云之外,要深入了解阿里的武功路数,必须知道每个花名背后的武器与绝技。旭卿、观涛、鸣嵩、日照、褚霸、孤星、龙现、行易、镭铭,11 月 18 日,在阿里举办的“双 11 背后的技术力量”沙龙活动,这 9 位阿里技术大牛展示了路数,全面解读双十一背后的武功秘籍。

整个天猫的成交额是 2684 亿,零点订单峰值达到 54.4 万笔 / 秒。这是华山论剑的结果。

自研数据库 POLARDB 和 OceanBase 分别处理 8700 万、6100 万笔 / 秒峰值请求、实时计算处理峰值每秒 25.5 亿笔、计算平台单日处理 970PB 数据、12 亿笔物流智能化等……2019 年双 11 期间,阿里巴巴打破了诸多技术纪录。

核心交易系统 100% 迁移到云,第三代神龙服务器定义 IT 行业新的计算范式

双 11 一个个闪亮的数字的背后有一个比较重要的事情,那就是今年阿里把核心交易系统 100% 迁移到阿里的公共云上,这是史无前例的、世界级的挑战。

要实现 100% 的迁移,必须提到阿里云的神龙服务器。神龙架构负责人的旭卿(张献涛)介绍,“神龙服务器是阿里云近三年来投入巨大的资源,研发的新一代适合云计算的计算架构的服务器,具备高弹性、高稳定和高性能的能力。”

阿里云从 2016 年开始投入相关研发,2017 年 10 月发布了第一代神龙云服务器。三年内,阿里云从自研芯片开始、到自研设备 +Hypervisor、最后成功自研神龙服务器,打通芯片、软件、服务器硬件之间的断层,首次实现了云计算行业性能、资源的零损耗

为什么阿里云要研发这样一个神龙服务器?

旭卿谈到,在过去十几年间,整个服务器的架构没有太大的变化。因此在云计算、甚至整个 IT 系统层面,业界都面临历史遗留问题,比如性能损失

究其根本原因,就是做芯片、服务器、软件的厂商之间没有太多的协同,缺乏一个顶层的设计,每一个领域,每一个厂商都是希望把自己的东西做得很强,但做强之后对整体系统效率的提升不一定有帮助,这是我们可以感受到的。

从这个角度来看,我们需要对整个计算架构做一些改变、革新和提升,提升整体的计算效率,这是阿里做神龙最初的初衷

为什么是阿里云做成了这件事?

“规模到达一定程度的时候,才会真切的感受到它是一个需要解决的问题,你可能将来只有 10 台、20 台、甚至 200 台、2000 台服务器的时候,资源还跑不满,在这种情况下没有太大的动力去投入上亿资金解决这样一个问题,而今天阿里云的整体规模已经让我们必须直面这个问题,并且解决这个问题。”旭卿解释道。

旭卿认为,今天神龙正在定义 IT 行业新的计算范式,它不仅仅能实现阿里云的核心系统 100% 上云,解决虚拟化的性能、资源的开销,并且也能够实现软件、硬件完美融合,它的综合表现在很多业务场景下都是超越物理机的性能表现。

说到物理机,旭卿还介绍了第三代神龙架构,它可以提供的性能非常高,“我们网络的性能可以做到每秒 2500 万 PPS 的转发,这个已经是业界标杆的 5 倍,存储性能其实也做到了 100 万 IOPS,是业界标杆的 3 倍,所以有了这样一个东西之后,我们承载双 11 大促这种业务的话,其实已经比物理机的性能要高很多了。”

“当然最后我们还是认为云是 IT 的集大成者,真正的云计算厂商有责任也有义务引导今天软硬件方面的一些创新,回馈未来的 IT 技术变革打下基础。”旭卿表示。

AliNLP 平台赋能 700 多个核心业务,客服 AI 搭载 KAN-TTS 技术处理 70% 问题

在语音和视觉方向,阿里也有所准备。达摩院实验室的雷鸣就介绍了阿里的客服 AI 和视觉 AI。

这是基于阿里巴巴真实客服人员的声音定制的电话客服 AI,基于今年发布的新一代语音合成技术——KAN-TTS 技术,这个技术可以使语音合成的效果,和真人录音的接近程度达到 97%。阿里通过技术可以把整个定制周期压缩到 20 天,录音周期就 2 天左右,这有效减轻了人工客服的负担。

这种 AI 会不会完全取代人工客服呢?其实,这种 AI 并不是完全替代人工,而是人工跟 AI 协同工作。AI 可以解决常规问题,剩下 30% 的问题则需要人工客服来解决,这是一个比较好的人机协同模式。

从数据来看,阿里巴巴 AI 每天调用超过 1 万亿次,服务全球 10 亿人,日处理图像 10 亿张,日处理视频 120 万小时,日处理语音 55 万小时,日处理自然语言 5 千亿句。

达摩院在自然语言处理、智能语音、视觉计算等领域夺得 40 多项世界第一,同时自然语言处理在 SQuAD 机器阅读评比中精确阅读率首次超过人类,智能语音入选 MIT Technology Review2019 年全球十大突破性技术。这些技术在双十一的贡献有以下三个方面。

首先是自然语言处理方面,通过 AliNLP 平台,赋能淘宝、天猫、盒马、国际化等数十个 BU 的 700 多个核心业务。双十一重点支持 23 个业务方,包括阿里妈妈、阿里云、小蜜、菜鸟、新零售、天猫精灵等,在双十一当天,在线调用量超过 11 亿。

其次是客服 AI,阿里小蜜承接了淘宝天猫平台 97% 的在线服务需求,换算过来相当于 8.5 万名人工客服小二工作量,其次阿里小蜜今年推出了多项新功能,包括直播小蜜、基于图片的智能问答、多样性文本生成。另外阿里小蜜并不是一个单方向的能力,更多的是综合了语音、语言、视觉、翻译等能力,而且小蜜与用户的交互,已经朝着文本、图像、语音等多模态的方向发展。

在视觉方面,拍立淘日处理图片 10 亿张,今年双十一,视觉 AI 对拍立淘做了技术升级,从一图一物到一图多物的升级,比如之前只识别一个元素,到今天全身穿搭一次性识别,而且这个技术在计算机视觉领域顶级会议上 ICCV 2019 上赢得一个冠军。

飞天大数据平台和飞天 AI,以技术实现商品和消费者最优匹配

AI 不仅帮助商品识别、客服与顾客之间的沟通,同样,最重要的消费关系中也有大数据和 AI 的支撑。

阿里云智能计算平台事业部研究员关涛(观涛)表示,双十一的挑战从商务角度看是商品和消费者最优化匹配的问题,往下则是大数据和 AI 能力的挑战,

从数据来看,今年双 11 数据量达到 970 PB,这大概是一个什么量级?央视网所有的电视剧和新闻节目的数据量是 80 PB 左右,对比来看,阿里巴巴通过大数据和 AI 技术分析出来大概是央视数据量的 10 倍以上

这样的数据能力背后的平台是什么?就是阿里十年前开始做的飞天大数据平台。在双 11 中,阿里使用了全自研的一整套平台,平台包括超过 10 万台规模服务器集群,10+ 数据中心、10EB 级别存储、每天千万级别的大数据和 AI 计算作业。

在 AI 方面,关涛介绍了后台的流计算系统,它是一个数据实时计算系统,通过实时计算的模式,能够给系统、商家和消费者非常实时的数据的能力。流计算系统可以通过实时计算和 AI 预测,支持商家的商业决策。据统计,去年 2018 年双十一的时候,这样的实时推荐给商家的智能决策,90% 都会被商家采用。

实时计算的系统层面,能够支持 TPS、每天有超过万级别的在线实时在跑,每天处理超过 10 Trillions of Records,包括实时分析、实时预警、实时搜索、在线机器学习、广告实时推荐,这些都是大数据和 AI 在做的。

另外,还有飞天 AI 平台,通过处理音频和视频元素,不仅可以做到千人千面,对于同一件商品,还能提供上千种不同的视频封面。

20 个工程师贷出 3000 亿贷款,网商银行融合算力、算料、算法形成核心竞争力

商家能够上新产品和作出商业决策的一大前提是资金到位,这就涉及到网商银行的业务了。

“网商银行其实大家不一定多么熟悉,我去之前都不清楚在做什么。”蚂蚁金服网商银行研究员褚霸说到。

网商银行成立于 2009 年,前身是阿里小贷。10 年后的今天,网商银行总共贷出去 3000 亿的贷款,而这 3000 亿贷款就是 20 个算法工程师完成的。褚霸认为,“20 个人就能很漂亮的把这件事完成,我觉得科技是最大的功臣。”

能够完成这样一个业绩的网商银行,褚霸却笑称其为“傻子银行”,“因为网商其实是一家银行,不是做技术的,我们是一个技术的整合者,前面几位介绍那些技术都是被我们很好的去整合到今天的系统里面去。”

但其实并不是“傻子”,在新的技术,比如说像云延伸的技术引入方面,网商银行其实还是走在前面的。

还有实时反欺诈技术,这样一整套的技术能够将不良率做到 1% 或者更低。从金融风险看,业界不良率是 5%。“因为今天我们有各种各样的大数据,AI 的计算能力,还有非常优秀的算法工程师能够把这些算力、算料、算法串联起来,形成一个比较核心的竞争力。”褚霸解释道。

在交易中,不可或缺的是记录交易的数据库,其中一大重点的POLARDB 不容忽视。

阿里云智能数据库事业部资深技术专家曹伟(鸣嵩)介绍了阿里巴巴数据库发展的历史,经过三个阶段:第一个阶段是使用 IOE,使用 Oracle;到了 2015、2016 年开始自主研发 POLARDB,再到今年 100% 上云,所有阿里的核心的交易还有库存等等业务都会使用 POLARDB 以及我们的生态,就是物流云都在 POLARDB 支持今年双十一。

鸣嵩介绍道,我们 2010 年做了去 IOE 这件事情,2013 年开始起我们把所有的 Oracle 系统下掉,换成 AliSQL,今年我们做了 POLARDB,而 POLARDB 在今年双十一达到 8700 万次每秒的这么一个峰值 TPS,在它的背后我们有在 VLDB、SIGMOD、ICDE 上发表的创新技术。

IOT 技术、自动化技术和智能算法,实现数字化和智能化的仓储物流

而在物流领域,那些我们看的见的包裹中都蕴含着哪些看不见的技术。

双 11 的包裹量从 1.52 亿到今年的 12.98 亿,大概提升了 8 倍,然后双 11 包裹签售破亿时间点从原来的 9 天到今天我们只需 2.4 天就可以完成一个包裹的投递。

“今年我们双 11 整个 备货量足可以塞满 1000 个鸟巢或者 16000 架 A380 飞机。菜鸟到现在为止成立了大概 6 年的时间,这 6 年其实菜鸟已经把科技塞到未来的每个毛细血管。”菜鸟北京技术中心资深技术专家陈罡(花名:行易)说道。

首先,在包裹产出也就是仓库上。“菜鸟”用三个技术来达成数字化,即 IOT 技术、自动化技术和智能算法,确保实现数字化和智能化的仓储能力

例如,每年双十一,仓库会招收很多临时工,但因业务熟练度问题,临时工培训和熟练完成工作需要耗费大量时间,而今年 IOT 技术就包含了一个 lemo 设备,能够让一个临时工在几分钟之内学会怎么操作,通过这个设备,临时工可以在一天之内达到 99% 的熟练度。

11 月 12 日,阿里巴巴的董事长兼 CEO 张勇就在仓库里,花了 5 分钟时间使用了 Lemo,他亲自点选了一些订单,并且在 10 分钟之内就把整个工作流程做完了。

目前,菜鸟在全国的自动化流水线已经超过了 5000 公里,自动化设备比去年增加了 50% 以上。在无锡还有一个机器人的生产线,在驿站这边“秒取快递”技术,自助可以通过刷脸取快递等一系列的。另外,电子面单使用率超过 99%,大幅度的减少了整个中国的物流成本。

绿色数据中心、开放式网络架构、RDMA 高性能网络、弹性跨域访问和自研数据平台,5 项绝技纵横江湖

以上大多技术,都需要基础设施去支撑。在基础设施的人眼中,双十一是什么?

阿里云智能基础设施事业部资深技术专家 唐陵波(花名:龙现)谈道,“我们认为双十一就是华山论剑,阿里毫无疑问是世界第一。但是我们认为,所有的武功都不是一天练的,创新的内功和赋能的武器才是我们在华山之巅拿到的利器、基石。

阿里是怎么练内功的呢?这就要看阿里绿色数据中心里一个比较创新的技术,叫 液冷服务器 ,这个技术在 2016 年上线了 1.0 版本,现在是 2.0,已经在阿里做了大规模的部署。今年双十一,液冷技术能够把每万笔交易量的耗电量降到 2 度左右。如果所有的交易都放在液冷上实现的话, 双 11 当天可以节约 15 万度左右的电。

目前,阿里巴巴数据中心已经遍布了 200 多个国家和地区。这样分布广泛的数据中心被看作是易筋经一样的肋骨,是驱动阿里一切商业行为和商业流量的基础,不仅能够支持双十一的峰值而且能够提供弹性的服务。另外,液冷技术近期将会开源。

练完内功再来看 屠龙宝刀,也就是阿里的自研服务器,它能够优化阿里应用场景,促进产业生态研进。在存储场景中,龙现重点介绍了 AliFlash,它已经广泛运用在存储场景里面,通过硬件的创新和软件技术的结合,阿里现在做到了软件一体化上下的协同设计,在性能和功能上都有突破性的创新。

在阿里百万级的服务器规模背后,怎么让资源能够充分利用?龙现说道,“我觉得极致弹性和自动化,是我们能够支撑这么大规模的服务器,放在我们自己的数据中心里面的一个最重要的原因。”

还有被龙现比作倚天剑的自研交换机,自研交换机就是阿里在网络领域的一个重大的技术创新,实际上是就是网络界的去 IOE,它承担了大部分的核心流量、网络流量,能够让大家感知不到网络的减速或“晃动”,使双 11 平滑过去。

另外,RDMA 网络也是一个重点技术,今年像存储计算分离之后的云盘和核心数据库的核心交易量,在去年的基础上发展了 3 倍,所有的这一切就是阿里在数据中心网络里面做的几个比较突出的工作。

供应链中也蕴含着太极拳。“大家都知道太极拳是以静制动的,放在企业层面它更多强调的是人的协同。从当初集团决定双 11 上云使用神龙,到最后上线只有两个月时间,供货、备货、测试都非常紧张,但是供应链的同事通过优化库存、优化流程,然后去帮助供应链厂商优化资源共享,极大的提高了供应链的交付情况,取得了较为满意的结果,有效的支持了双 11 上云这个目标。”龙现解释道。

总结来看,支持云上双十一的硬核基础设施,共有 5 项绝技纵横江湖,绿色数据中心、开放式的网络架构、RDMA 高性能网络、弹性跨域访问和自研数据平台。

未来将持续拥抱开源,拥抱云原生技术,以技术效率提升商业效率

在过去十几年电商的发展的背后是技术力量的持续发展,电商的发展带给技术巨大的挑战,技术的突破和变革也支撑起电商业务规模的不断壮大和商业场景的拓宽。

阿里巴巴淘系技术部资深技术专家洪海(花名:孤星)谈道,我们经历了系统架构从集中式到分布式,从中心化到去中心化,从私有云到混合云,今天全面进入阿里云的公有云的过程。在这个业务的高速发展的过程中,一个个难题放在了技术人的面前,最大的挑战来自双十一,在这个巨大的商业盛况的背后是一层层技术的突破。

网络、服务器、存储这些基础设施多年来发生了翻天覆地的变化,微服务,容器化,数据库等一系列的底层技术和框架的持续演进,带动了电商技术今天在搜索,个性化推荐,视频互动,消息等各个应用领域支撑和连接着数亿消费者。

解决了业务规模增长的技术瓶颈之后成本的问题摆在了阿里人的眼前。为此,电商开始尝试混合云的架构,在大促时短时间内租用云的机器进行扩容,进而形成了云单元,另一方面又利用离线大数据集群和在线集群的错峰互补,形成了混布技术。在这个阶段我容器化技术飞速发展,Pouch 容器和 Sigma 调度系统成为了整个资源管理调度的基石,支撑了数百万的容器的管理和运行。通过这一系列手段,应对双十一峰值的计算资源的成本得到了有效的控制。

在成本问题之后,阿里借助神龙服务器、云的弹性能力、秒级扩容技术、云端一体研发等实现了更有效率和更加开放。

最后,孤星表示,“未来我们将持续拥抱开源,拥抱云原生技术,全面上云。通过技术效率的提升推动商业更有效率,生态更加开放,让技术创造新商业。


本文作者:温柔的养猫人

阅读原文

本文来自云栖社区合作伙伴“新智元”,如需转载请联系原作者。

正文完
 0