简介:阿里云资深技术专家、容器服务研发负责人易立在大会主论坛进行了主题为“云将来,新可能”的演讲,分享了阿里云基于大规模云原生实际下的技术趋势判断和技术创新停顿。
2021 年 12 月 9 日至 10 日,KubeCon + CloudNativeCon + OpenSourceSummit China 2021 在线上举办。阿里云资深技术专家、容器服务研发负责人易立在大会主论坛进行了主题为“云将来,新可能”的演讲,分享了阿里云基于大规模云原生实际下的技术趋势判断和技术创新停顿。
以下为分享全文实录。
易立,阿里云资深技术专家、容器服务研发负责人
大家好,我是阿里云易立,目前负责容器服务产品线,也是 CNCF governing board 的成员。这是第二次在 KubeCon 与大家在线上交换。明天,我会分享阿里云在云原生畛域的实际和思考,以及咱们对将来的一些判断。
云原生 – 数字经济技术创新基石
2020 年以来,新冠疫情扭转了寰球经济的运行与人们的生存。数字化的生产与生存形式成为后疫情时代的新常态。明天,云计算曾经成为社会的数字经济基础设施,而云原生技术正在粗浅地扭转企业上云和用云的形式。
阿里云对云原生的定义是应云而生的软件、硬件和架构,帮忙企业最大化取得云价值。具体来说,云原生技术给企业带来 3 个外围的业务价值:
- 麻利高效 – 更好反对 DevOps 晋升利用研发和交付效率,晋升弹性和资源利用率。帮忙企业能够更好应答环境变动,升高计算成本。
- 增强韧性 – 利用容器技术能够简化业务上云,更好撑持微服务利用架构;进一步增强 IT 企业基础设施和利用架构韧性,保障企业业务连续性。
- 交融翻新 – 5G,AIoT,AR/VR 等新技术疾速倒退,云原生技术让计算无处不在,能够更好地反对的新的交融计算状态。
如果说云原生代表了云计算的明天,那么云计算的将来会是什么样?
云将来,新可能
数据中心作为数字经济的能源引擎,其能耗增长已成为云计算倒退中不可疏忽的问题。据报道,2020 年数据中心耗电量超过国内总用电量的 2.3%。而且占比将逐年减少。阿里云在事必躬亲地推动绿色计算,比方利用浸没式液冷服务器来升高数据中心 PUE。除此之外,咱们看到数据中心的计算效率也有很大晋升空间,据统计,寰球数据中心的均匀资源利用率不到 20%,这是微小资源和能源节约。
而云计算的实质,就是把离散的算力,聚合成更大的资源池,通过优化的资源调度,充沛削峰填谷,提供极致的能效比。
新一代对立资源调度助力绿色计算
在阿里团体实现了全面上云之后,咱们启动了一个新的打算——利用云原生技术,对阿里团体散布在寰球数十个地区的数千万核的服务器资源,进行对立资源调度,全面晋升利用率。通过阿里团体、阿里云泛滥团队的致力,往年双 11,对立调度我的项目交出了一份闪亮的答卷!
基于 Kubernetes 和阿里自研的对立调度器 Cybernetes,通过一套调度协定、一套零碎架构,对底层的计算资源进行智能化调度,向上撑持多种工作负载的混合部署,在保障利用 SLO 的前提下,晋升资源利用率。让电商的微服务、中间件等利用,搜推广、MaxCompute 的大数据和 AI 业务,全副运行在对立的容器平台根底之上。为阿里团体每年能够缩小数万台服务器算力的洽购,带来数以亿计的资源老本优化。
其中单集群规模超过上万节点、百万核。任务调度效率达到每秒 2 万个,满足搜寻、大数据、AI 等高吞吐、低提早业务调度编排需要,性能卓越。对立调度帮忙阿里双 11 大促成本升高 50%,生产环境常态化 CPU 利用率 65%。
云原生“Green AI”应答 AI 大模型训练的挑战
多模态预训练 AI 大模型被宽泛认为是迈向通用人工智能的要害门路。
大家熟知的 GPT-3,领有千亿级参数,在某些自然语言了解畛域能够实现比肩人类的解决能力。阿里巴巴达摩院最新公布的超大规模预训练模型 M6 曾经进入了 10 万亿参数时代。M6 领有多模态的中文工作解决能力,尤其善于设计、写作、问答,在电商、服装、科学研究等畛域有广泛应用前景。
Kubernetes 对深度学习工作的反对曾经逐步成熟。然而,超大规模模型训练仍然面临着严厉的挑战。万亿级参数模型训练,动辄须要数千张 GPU、数十 T 显存的计算资源,破费数十天能力实现训练。
为了应答这些挑战,Cybernetes 在原生 Kubernetes 根底之扩大了面向大规模 AI 任务调度能力。通过高效的异构算力调度,数据感知和拜访减速,无效晋升了 GPU 计算效率;通过错峰调度,充分利用集群闲暇资源。撑持了云原生的 PAI-Whale 框架高效的并行模型训练。
M6 最终实现了仅用 512 张 GPU,在 10 天内可训练出十万亿规模的超大模型。极大晋升模型训练的效率和资源利用率。与国内等同规模模型相比,能耗升高超过八成,真正实现了绿色 AI。
云边端协同实现无处不在的计算
随着 5G、物联网、AR/VR 等新技术的一直成熟,数字世界与物理世界在进一步交融。
OpenYurt 是业界首个开源的“零侵入的”云原生边缘计算我的项目,去年 11 月成为 CNCF Sandbox 我的项目。
边缘计算面临着算力扩散、资源异构以及弱网连贯等技术挑战。Openyurt 基于 Kubernetes 构建了云边协同计算框架。在过来两年已在视频直播、云游戏、物流交通、智能制作、城市大脑等泛滥行业落地。
往年,咱们心愿以云原生的形式来实现设施孪生,高效地解决物联网场景下海量分布式设施的治理和运维挑战。经验了 OpenYurt 与 EdgeX Foundry 社区,VMWare、Intel 等工程师的单干,实现对端设施和利用治理的对立建模和对立治理。上面我将为大家介绍一个利用 OpenYurt 实现无处不在计算的案例。
机场经营效率对满足日益增长的客流物流需要至关重要,与此同时机场安全性方面的挑战也愈发突出。在智慧机场我的项目中,通过 OpenYurt 构建的云边端一体化架构,实现摄像头、传感器、边缘 AI 一体机等构筑的机场感知层,和基于云平台搭建全局对立治理和大数据平台,从而实现机场全局数据共享和剖析,进而实现机场全景视频拼接、平安的全域监控、物理可视全视线等能力。
隐衷加强计算护航数据安全
随着挪动互联网、物联网的疾速倒退,无处不在的计算时刻产生着海量信息。如何让基础设施更加可信,保障隐衷数据不被窃取、篡改、滥用成为重要的挑战。随着国家《数据安全法》的实施,隐衷加强计算业务失去了业界越来越多的器重。
据 Gartner 预测,到 2025 年,60% 的大型机构将采纳“隐衷加强计算技术”来解决不可信环境或多方数据分析用例中的数据。
隐衷增强型计算中一个重要的技术分支,是通过基于硬件的可信执行环境 TEE 实现数据保护。TEE 的安全性是基于边界的平安模型,它的平安边界十分小并且存在于硬件芯片自身,使 TEE 内执行的利用,不再放心来自其余利用、其余租户或者平台方的威逼。
将容器与可信执行环境相结合的秘密容器技术,进一步晋升了对敏感信息的爱护。一方面容器与残缺的 OS 相比,攻击面更小,另一方面基于容器的安全软件供应链能够保障利用起源的可信、可追溯。
Inclavare Containers 是阿里开源的,业界第一个面向秘密计算的容器运行时我的项目。往年 9 月成为 CNCF 沙箱我的项目。秘密容器能够将秘密计算底层零碎的全副复杂性都暗藏起来,遵循既有的云原生标准化接口和标准,兼容现有的生态。这将减速这项技术的遍及。在社区中合作中,咱们看到来自 Kata Container 社区的工程师也在摸索相干方向。
正如图中所示,由 Inclavare Containers 我的项目反对的 SGX 秘密容器和由 Kata Confidential Container 我的项目反对的基于 MicroVM 的秘密容器,在技术状态上具备高度的相似性。为此,两个我的项目的开发者在踊跃进行单干,通过相互复用彼此的技术组件,最大化了技术价值,并为不同的 TEE 实现实现对立的开发者体验。这也正体现了开源社区的力量。
从技术角度来看,相比于 runC 和 Kata 容器运行时,蕴含了敏感数据的容器镜像须要当时进行加密和数字签名;镜像的下载过程在 TEE 内进行,来确保镜像解密过程的安全性;相干密钥会通过秘密计算特有的近程证实机制所建设的平安可信信道传递到 TEE 中,以确保其内容不会被泄露和篡改;最初,整个秘密容器在运行时都运行在硬件防护的 TEE 中,其计算过程中的数据在内存中是加密的,并受完整性爱护。
通过云原生技术遍及数字化信赖,还是一个新兴的技术畛域,十分期待大家一起共建!
减速云原生人才梯队造就
咱们置信任何一项新技术的倒退和遍及,都要依附业余的人才去驱动。作为云原生畛域的实践者和先行者,阿里云非常重视通过本身的教训积淀,为开发者赋能。
往年 8 月,阿里云与 Linux 开源软件学园、CNCF 独特公布“云原生人才培养打算 2.0”,在生态的合力下,通过凋谢技能图谱、专业课程、认证福利等形式,独特造就云原生专业人才。咱们也欢送更多的开发者小伙伴们一起踏上云原生的学习之路。
再次感激大家的观看,咱们置信绿色、无处不在、可信的云计算将进一步推动产业倒退,帮忙咱们实现更加美妙的今天。
原文链接
本文为阿里云原创内容,未经容许不得转载。