导读
本文整顿自 2022 年 12 月的智算峰会 · 智算技术分论坛上的同名主题分享。
边缘计算正在向分布式云演进,百度智能云如何构建云边端一体的分布式云架构,其中的要害门路、技术挑战、场景实际都有哪些?
边缘计算是一种可能把计算、存储、网络等云计算能力从核心下沉到数据生产生产所在物理地位的云服务。
针对不同客户业务笼罩和就近接入的诉求,基于不同的物理地位,百度智能云提供了残缺的边缘计算服务,包含寰球范畴城域笼罩的边缘计算节点 BEC、本地机房笼罩的本地计算集群 LCC、园区现场的边缘服务器 ECS 等。
随着与客户一起对边缘场景一直继续深刻的摸索,咱们发现了以下 4 点变动:
第一是边缘和核心一体交融化的诉求越来越强烈。客户除了在应用边缘节点以外,也心愿交融应用核心云的资源和边缘节点,构建一个更加一体化的业务架构;
第二场景下沉浸透的趋势越来越显著。随着各种场景的丰盛,从最早的只依赖 IaaS 基础设施逐渐演进到依赖更多的边缘 PaaS 中间件的能力下沉;
第三就是资源碎片化的趋势越来越显著。咱们的客户通常会治理几十个甚至上百个不一样的物理地位的计算资源。如何去治理这些碎片化的资源,就须要一套无效的运维伎俩;
最初就是需要的多样性。咱们须要可能针对不同的客户场景,灵便的提供不一样的算力资源与网络能力。
正是这些变动推动了边缘计算向分布式云的降级。
基于对趋势的判断,咱们构建了一套分布式云的基础架构,用来撑持边缘计算向云边端一体的分布式云演进。
在这个架构中,咱们依靠于同源同栈的分布式云操作系统,构建了可能联合核心云、边缘计算节点 BEC、本地计算集群 LCC、边缘服务器 ECS 等进行交融组网、对立纳管的分布式云基础设施。
为了应答分布式云资源广域笼罩与资源碎片化的特点,咱们基于核心云的基础设施架构演进了超交融小型化架构来撑持边缘计算节点 BEC 和本地计算集群 LCC 的下沉。
同时联合分布式云基础设施建设教训,构建了一套云原生分布式云容器引擎 CCE@Edge,来帮忙客户更好的治理分布式云的资源。
为了实现云边端一体的分布式云架构的演进,这其中波及到四大要害门路:
- 首先是一云多芯满足分布式云特色化场景与差异化需要;
- 其二是同源同栈实现蕴含核心云在内的分布式云体验和能力的一致性和先进性;
- 其三是超交融化来兼顾分布式云规模、弹性、老本的诉求;
- 最初通过是云原生化来帮忙客户去更好的治理分布式云广域笼罩的算力网络资源。
首先来说一下一云多芯。在一云多芯方面,以云游戏实时渲染场景为例,咱们通过就近部署专有硬件来撑持客户高质量实时渲染场景,实现 20 毫秒的端到端提早。
在这个场景之下,边缘节点 BEC 引入了百度自研磐玉蜂巢 ARM 阵列服务器,联合轻量级容器化技术可能成倍的晋升云游戏实力的部署密度,为客户提供高性价比的手机云游戏实例。
基于 PC-FARM 服务器,联合硬件虚拟化技术、从内核到虚拟化进行端到端的性能调优,可能使得在 Windows 云游戏场景下用户既能享受云化的基础设施的便利性,也可能最大水平的开释云渲染的计算能力。
基于 ARM GPU Server 硬件,咱们通过自研 GPU 内核隔离技术,实现 GPU 资源按需分配。同时在网络层面,通过多种多样的软硬件联合的能力实现了经典网络和虚构网络下的租户隔离和交融互通。这使得各种类型的云游戏实例可能和 X86 云主机协同工作,帮忙客户更便捷无效的治理异构硬件与下层业务。
接下来是咱们通过同源同栈的分布式云操作系统,构建了一套对立的分布式云基础设施底座。其次要的挑战在于咱们如何通过同一套虚拟化架构从治理一个集中式 Region 拓展为治理一套广域的分布式云资源。最简略的做法其实是咱们为每一个边缘计算节点都部署一套残缺的虚拟化管制面,然而这种做法会大幅提高整个广域散布的边缘计算集群的保护老本。
因而,咱们创造性的通过云边通道协调器和面向最终一致性的管制面语义,实现分布式云操作系统管制面与数据面的云边拆散,最终实现全面同构的透明化下沉。
随着边缘利用场景的丰盛,也带来了更多中间件场景的诉求来满足本地数据存储与解决、本地高性能缓存、本地增量训练等诸多需要。
因而咱们也同样基于云边通道协调器实现了中间件的通明下沉,使得客户可能应用对立的控制台来治理他的核心云与边缘云的中间件资源,同时也可能享受核心云成熟的中间件自动化运维能力。在此我也很快乐地发表,云数据库 RDS、SCS 的分布式云版本都曾经公布。
说完了同源同栈的基础设施与中间件。咱们仍然没有解决一个问题,即如何将边缘云与核心云造成一个有机的整体。咱们的观点是只有真的同源同栈的技术架构能力帮忙咱们更好地构建体验统一的分布式云,产品之间才能够更加无缝的集成。
因而百度智能云通过对立的云智能网 CSN,基于百度百 T 公网骨干资源来实现边缘节点与核心节点的大带宽与低延时传输,并且通过云智能网 CSN 的路由主动学习和多链路选路优化能力,可能更便捷高效的将咱们的边缘网络与核心网络互联互通。
咱们基于百度百 T 级的骨干公网资源与云智能网 CSN 帮忙客户建设了从研发到量产全环节端到端的车联网基础设施。
以当初最炽热的主动驾驶赛道而言,车辆路测数据的收集是一个业界难题。很多主动驾驶客户,目前支流应用的计划是基于从全国各地的车载设施上装配硬盘邮寄回核心机房的形式去进行数据上云。这种形式尽管具备老本低廉,数据传输量大的特点,然而通常在时效性上就不是那么的尽如人意了。
因而,咱们通过开释百度骨干网资源帮忙咱们的客户,让车载数据通过城域光纤接入遍布全国的骨干 PoP 点资源,实现低成本、高时效的自驾数据汇聚上云。同时针对量产车场景,咱们联结客户针对边缘就近接入的特点在协定层上与客户进行端到端的优化,实现了车辆数据上报与指令下发的就近下沉,帮忙智能网联车终端客户获得更好的智能化体验。
说完同源同栈,咱们也要苏醒地意识到分布式云的架构相比与核心云规模化的挑战而言,又面临着超交融、小型化的挑战。那么咱们如何将一套同源同栈的架构使其可能兼顾规模化、小型化和灵便弹性的须要呢?
咱们给出的答案是实现全面云原生化的基础设施底座,使得百度智能云的边缘计算基础设施在老本上可能大幅的优于竞品。除了部署架构的云原生化外咱们还踊跃的引入了软硬联合的技术手段,基于智能网卡硬件卸载,构建超交融网关,大幅晋升了网关规模化部署与服务承载能力。
具体而言,咱们通过智能网卡 hairpin offload 的技术实现了 Zero CPU Cycles 的集中式超交融网关,这意味着咱们毋庸应用大量的计算资源,仅须要应用一张智能网卡就可能满足 200 GB、3000W PPS 的吞吐能力。
这样的集中式网关同样落地于百度智能云的边缘计算的公网网关、DDoS 分流器、专线网关等多个场景,使得咱们可能在多节点开箱即用的为客户提供统一的服务能力。
介绍完了在云计算基础设施资源层的挑战,最初我想再介绍一下百度智能云的分布式云在利用编排层的一些技术工作。
首先是咱们认为利用云原生技术进行业务架构分布式转型是目前的支流的趋势。分布式云广域的笼罩和业务单元的碎片化须要绝对应的部署和管理手段,这个就会对传统的运维和管理系统提出十分高的要求和挑战。
因而咱们基于分布式云操作系统的实践经验,依靠云原生架构,凋谢了云边自治、边缘容器网络、单元化部署、流量拓扑感知四大外围能力,帮忙客户在他的基础设施之上,构建一个跨地区、跨算力、跨供应商的云边一体化容器引擎。
在此基础之上,咱们认为 Serverless 容器引擎具备的无需治理云主机的这项劣势,使其正在成为分布式云部署的新范式。
因而在边缘 Serverless 容器引擎上,咱们基于虚构节点技术构建了分布式云的无服务器节点,同时反对无缝接入客户自建 Kubernetes 集群。通过分布式云无服务器节点,客户无需关怀云边协同等简单的架构问题,而全副交由基础设施解决,基于繁多容器集群即可轻松治理广域的分布式云节点资源。
同时,咱们也将分布式云操作系统一云多芯的特点带到了咱们的 Serverless 架构中。在计算层面,使得咱们的容器实例反对 GPU、TPU、VPU 等多种异构算力。在存储层面,可能无缝的应用咱们的分布式存储,如云磁盘对象存储等。在网络层面,和咱们的云主机可能基于虚构网络 VPC 对立治理,因此也具备通过 CSN 实现云边边互联的,互联互通需要。
同时咱们也在积极探索与下层业务的交融形象,实现业务部署从 Serverless 持续迈向 Locationless 架构,帮忙咱们的客户更便捷的实现边缘资源管理。
——END——
举荐浏览:
视频编辑场景下的文字模版技术计划
浅谈流动场景下的图算法在反作弊利用
Serverless:基于个性化服务画像的弹性伸缩实际
图片动画化利用中的动作合成办法
性能平台数据提速之路
采编式 AIGC 视频生产流程编排实际