关于腾讯云:边缘计算场景下云边端一体化的挑战与实践

68次阅读

共计 5280 个字符,预计需要花费 14 分钟才能阅读完成。

本文整顿自 腾讯云专家工程师王继罗 在 2020 年 12 月深圳 Qcon 大会上的分享内容——边缘计算场景下云边端一体化的挑战与实际

边缘计算想必大家都曾经听过了,然而如何将业务扩大到边缘,从而实现更大的业务价值呢?

对于这个问题,腾讯云早在几年前就已开始进行思考,并且着手打造了云边端一体化的超交融平台,目标是心愿可能让业务能够更容易落地到边缘。

明天,咱们就从以下三个局部开展,跟大家分享腾讯云在建设超交融平台时的一些教训:

  • 第一局部:次要介绍边缘计算有什么作用、业务落地边缘存在哪些挑战、以及为什么要有云边端一体化;
  • 第二局部:次要介绍腾讯云在打造超交融平台时的一些实战经验和停顿;
  • 第三局部:介绍 3 个边缘业务落地案例。

云计算发展趋势

提到云计算,大家第一工夫就会想起核心云计算。核心云计算是一种集中式架构,计算资源位于核心机房,由云厂商对立保护。那么,这种模式有什么益处呢?

  1. 业务方不再须要治理底层资源,更能聚焦于业务自身,升高了治理老本;
  2. 业务方能够灵便高效地申请、应用、退还底层资源,从整体上进步了资源利用率,升高了资源的应用老本。

而边缘计算,是一种分布式计算,计算资源扩散在离数据源比拟近的中央,达到就近提供服务的目标。从工夫维度上看,边缘计算的倒退能够分为 3 个阶段:

  1. 技术形成期,1998 – 2013。最早能够追溯到内容散发网络(CDN),主要用途把数据缓存在离用户近的地位,达到缩短数据下载工夫,进步用户体验的目标。
  2. 疾速发展期,2014 – 2017。因为满足万物互联的需要,引起国内外学术界和产业界的亲密关注,各机构纷纷出台相干的白皮书。
  3. 理论落地期,2018 –? 随着 5G 的倒退,呈现越来越多的落地场景,进入政府工作领导报告,基本上能够预感边缘计算会开始暴发。

边缘计算有什么用

后面咱们讲了边缘计算是什么,有些人就会有这样一个疑难:既然咱们曾经有了核心云计算,为什么还须要边缘计算?边缘计算能带来什么价值呢?

其实随着技术一直地倒退,云计算的领域曾经从核心一直地向边缘扩大,演变成了 核心云 - 边缘云 - 端设施 协同工作的架构模式。

为什么会产生这样变动呢?次要是因为需要和场景在一直变动,尤其是许多传统行业在信息化革新过程中提出来更多新需要,如:工业制作、港口物流、交通能源等等。

以智能制作为例,智能制作的实质就是设施智能化、信息化,整个零碎的工作流程是:采集数据、解决数据、领导生产。这带来了两个方面的问题:

  1. 高实时性要求。很多工业数据具备极强的实时性,过期工夫十分短,往往只有几毫秒,这就要求采集数据、数据处理、领导生产的整个过程须要在几毫秒内实现。如果上传到云端解决,而后从云端返回控制指令,整个过程就会耗时比拟长,显然不能满足时效性要求,会造成重大的结果,比方制作出的产品精度不够,或者次品率比拟高,所以就近解决数据是智能制作的外围。
  2. 海量数据如何解决。智能工控设施、传感器源源不断地产生工业产品及环境方面的数据,带来很高的传输和存储老本,这些老本甚至超过智能化带来的利润,反而成了工业往智能化转型的妨碍。另一方面,这些数据 90% 以上都是有效数据,如果能够尽可能早地筛选出有用数据,去除有效数据,就能够很好地升高传输和存储老本。

再举一个高清视频的例子,4K 的高清视频须要至多 40M 带宽,带宽容量和老本是咱们必须思考的重要因素,绝对于核心机房,边缘机房的总带宽容量要大,单价也更便宜,因而这类服务很适宜部署在边缘。

总的来说,边缘计算能够带来 4 个方面的益处,容量更大、时延更低、老本更低、反对本地化解决。

边缘计算架构

后面咱们讲了云计算在逐渐演变成核心云 - 边缘云 - 端设施协同工作的模式,那新模式下的架构如何呢?

以腾讯云为例,核心云通常指的是 IDC 机房,边缘云顺次会是 ec、oc、mec 机房,现场设施个别位于数据源左近,比方:家庭网关、交通灯路口、港口 / 园区 / 矿山外部。

通常物联设施与边缘端设施之间的时延能够管制在 2 ms 内,适宜解决实时性要求极高的业务数据,比方工业管制类的业务。

与边缘云之间的时延能够管制在 10ms 内,能够满足实时音视频、ARVR、云游戏的业务场景。

这就是边缘计算的大抵架构状况。

带来的挑战

上面咱们一起看一下边缘计算场景会带来哪些新挑战。

  1. 异构重大。在软硬件两方面都有体现,像核心云和边缘云通常采纳 x86 和 linux 规范发行版,而边缘资源因为须要思考老本以及业务的特殊要求很可能是采纳老本更便宜或者是定制化的软硬件计划。
  2. 规模宏大。依据各种权威机构预测,2025 年寰球物联设施数量会冲破千亿,散布在寰球各地。如何去治理这么大规模的设施也是一项很有挑战的工作
  3. 环境简单。位于云机房的设施还好,很多终端设备经常位于顽劣的环境,你比方炼钢厂的很多设施长期处于低温环境、水利监测方面的设施部署环境往往都比拟湿润。设施网络环境也是各种各样,有线的、无线的,无线又有 WIFI、4G5G 网络、zigbee 等等。
  4. 规范不对立。很多中央还处于没有规范,或者是有很多规范但没有一种公认规范,尤其是在治理形式上极其不对立。

这些挑战带来的结果就是:

  1. 效率降落。包含研发测试、交付部署、降级运维等等
  2. 治理艰难。规模很大,各方面环境很简单,规范也很多,想要管好咱们的资源也变得困难重重。
  3. 可靠性升高。边缘环境很顽劣,如何在顽劣的环境下保障服务质量也是一个难题

云边端一体化的意义

边缘场景有如此多的挑战,带来的影响就是业务落地十分艰难,这个问题间接妨碍了行业的倒退。为了升高业务落地门槛,促成行业顺利倒退,云边端一体化的就显得很有必要。

一体化体现在多个方面:

  1. 对立治理。首先,咱们要把复杂多变底层资源管理计划对立起来,尽量减少业务对底层细节的不必要感知,比方硬件架构、操作系统、网络环境等等。其次是提供的治理能力要尽可能与核心云放弃对立,比方监控告警、公布运维等等各种业务罕用的根底能力。
  2. 云边协同。在边缘计算场景下,把业务从核心下沉到边缘是很天然的事件,然而还不够。通常都须要让边缘和云协同工作起来,比方:把边缘的有用数据收集到核心进行剖析解决,而后持续反馈到边缘也是十分有必要的。以 AI 场景为例,咱们能够把推理放到边缘进行,而后从边缘收集数据在核心进行训练,训练好的模型又下发到边缘。另外,云上的能力也须要造成联动,比方把边缘的有用数据收集上来,在云上做出现和再加工。
  3. 资源调度。边缘计算场景下资源很扩散,负载随着时空不同而差别很大,如何依据时空差别对资源做正当无效的调节,使资源应用达到最佳成果也是一件很有意义的事件。正当的资源调度能够让零碎变得更高效、稳固、低成本。

超交融平台的使命

下面咱们一起探讨了边缘计算的挑战和云边端一体化的意义,腾讯云几年前就开始往这方面投入资源,通过多年积淀逐渐建设了囊括方方面面的超交融平台,接下来再和大家分享下腾讯云在超交融平台建设方面的实际。

在建设初期,大家思考得最多的问题就是什么是超交融平台,咱们心愿超交融平台给业务带来什么样的益处。通过长时间的摸索,咱们确定了超交融平台的使命:让边缘资源像核心云资源一样容易治理。

简略来说就是,从平台层面屏蔽底层的复杂性,所有的根底能力尽可能与核心云对齐,从而让业务应用起来感触不到太多差别,业务方能够更加聚焦,把精力集中于具体业务研发,最终让所有的事件都变得简略高效。

如何达成这种成果

方向:
  1. 齐全自研。从零开始,代价很高;不具备普适性,难以推广。
  2. 拥抱云原生。云原生是一种生态,囊括了方方面面的能力,咱们能够基于这些能力,而不是反复造轮子,更聚焦于解决边缘场景的特殊性,达到事倍功半的成果。
计划:
  1. 应用原生 Kubernetes。并非针对边缘计算场景,间接在边缘应用会有一些问题。
  2. 魔改 Kubernetes。门槛高,代价大,兼容性问题不可漠视。
  3. 加强 Kubernetes。恪守 Kubernetes 规范,灵便,凋谢,学习成本低,应用起来容易。

TKE Edge

TKE Edge 是腾讯云基于原生 Kubernetes 研发的边缘计算容器零碎,它的次要目标是屏蔽盘根错节的边缘计算物理环境,为业务提供一种对立的、规范的资源管理和调度计划。其局部能力曾经开源为 SuperEdge 我的项目。

TKE Edge 有多个特点:

  1. Kubernetes 原生。以无侵入的形式将 Kubernetes 弱小的容器编排、调度能力拓展到边缘端,其原生反对 Kubernetes,齐全兼容 Kubernetes 所有 API 及资源,无额定学习老本。
  2. 边缘自治。提供 L3 级边缘自治能力,当边缘节点与云端网络连接不稳固或处于离线状态时,边缘节点能够自主工作,化解了网络不牢靠所带来的不利影响。
  3. 分布式节点衰弱监测。是业内首个提供边缘侧衰弱监测能力的开源容器管理系统。SuperEdge 能在边缘侧继续守护过程,并收集节点的故障信息,实现更加疾速和精准的问题发现与报告。此外,其分布式的设计还能够实现多区域、多范畴的监测和治理
  4. 内置边缘编排能力。可能主动部署多区域的微服务,方便管理运行于多个地区的微服务。同时,网格内闭环服务能够无效缩小运行负载,进步零碎的容错能力和可用性
  5. 内网穿透。可能保障 Kubernetes 节点在有无公共网络的状况下都能够间断运行和保护,并且同时反对传输控制协议(TCP)、超文本传输协定(HTTP)和超文本传输平安协定(HTTPS)。

超交融平台

超交融平台是以底层 IaaS 为根底,以 TKE Edge 为粘接,集成大量腾讯云上能力和业务的边云联动平台,平台有三大特点:

  1. 开放性。在 IaaS 资源侧,除了能够接入腾讯的资源,还能够很不便地接入用户已有的计算资源:如其余云厂商服务器、用户自建机房、智能设施等等。
  2. 集成性。平台集成大量云上根底服务能力,云监控、云日志、云运维等,能满足大部分应用需要;另外还买通了腾讯云资源,边缘计算机器、腾讯云智能网关设施等等。
  3. 易用性。性能应用形式根本与核心云应用形式保持一致,毋庸学习额定的应用常识。

边缘资源建设状况

  1. 边缘计算机器(Edge Computing Machine,ECM)。该产品通过将计算能力从核心节点下沉到凑近用户的边缘节点,提供低时延、高可用、低成本的边缘计算服务,目前已凋谢 300+ 节点,全国笼罩。产品主页:https://console.cloud.tencent…
  2. 一体化核心。该产品以腾讯云自研的 Mini T-Block 的挪动数据中心基础设施为载体,交融 5G、边缘计算、物联网等技术能力,以及引入腾讯云边缘计算 IaaS/PaaS/SaaS 平台产品能力,反对云游戏、4K 直播、机器人等 5G 2C 和 2B 业务,提供全面翻新、可交付型的 5G 边缘计算整体解决方案。
  3. 边缘智能网关。该产品是腾讯面对物联网边缘利用场景的工业级设施,提供 IoT 设施接入、AI 本地剖析、边云协同等性能,具备小体积、高牢靠、多网络、超静音、易治理等个性,实用于园区安防、智慧批发、电力巡检、智慧路灯、智能交通、水利监测、工业质检等场景。

边缘业务落地案例

音视频业务实际

  1. 资源量极大,散布极广,异构很重大。开发时须要思考适配不同的硬件环境,测试的工作量成倍增加,公布上线更是相当麻烦。
  2. 如果是每个机房部署一套 K8s,一则是带来的额定资源开销老本不可漠视,二则会呈现上千个集群基本上曾经无奈治理。
  3. 接入超交融平台后,通过容器化技术最大水平屏蔽掉底层资源异构,集群数量能够从上千个缩小到几十套。开发、测试、公布运维老本降落显著。

工业云

工业云的底层是一个公有云机房,下面部署许多工业畛域方面的管理系统。其中交付和运维是他们最头痛的两个问题。以往都是差遣交付团队去客户现场部署,交付一套零碎少则半个月,日常运维、扩容等根本都须要去现场施行,效率很低,老本极高。

对接到超交融平台后,他们的交付精简成只需在用户环境中执行一条命令,日常运维等操作全副在云上实现。

另一个是工业增值业务,以往都是用户选中须要的增值业务,签合同,去现场部署,客户付钱,流程繁琐,周期很长。当初做出了云上工业电商模式,用户把业务加到购物车,自行下单后业务实时失效。

混合资源管理

这个场景的特点是资源类型很多,有云主机、自建机房、边缘智能设施,网络环境也很简单:4/5G、单向网络,都有。

以车路协同为例,通常在一个区域有一个云核心,下面运行车路协同相干的系统管理服务;云核心之下是边缘云小机房,数量从几个到上百个不等,次要做数据存储;再上面是路口智能设施,运行 AI 推理方面的服务,负责解决路口摄像头视频数据;

以前的治理形式是在核心云和边缘云均部署一套 K8s,路口智能设施因为资源无限不足以部署残缺的 Kubernetes 集群,未容器化。这场景两大次要痛点是:

  1. 集群数量太多,治理起来是一个惨重的累赘。另一个是服务更新和配置降级很麻烦,须要一个一个集群操作,很容易脱漏。
  2. 路口智能设施因为未容器化,无论是服务降级还是线上 debug 均不不便。

因为超交融平台不要求边缘资源在同一内网,很不便就在同一个集群内同时管理中心云、边缘云、路口设施,很好地解决了下面提到的两个痛点。

【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!

正文完
 0