乐趣区

关于腾讯云:峰值利用率80视频云离线转码自研上云TKE实践

作者

刘兆瑞,腾讯云高级研发工程师,负责腾讯明眸极速高清,画质新生等产品。专一于 codec 优化,画质加强等技术。

背景和问题

随着流量资费的升高和带宽的减少,视频成为人们获取信息越来越重要的形式,随之而来的是云点播、视频解决等视频相干业务的飞速发展,而视频转码平台作为云点播、视频解决的根底产品,面临着高并发、高 SLA、高压缩率等等多样的需要,面临着极大的挑战。

对于个别流程来说,咱们面临着上面几个挑战和诉求:

  1. 不同的转码产品对外围数的需要不同,比方:极速高清、延时敏感的业务,须要大外围来保障简单运算的稳定性,一般转码则能够用小外围来代替。分布式转码中的合并和切片服务则对 IO 性能,硬盘大小比拟关注。
  2. 转码业务对 avx 指令集的利用率很高,因而通用 CPU 算力往往并不会成为瓶颈,avx 指令集的计算频率则成为转码业务的关注重点。而集群内 CPU 型号往往是多样的,因而正当的抉择 CPU 型号对于转码业务十分重要,TKE 扩大 pod 时候须要可能抉择 CPU 型号。
  3. 短期、高并发需要多:客户会用咱们的能力实现不同的玩法,比方:客户须要对其全站的视频进行极速高清压缩或者画质加强,这里短期内须要可能获取到微小的资源,并在应用过后可能疾速退回节省成本。
  4. 模型、服务迭代快:云服务厂商间的竞争十分强烈,常常会有客户提出新的需要,pod 可能反对疾速、无损的更新迭代版本。

容器化 & 全量上云记录

容器化

这里的容器化过程,次要包含对业务的服务流程梳理,整体的公布流程规范化:

业务不同性能机型申请

迁徙 TKE 之前,物理机的型号往往是固定的,固定 CPU 核数、内存、硬盘容量的搭配,而这些对于指定业务来说往往会造成资源的节约,无奈充分利用所有的资源。比方:转码业务关怀 CPU 性能,对于内存的利用则很低,而物理机 48C 的机型往往搭配 64G 内存,造成肯定水平的内存节约。

迁徙 TKE 之后,依据不同的业务模型场景,能够准确的调配业务所须要的 CPU、内存、硬盘资源,充分利用起每一项资源。

CPU 型号限度

转码业务对 avx 指令集的利用率很高,而很多型号的 CPU 尽管通用计算频率高,然而指令集被限频了,这种型号的 CPU 尽管核数多,然而编码效率很低。因而业务进行 pod 扩大时,心愿可能躲避剔除掉某些型号的 CPU。

为了解决这一问题,TKE 反对了 CPU 亲和性配置,配置如下:

疾速扩缩容

转码业务尽管是离线业务,然而重点客户对 SLA 还是有很高的要求。须要能更疾速扩缩容,满足客户动静需要。

面对这种突发的申请,TKE 能够通过动静的扩缩容满足需要,同时业务流量突发完结后,也能够疾速缩容来升高应用老本。

当然,动静扩缩容也会带来额定的挑战。对于转码业务来说,很多工作都是长时工作,不能中断的。比方:个 100+ 小时的视频转码,曾经转了 50 小时 +,不能因为扩缩容而中断工作,从新转码。针对这种场景,TKE 也给出了很好的解决方案,能够通过删除爱护完满反对这一诉求。

业务疾速更新上线

云端转码服务多个云上根底产品,大量公司内外客户,需要和公布节奏都很快,每周都会有新的版本升级变更。因而可能反对疾速公布,是业务的强诉求。同时,公布不能中断业务正在解决的工作,针对这一状况,TKE 反对了原地降级选项,降级 POD 业务代码,不须要销毁重建 runtime 运行中容器,反对服务运行中实现热更新。

lxcfs & 固定 IP 助力工作精准调度

转码的业务与通用的业务申请不同,在开始转码前是无奈预知以后转码申请的资源消耗量的。比方:游戏直播视频和课堂教育视频,资源的消耗量会相差一个量级。因而转码工作的调度是依赖转码机被动上报当前任务数和每个工作的负载状况,由调度依据以后的理论负载状况来散发新的工作申请。

然而,通用的 pod 内进行 ps 等操作获取的是母机的负载信息,而不是以后 pod 的理论负载信息,这样会导致调度失衡。为了解决这一问题,TKE 反对 lxcfs 配置,通过 lxcfs 能够精准获取以后 pod 的理论负载信息。

面对下面的场景,另一个问题是如果每次 POD 重建过程都会从新申请 IP,那无疑会对调度的 IP 治理造成额定的累赘。针对这种状况,TKE 也反对了固定 IP,IP 保留等能力。

上线成绩

视频云离线转码服务,CPU 均匀利用率 50%+。峰值利用率 80%+. 同时,动静的扩缩容和疾速上线的反对,都无效的为业务需要和流量突发保障护航。

对于咱们

更多对于云原生的案例和常识,可关注同名【腾讯云原生】公众号~

福利:

   ①公众号后盾回复【手册】,可取得《腾讯云原生路线图手册》&《腾讯云原生最佳实际》~
   
   ②公众号后盾回复【系列】,可取得《15 个系列 100+ 篇超实用云原生原创干货合集》,蕴含 Kubernetes 降本增效、K8s 性能优化实际、最佳实际等系列。

【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!

退出移动版