关于腾讯云:qGPU-容器产品全量上线重磅发布-GPU-在离线混部功能

26次阅读

共计 1632 个字符,预计需要花费 5 分钟才能阅读完成。

作者

徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发教训,长期深耕 Kubernetes、在离线混部与 GPU 容器化畛域,Kubernetes KEP Memory QoS 作者,Kubernetes 踊跃贡献者。

摘要

qGPU 是腾讯云推出的 GPU 共享技术,反对在多个容器间共享 GPU 卡资源,提供百分比算力与 MB 级显存细粒度调配和强隔离能力,并且搭配业界独有的 GPU 在离线混部技术,在充分保证业务平安、稳固的前提下,将 GPU 利用率晋升到了极致。

qGPU 已服务内外部大量客户,帮忙泛滥 AI 企业节俭大量 GPU 老本。qGPU 容器虚拟化产品现已在腾讯云 TKE 全量上线。

腾讯云在业界(除 NVIDIA 原厂外)首次实现了对细粒度算力强隔离的反对。qGPU 算力能够实现 1% 的细粒度限度,并且保障严格依照配比调配和限度算力资源,即便在 GPU 资源十分缓和时,各业务所调配算力资源仍然保障不受影响。依赖这种能力,企业用户能够尽量多的减少业务部署密度,充分利用 GPU 资源,而不必放心会对业务带来负面影响。

qGPU 依赖 TKE 自研调度器和设施管理器,在 TKE Kubernetes 集群上反对 GPU 卡级别的百分比算力和 MB 级显存调配和调度,在保障集群最优资源分配和负载的前提下,让企业 AI 工作能够应用更小粒度的 GPU 资源。

qGPU 在 GPU 硬件级(而非 CUDA API 级的拦挡和管制)实现了 QoS 能力,通过 MB 级管制 GPU 显存资源分配及细粒度的强算力隔离,最大水平防止了因共享 GPU 带来的业务性能损失。通过这种翻新技术,qGPU 解决了 故障、显存 和 算力 全维度的隔离问题。

除此之外,腾讯云 qGPU 创新性的将在离线混合部署技术与 GPU 相结合,在业界首次提出了 GPU 在离线混部的概念,将 GPU 容器共享技术推动到了下一个纪元。

在线业务通常指推理业务,离线业务可能是推理、也可能是训练,于是在离线混部次要模式有 推理 + 推理、推理 + 训练。如果不足无效技术手段,为了保障在线业务的 QoS,须要使之独占一张 GPU 卡,这会导致利用率很低。在具备 qGPU 在离线混部能力之后,用户能够平安地将在线业务与其余业务部署在同一张 GPU 卡,在共享复用资源的同时,能够齐全保障在线业务衰弱、稳固运行。

能够说,腾讯云 qGPU 在离线混部是晋升 GPU 利用率的创新性的冲破技术。利用当先的细粒度算力隔离技术和独创的算力高下优调度技术,在保障在线工作算力 QoS 的前提下,能够无效将 GPU 利用率晋升至 100%,极大水平缩小算力节约,将 GPU 资源压迫到极致。

总结

算力异构化曾经是明天的业界共识。其中 GPU 以其弱小的算力和欠缺的生态,在 AI 异构计算中占据了统治位置。面对低廉的 AI 算力资源,企业迫切的心愿有技术手段能够帮忙降低成本,减少效率。

腾讯云 qGPU 立足 AI 畛域,依靠 GPU 资源细粒度调度、GPU 资源强隔离、GPU 在离线混部 等技术产品,通过为企业晋升 GPU 应用效率,开释 AI 算力生产力,最终帮忙企业带来继续和一直的微小商业价值。

qGPU 容器虚拟化:https://cloud.tencent.com/doc…

对于咱们

更多对于云原生的案例和常识,可关注同名【腾讯云原生】公众号~

福利:

①公众号后盾回复【手册】,可取得《腾讯云原生路线图手册》&《腾讯云原生最佳实际》~

②公众号后盾回复【系列】,可取得《15 个系列 100+ 篇超实用云原生原创干货合集》,蕴含 Kubernetes 降本增效、K8s 性能优化实际、最佳实际等系列。

③公众号后盾回复【白皮书】,可取得《腾讯云容器平安白皮书》&《降本之源 - 云原生老本治理白皮书 v1.0》

④公众号后盾回复【光速入门】,可取得腾讯云专家 5 万字精髓教程,光速入门 Prometheus 和 Grafana。

⑤公众号后盾回复【精选集】,可取得腾讯 24 位腾讯云专家精彩演讲——4 万字《腾讯云技术实际精选集 2021》。

【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!

正文完
 0