背景
qGPU 是腾讯云推出的 GPU 共享技术,反对在多个容器间共享 GPU 卡,并提供容器间显存、算力强隔离的能力,从而在更小粒度的应用 GPU 卡的根底上,保障业务平安,达到进步 GPU 使用率、升高客户老本的目标。
qGPU on TKE 依靠腾讯云 TKE 对外开源的 Nano GPU 调度框架,可实现对 GPU 算力与显存的细粒度调度,并反对多容器共享 GPU 与多容器跨 GPU 资源分配。同时依赖底层弱小的 qGPU 隔离技术,可做到 GPU 显存和算力的强隔离,在通过共享应用 GPU 的同时,尽最大可能保障业务性能与资源不受烦扰。
性能劣势
qGPU 计划通过对 NVIDIA GPU 卡上工作更无效的调度,达到给多个容器共享应用的目标,反对的性能如下:
灵活性 :用户能够自在配置 GPU 的显存大小和算力占比
云原生 :反对规范的 Kubernetes,兼容 NVIDIA Docker 计划
兼容性 :镜像不批改 /CUDA 库不替换 / 业务不重编,易部署,业务无感知
高性能 :在底层对 GPU 设施进行操作,高效收敛,吞吐靠近 0 损耗
强隔离 :反对显存和算力的严格隔离,业务共享不受影响
技术架构
qGPU on TKE 应用 Nano GPU 调度框架,通过 Kubernetes 扩大调度机制,同时反对 GPU 算力与显存资源调度。并且依赖 Nano GPU 的容器定位机制,反对精细化 GPU 卡调度,同时反对多容器 GPU 卡共享调配与多容器 GPU 跨卡调配。
qGPU 间接采纳英伟达 GPU 底层硬件个性进行调度,实现细粒度算力隔离,突破传统上 CUDA API 劫持计划的只能以 CUDA Kernel 为粒度进行算力隔离的限度,提供更好的 QoS 保障。
客户收益
- 多任务灵便共享 GPU,晋升利用率
- GPU 资源强隔离,业务共享不受影响
- 齐全面向 Kubernetes,业务应用零老本
将来布局
● 反对细粒度资源监控 :qGPU on TKE 将反对对 Pod 和容器级的 GPU 使用率采集,实现更细粒度的资源监控和与 GPU 弹性能力的整合
● 反对在离线混部 :qGPU on TKE 将反对在线业务和离线业务的高低优先级混部,最大限度地晋升 GPU 利用率
● 反对 qGPU 算力池化 :基于 qGPU 的 GPU 算力池化,实现 CPU、内存资源与异构计算资源解耦
内测申请
qGPU 曾经凋谢收费内测,欢送增加腾讯云原生小助手:TKEplatform,备注”qGPU 内测申请“进行试用!
对于咱们
更多对于云原生的案例和常识,可关注同名【腾讯云原生】公众号~
福利:公众号后盾回复【手册】,可取得《腾讯云原生路线图手册》&《腾讯云原生最佳实际》~
【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!