GPU小常识:
GPU(Graphics Processing Unit),中文名:图形处理器,曾用名:显卡。
1999年,Nvidia(英伟达)公司“ZAO”了GPU,这玩意除了极大的推动了基于PC的游戏市场倒退,还彻底改变了并行计算。
没想到二十年后,Nvidia摇身一变成了高大上的AI计算公司,还用GPU绑架了整个人工智能圈子。
我有个客户,几年前新建了一个数据中心,通过P2V技术淘汰了大量X86物理服务器,间接在IT基础设施上胜利实现了服务器虚拟化转型,之后就快马加鞭的向云计算转型,而当下,又开始了人工智能转型。
随着智能商业时代的到来,一些大公司对于AI技术的关注和应用也疾速减少,这些企业都十分重视本身科技能力的构建。其中,搭建自有AI平台,赋能业务成了这些有实力企业的首选。我这个客户天然也不能免俗,洽购了大量的GPU服务器进行部署。
在落地AI场景的同时,客户也心愿对建设GPU资源池做一个评估。针对客户需要,做了一些功课。对于AI,我仍然只是晓得一点皮毛,要说什么算法和模型,我是没戏的,然而能够把交换的学习心得分享一下。
GPU以后次要利用于计算、图形和人工智能畛域。从GPU资源的虚拟化实现门路看,次要有三种技术计划。
VSGA(Virtual Shared Graphics Acceleration),把物理GPU分享给多个桌面用户,每个VDI通过SVGA驱动调用虚拟化的GPU驱动程序,再来调用GPU的运算能力,这个属于典型的桌面虚拟化场景。
VDGA(Virtual Dedicated Graphics Acceleration),把物理GPU调配给一个指定的VM,资源专用,这种模式也称为直通(Pass Through)模式,该计划具备比拟高的性能劣势,但老本绝对较高。
vGPU(Virtualized GPU),把一块物理GPU虚构成多块vGPU卡,每个VM都独占一块vGPU,每个vGPU间接跟物理GPU对接。
事实世界的应用状况又是怎么的呢?
通过技术交换,发现传统行业大多数的GPU资源池案例都是VDI的桌面虚拟化利用场景,针对后盾服务器虚拟化的案例简直没有。在互联网行业,像百度这样在AI畛域比拟强的,用的都是自研的GPU服务器和资源调度平台。
真正的商业案例中,大量客户应用的还是基于X86物理服务器搭配GPU卡的形式来部署AI利用。
之后,对这个客户也做了相应的调研。客户现状:针对AI技术部署了独立的语音剖析、OCR和人脸识别等多个平台,撑持整个公司对于AI场景的需要。(目前有GPU服务器:50台+,GPU卡:180+,后续还有200+的GPU卡扩容打算)。针对调研状况,也做个简要剖析。
利用场景:
目前AI技术次要为两种场景,训练(Training)和推理(Inference),从我这个客户的应用状况看,简直都是推理场景,绝对训练而言,对于GPU的算力的要求不是很高,这一点从用户的性能数据上也有体现。客户模型训练都是在供应商端进行的。
技术计划:
GPU资源池只是一种概念,对于资源的状态来说,GPU是物理的还是虚构的不是最重要的。从资源管理角度看,次要是思考利用效率、拜访性能、平安隔离等因素。
如果是物理服务器计划,下层最佳的部署模式的间接基于容器,然而现实情况是大多数用户的利用部署还是基于PM和VM的。另外,也能够思考基于服务器虚拟化+多GPU卡的计划,一个VM对应一个GPU卡的直通模式,然而利用密度显然受制于GPU卡的数量,如果这时再追加应用vGPU技术,仿佛计划在VM技术平台上就更完满了,当然容器嵌套VM的计划也是一种好的模式。
商务老本:
成熟的商业虚拟化软件是有软件许可费的,而Nvidia的vGPU技术也须要领取相应的软件许可费,这样每个GPU卡能够依据显存的不同配置,被切分为固定数量的vGPU,在雷同数据物理GPU卡配置状况下,晋升VM的部署密度。
其余因素:
当然,目前的“AI芯片”也不是只有Nvidia一家,国内的寒武纪和华为也都用相应的产品撑持AI利用,对于支流的TensorFlow,Cafee框架可能还能够,但对于其余框架和模型在反对上略显有余,还须要增强生态建设。毕竟连英伟达都宣称本人是一家软件研发公司。在这个Software Define Anything的时代,软实力才是真正贴近用户的硬实力。
对于建设后盾撑持AI算力的GPU资源池这件事,技术自身并不存在限度,是个具备规模效应的事件。如果规模大了,兴许百度的“孔明”平台就是一个须要达到的高度。至于其余私有云服务商,当初也都提供了相应的GPU服务,等有机会再去调研一下。
啥叫Deep Learning?就是这种一直学习更新,还要用输入倒逼输出的形式!
发表回复