不同类型AI服务器之比拟剖析,通过上面这张二维图中咱们能够对不同架构的服务器进行简略的比拟。

首先看下不同类型AI服务器的比拟,从左上方到右下角顺次是CPU、GPU、FPGA、TPU、ASIC,从横轴来看,越往右性能(Performance)越好。

纵轴

Programmability/Flexibility是指服务器的可编程性和灵活性, ASIC的性能最好,因为它是将算法固化在芯片上,算法是比拟固定的,所以它的性能最好的,然而它的编程性和灵活性就绝对比拟弱。而CPU的灵活性和编程性最好,但性能最弱。

总的来说,GPU的灵活性比CPU弱,但它的性能更好。往下顺次是FPGA、TPU以及ASIC。

在理论抉择时须要思考到功耗、老本、性能、实时性等各方面因素,尤其是一些具备专用目标的处理器,如果算法曾经固化并且很简略,能够思考ASIC,因为ASIC性能好且功耗低。如果是在训练或者通用状况下,GPU则是更好的抉择。

抉择GPU服务器的根本准则

在介绍抉择GPU服务器的根本准则之前,先来跟大家介绍下常见的GPU和GPU服务器。

常见的GPU,按总线接口类型能够分为NV-Link接口、传统总线接口以及传统PCI-e总线三种。

NV-Link接口类型的GPU典型代表是NVIDIA V100,采纳SXM2接口,在DGX-2上有SXM3的接口。

NV-Link总线规范的GPU服务器能够分为两类,一类是NVIDIA公司设计的DGX超级计算机,另一类是合作伙伴设计的NV-Link接口的服务器。DGX超级计算机不仅仅提供硬件,还有相干的软件和服务。

传统总线接口的GPU,目前支流的有这几款产品,比方采纳了PCI-e接口的V100、 P40(P结尾指的是上一代PASCAL架构)和P4,以及最新的图灵架构T4等。其中比拟薄和只占一个槽位的P4和T4,通常用于Inference,目前也曾经有成熟的模型进行推理和辨认。

传统PCI-e总线的GPU服务器也分为两类,一类是OEM服务器,比方曙光、浪潮、华为等其余国际品牌;另一类是非OEM的服务器,也包含很多品种。

抉择服务器时除了分类,还要思考性能指标,比方精度、显存类型、显存容量以及功耗等,同时也会有一些服务器是须要水冷、降噪或者对温度、移动性等等方面有非凡的要求,就须要非凡的服务器。

抉择GPU服务器时首先要思考业务需要来抉择适宜的GPU型号。在HPC高性能计算中还须要依据精度来抉择,比方有的高性能计算须要双精度,这时如果应用P40或者P4就不适合,只能应用V100或者P100;同时也会对显存容量有要求,比方石油或石化勘探类的计算利用对显存要求比拟高;还有些对总线规范有要求,因而抉择GPU型号要先看业务需要。

GPU服务器人工智能畛域的利用也比拟多。

GPU服务器的次要利用场景

海量计算解决

GPU 服务器超强的计算性能可利用于海量数据处理方面的运算,如搜寻、大数据举荐、智能输入法等:

• 本来须要数天实现的数据量,采纳 GPU 服务器在数小时内即可实现运算。

• 本来须要数十台 CPU 服务器独特运算集群,采纳单台 GPU 服务器可实现。

深度学习模型

GPU服务器可作为深度学习训练的平台:

1.GPU 服务器可间接减速计算服务,亦可间接与外界连贯通信。

2.GPU 服务器和云服务器搭配应用,云服务器为主 GPU 云服务器提供计算平台。

3.对象存储 COS 能够为 GPU 服务器提供大数据量的云存储服务。

当GPU型号选定后,再思考用什么样GPU的服务器。这时咱们须要思考以下几种状况:

第一、在边缘服务器上须要依据量来抉择T4或者P4等相应的服务器,同时也要思考服务器的应用场景,比方火车站卡口、机场卡口或者公安卡口等;在核心端做Inference时可能须要V100的服务器,须要思考吞吐量以及应用场景、数量等。

第二、须要思考客户自身应用人群和IT运维能力,对于BAT这类大公司来说,他们本人的经营能力比拟强,这时会抉择通用的PCI-e服务器;而对于一些IT运维能力不那么强的客户,他们更关注数字以及数据标注等,咱们称这类人为数据科学家,抉择GPU服务器的规范也会有所不同。

第三、须要思考配套软件和服务的价值。

第四、要思考整体GPU集群零碎的成熟水平以及工程效率,比方像DGX这种GPU一体化的超级计算机,它有十分成熟的从底端的操作系统驱动Docker到其余局部都是固定且优化过的,这时效率就比拟高。