关于机器学习:为深度学习选择最好的GPU

在进行机器学习我的项目时，特地是在解决深度学习和神经网络时，最好应用 GPU 而不是 CPU 来解决，因为在神经网络方面，即便是一个十分根本的 GPU 也会胜过 CPU。

然而你应该买哪种 GPU 呢? 本文将总结须要思考的相干因素，以便能够依据估算和特定的建模要求做出理智的抉择。

CPU（中央处理器）是计算机的主力，它非常灵活，不仅须要解决来自各种程序和硬件的指令，并且处理速度也有肯定的要求。为了在这种多任务环境中表现出色，CPU 具备大量且灵便疾速的处理单元（也称为核）。

GPU（图形处理单元）GPU 在多任务处理方面不那么灵便。但它能够并行执行大量简单的数学计算。这是通过领有更多数量的简略外围（数千个到上万）来实现的，这样能够同时解决许多简略的计算。

并行执行多个计算的要求非常适合于:

图形渲染——挪动的图形对象须要一直地计算它们的轨迹，这须要大量一直反复的并行数学计算。
机器和深度学习——大量的矩阵 / 张量计算，GPU 能够并行处理。
任何类型的数学计算，能够拆分为并行运行。

在 Nvidia 本人的博客上曾经总结了 CPU 和 GPU 的次要区别:

随着人工智能和机器 / 深度学习的倒退，当初曾经有了更专门的解决外围，称为张量核（Tensor cores）。在执行张量 / 矩阵计算时，它们更快更无效。因为咱们在机器 / 深度学习中所解决的数据类型就是张量。

尽管有专用的 tpu，但一些最新的 GPU 也包含许多张量核，咱们会在前面总结。

这将是一个相当短的局部，因为这个问题的答案必定是 Nvidia

尽管能够应用 AMD 的 gpu 进行机器 / 深度学习，但在写本文时，Nvidia 的 GPU 具备更高的兼容性，并且通常更好地集成到 TensorFlow 和 PyTorch 等工具中（比方目前 PyTorch 的 AMD GPU 的反对还只能在 Linux 上应用）。

应用 AMD GPU 须要应用额定的工具(ROCm)，这个会有一些额定的工作，并且版本可能也不会更新的很快。这种状况未来可能会有所改善，然而当初为止，最好还是应用 Nvidia。

抉择一个够实现机器学习工作并且合乎估算的 GPU，基本上归结为四个次要因素的均衡:

GPU 有多少内存?
GPU 有多少个 CUDA 和 / 或张量核?
卡应用什么芯片架构?
功耗要求是多少（如果有）？

上面将逐个探讨这些方面，心愿能让你更好地了解什么对你来说是重要的。

答案是，越多越好!

这实际上取决于你的工作，以及这些模型有多大。例如，如果你正在解决图像、视频或音频，那么依据定义，你将解决相当大量的数据，GPU RAM 将是一个十分重要的思考因素。

总有方法解决内存不足的问题(例如缩小批处理大小)。然而这将会节约训练的工夫，因而须要很好地均衡需要。

依据教训，我的倡议如下:

4GB：我认为这是相对的最小值，只有你不是在解决过于简单的模型，或者大的图像、视频或音频，这个在大多数状况下能工作，然而达不到日常应用的须要。如果你刚刚起步，想尝试一下又不想全力投入，那么能够从它开始

8GB：这是一个日常学习很好的开始，能够在不超过 RAM 限度的状况下实现大多数工作，但在应用更简单的图像、视频或音频模型时会遇到问题。

12GB：我认为这是科研最根本的的要求。能够解决大多数较大的模型，甚至是那些解决图像、视频或音频的模型。

12GB+：越多越好，你将可能解决更大的数据集和更大的批处理大小。超过 12GB 才是价格真正开始上涨的开始。

一般来说，如果老本雷同的话，抉择“速度较慢”但内存较大的卡会更好。请记住，GPU 的劣势是高吞吐量，这在很大水平上依赖于可用的 RAM 来通过 GPU 传输数据。

这其实很简略，越多越好。

首先思考 RAM，而后就是 CUDA。对于机器 / 深度学习来说，Tensor 核比 CUDA 核更好(更快，更无效)。这是因为它们是为机器 / 深度学习畛域所需的计算而准确设计的。

然而这并不重要，因为 CUDA 内核曾经足够快了。如果你能失去一张蕴含 Tensor 核的卡，这是一个很好的加分点，只是不要太纠结于它。

前面你会看到“CUDA”被提到很屡次，咱们先总结一下它:

CUDA 外围——这些是显卡上的物理处理器，通常有数千个，4090 曾经 1 万 6 了。

CUDA 11 - 数字可能会扭转，但这是指装置的软件 / 驱动程序，以容许显卡失常的工作。NV 会定期公布新版本，它能够像任何其他软件一样装置和更新。

CUDA 代数 (或计算能力)- 这形容了显卡卡在它的更新迭代的代号。这在硬件上是固定的，因而只能通过降级到新卡来扭转。它由数字和一个代号来辨别。例子:3。x[Kepler]，5。x [Maxwell]，6。x [Pascal]，7。x[Turing] 和 8。x(Ampere)。

这实际上比你设想的更重要。咱们这里不探讨 AMD，我的眼里只有”老黄“。

下面咱们曾经说了，30 系列的卡就是 Ampere 架构，最新的 40 系列是 Ada Lovelace。个别老黄都会应用一个驰名科学家和数学家来对架构命名，这次抉择的是驰名英国诗人拜伦之女，建设了循环和子程序概念的女数学家、计算机程序创始人 Ada Lovelace 来命名。

理解对于卡的计算能力，咱们要理解 2 个方面：

显着的性能改良

这里一个重要的性能就是，混合精度训练：

应用精度低于 32 位浮点数的数字格局有很多益处。首先它们须要更少的内存，从而可能训练和部署更大的神经网络。其次它们须要更少的内存带宽，从而放慢数据传输操作。第三数学运算在精度升高的状况下运行得更快，尤其是在具备 Tensor Core 的 GPU 上。混合精度训练实现了所有这些益处，同时确保与齐全精度训练相比不会失落特定于工作的准确性。它通过辨认须要齐全精度的步骤并仅对这些步骤应用 32 位浮点而在其余任何中央应用 16 位浮点来实现这一点。

这里是 Nvidia 官网文档，有趣味的能够看看：

https://docs.nvidia.com/deepl…

如果您的 GPU 具备 7.x (Turing) 或更高的架构，才有可能应用混合准确训练。也就是说桌面的 RTX 20 系列或高版本，或服务器上的“T”或“A”系列。

混合精度训练具备如此劣势的次要起因是它升高了 RAM 使用率，Tensor Core 的 GPU 会减速混精度训练，如果没有的话应用 FP16 也会节俭显存，能够训练更大的批大小，间接晋升训练速度。

是否会被弃用

如果你对 RAM 有特地高的要求，但又没有足够的钱买高端卡，那么你可能会抉择二手市场上的老款 GPU。这有一个相当大的毛病……这张卡的寿命完结了。

一个典型的例子就是 Tesla K80，它有 4992 个 CUDA 外围和 24GB 的 RAM。2014 年，它零售价约为 7000 美元。当初的价格从 150 到 170 美元不等!（咸鱼的价格 600-700 左右）这么小的价格却有这么大的内存，你肯定很兴奋。

然而这有一个十分大的问题。K80 的计算架构是 3.7 (Kepler)，CUDA 11 起曾经不反对(以后 CUDA 版本为 11.7)。这意味着这张卡曾经废了，所以它才卖的这么便宜。

所以在抉择 2 手卡时肯定要看清楚是否反对最新版本的驱动和 CUDA，这是最重要的。

老黄基本上把卡分成了两局部。消费类显卡和工作站 / 服务器的显卡(即业余显卡)。

这两个局部之间有显著的区别，对于雷同的规格(RAM, CUDA 内核，架构)，消费类显卡通常会更便宜。然而业余卡通常会有更好的品质，和较低的能源消耗（其实涡轮的乐音挺大的，放机房还能够，放家里或者试验室有点吵）。

高端 (十分低廉) 的业余卡，你可能会留神到它们有很大的 RAM(例如 RTX A6000 有 48GB, A100 有 80GB!)。这是因为它们通常间接针对 3D 建模、渲染和机器 / 深度学习业余市场，这些市场须要高水平的 RAM。再说一次，如果你有钱，买 A100 就对了!（H100 是 A100 的新版，目前无奈评估）

然而我集体认为，咱们还是抉择消费者的高端游戏卡，因为如果你不差钱，你也不会看这篇文章，对吧

所以在最初我依据估算和需要提出一些倡议。我将其分为三个局部:

低估算
中等估算
高估算

高估算不思考任何超出高端生产显卡。还是那句话如果你有钱：A100，H100 轻易买。

本文中会蕴含在二手市场买到的卡片。这次要是因为我认为在低估算的状况下，二手是能够思考的。这里还包含了业余桌面系列卡(T600、A2000 和 A4000)，因为它的一些配置比同类消费类显卡稍差，但功耗显著更好。

低估算

中等估算

高估算

在线 / 云服务

如果你决定花钱买显卡不适宜你，你能够利用谷歌 Colab，它能够让你收费应用 GPU。

但这是有工夫限度的，如果你应用 GPU 太长时间，他们会把你踢出去，而后回到 CPU 上。如果 GPU 处于非活动状态太长时间，可能是在你写代码的时候，它也会把 GPU 拿回来。GPU 也是主动调配的，所以你不能抉择你想要的确切的 GPU（你也能够每月 9.9 刀弄个 Colab Pro，我集体感觉要比低估算好很多，然而要求有梯子，$49.99 的 Colab Pro+ 有点贵，不倡议）。

在写本文时，通过 Colab 能够取得以下 GPU:

在后面也提到了，K80 有 24GB 的 RAM 和 4992 个 CUDA 外围，它基本上是两个 K40 卡连在一起。这意味着当你在 Colab 中应用 K80 时，你实际上能够拜访一半的卡，所以也就是只有 12GB 和 2496 个 CUDA 内核。

最初当初 4090 还是处于耍猴的状态，基本上要抢购或者加价找黄牛

然而 16384 CUDA + 24GB，比照 3090 的 10496 CUDA，真的很香。

而 4080 16G 的 9728CUDA 如果价格能到 7000 内，应该是一个性价比很高的抉择。12G 的 4080 就别思考了，它配不上这个名字。

对于 AMD 的 7900XTX 应该也是一个很好的抉择，然而兼容性是个大问题，如果有人测试的话能够留言。

40 系列老黄始终在耍猴，所以如果不焦急的话还再等等把：

你不买，我不买，今天还能降两百

https://avoid.overfit.cn/post/de4ad15755634900b0826dc244579472

作者：Mike Clayton

关于机器学习:为深度学习选择最好的GPU

为什么 GPU 比 CPU 更适宜机器学习？

张量处理单元(TPU)

Nvidia vs AMD

GPU 抉择的次要属性

GPU 内存

CUDA 外围和 Tensor 外围

芯片架构

高端游戏卡 VS 工作站 / 服务器卡

抉择倡议

总结

Just My Socks（注册教程内含优惠码）

关于机器学习:为深度学习选择最好的GPU

为什么 GPU 比 CPU 更适宜机器学习？

张量处理单元(TPU)

Nvidia vs AMD

GPU 抉择的次要属性

GPU 内存

CUDA 外围和 Tensor 外围

芯片架构

高端游戏卡 VS 工作站 / 服务器卡

抉择倡议

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）