共计 2594 个字符,预计需要花费 7 分钟才能阅读完成。
显卡大幅提价了然而还能够再等等,新的 40 系列显卡也要发售了,所以咱们先看看目前上市的显卡的性能比照,这样也能够估算下 40 显卡的性能,在当前购买时作为参考。
然而在本文之前肯定要说下的是:本文并不举荐当初就买显卡,除非必须,当初肯定不要买显卡,谁买谁吃亏,目前的状况是,“等”就对了
回到正题,在这篇文章中我整顿了几个在 NVIDIA GeForce RTX 3090 GPU 进行的深度学习性能基准测试。
个别的状况下咱们都会应用 TensorFlow github 中的“tf_cnn_benchmarks.py”脚本来进行深度学习的评测。因为大多数的测试都是基于这个脚本,代码在这里(https://github.com/tensorflow…),如果你是 pytorch 也能够参考,显卡的基准测试与应用的框架无关,差异不会超过 5%。
首先应用 1、2 和 4 个 GPU 配置(针对 2x RTX 3090 与 4x 2080Ti 局部)运行了雷同的测试。确定的批量大小是能够包容可用 GPU 内存的最大批量。
而后还会比拟 2022 年最风行的深度学习 GPU 的性能:除 NVIDIA 的 RTX 3090 以外还包含了、A100、A6000、A5000 和 A4000 等产品。
3090 比照其余生产级的产品
首先说后果:NVIDIA RTX 3090 在所有型号上均优于所有 GPU(图像 / 秒)。2x RTX 3090 > 4x RTX 2080 Ti。对于深度学习,RTX 3090 是市场上性价比最高的 GPU,可大幅升高 AI 工作站的老本。
RTX 3090 ResNet 50 TensorFlow Benchmark
1x GPU | 2x GPU | batch size | |
---|---|---|---|
RTX 2080 Ti | 522.52 | 959.78 | 128 |
RTX 6000 | 637.56 | 1248.54 | 512 |
RTX 8000 | 604.76 | 1184.52 | 1024 |
TITAN RTX | 646.13 | 1287.01 | 512 |
RTX 3090 | 1139.15 | 2153.53 | 512 |
RTX 3090 ResNet 152 TensorFlow Benchmark
1x GPU | 2x GPU | batch size | |
---|---|---|---|
RTX 2080 Ti | 209.27 | 348.8 | 64 |
RTX 6000 | 281.94 | 519.76 | 256 |
RTX 8000 | 285.85 | 529.05 | 512 |
TITAN RTX | 284.87 | 530.86 | 256 |
RTX 3090 | 457.45 | 857.14 | 25 |
RTX 3090 Inception V3 TensorFlow Benchmark
1x GPU | 2x GPU | batch size | |
---|---|---|---|
RTX 2080 Ti | 310.32 | 569.24 | 128 |
RTX 6000 | 391.08 | 737.77 | 256 |
RTX 8000 | 391.3 | 754.94 | 512 |
TITAN RTX | 397.09 | 784.24 | 256 |
RTX 3090 | 697.98 | 1296.86 | 256 |
RTX 3090 Inception V4 TensorFlow Benchmark
1x GPU | 2x GPU | batch size | |
---|---|---|---|
RTX 2080 Ti | 150.59 | 247.16 | 64 |
RTX 6000 | 203.9 | 392.14 | 256 |
RTX 8000 | 203.67 | 384.29 | 512 |
TITAN RTX | 207.98 | 399.16 | 256 |
RTX 3090 | 360 | 679.61 | 256 |
2x NVIDIA RTX 3090 Vs 4x RTX 2080 Ti
1x GPU | 2x GPU | 4x GPU | batch size | |
---|---|---|---|---|
RTX 2080 Ti | 522.52 | 959.78 | 1836.61 | 128 |
RTX 3090 | 1139.15 | 2153.53 | N/A | 512 |
与 RTX 2080 Ti 的 4352 个 CUDA 外围相比,RTX 3090 的 10496 个 CUDA 外围是其 CUDA 的两倍多,CUDA 外围是 CPU 外围的 GPU 等价物,并针对同时运行大量计算(并行处理)进行了优化。更多 CUDA 内核通常意味着更好的性能和更快的图形密集型解决。3090 领有 24GB GDDR6X 内存,也是 2080 Ti 11G 的 2 倍多,所以获得这样的后果也是情理之中的。
RTX 3090 vs. RTX 3080 Ti vs A6000 vs A5000 vs A100
RTX 3090 GPU 的 2.5 插槽设计,只能在风冷时在 2-GPU 配置中进行测试。4-GPU 配置须要水冷。所以这也限度了他的测试,如果咱们须要购买多块 3090 肯定要留神机箱的大小。
3090 肯定要上水冷
RTX 3090 可能遇到的一个问题是散热,次要是在多 GPU 配置中。4 x RTX 3090 配置须要水冷。不仅是散热问题,还因为大小问题。
过热导致性能降落高达 60%,所以水冷是最好的解决方案;提供 24/7 稳定性、低噪音和更长的硬件寿命。此外,任何水冷式 GPU 都能够保障以最大可能的性能运行。水冷 RTX 3090 将放弃在 50-60°C 与风冷时 90°C 的平安范畴内(90°C 是 GPU 将进行工作和敞开设定值)。2x 或 4x 风冷 GPU 乐音十分大,尤其是鼓风机式风扇。将工作站放在实验室或办公室是不可能的——更不用说服务器了。水冷解决了台式机和服务器中的这种乐音问题。与风扇相比,乐音升高了 20%(水冷却为 49 dB,最大负载时风扇为 62 dB)。
最初总结
对于大多数用户而言,NVIDIA RTX 3090 或 NVIDIA A5000 将为他们提供物超所值的服务。应用大批量能够让模型训练得更快、更精确,从而节俭大量工夫。RTX 3090 上 24 GB 的 VRAM 对于大多数用例来说入不敷出,简直能够为任何型号和大批量提供空间。
NVIDIA 的 RTX 3090 是目前深度学习和 AI 的最佳 GPU。它具备卓越的性能,非常适合为神经网络提供能源。RTX 3090 是 30 系列中惟一可能通过 NVLink 桥接器进行扩大的 GPU 型号。当与 NVLink 网桥配对应用时,能够将显存裁减为 48 GB 来训练大型模型。
40 系列
AMD 的 7000 系列据说要比 NV 的 40 系列性能的高,然而目前深度学习框架反对的不好,所以对于深度学习来说还只能用 NV 的卡,这个目前来说没有方法。
新的 40 系列的显卡曾经颁布了上市的工夫往年的第三季度,尽管功率高了(600W),然而相应的算力也高了,18432 个 CUDA 外围、96MB 缓存。据说 4080 就能达到 目前 3090 的程度,依据下面的测试,1 万 8 的 CUDA 的体现至多要比 1 万出头的 3090 进步 60-70%,所以就像咱们最下面说的:不是必要的话当初不要买,买了就吃亏,买了就受骗。
https://www.overfit.cn/post/9ef4a9a4728f4fb69412abe267f634e4