关于人工智能:GPU底层技术全球市场格局分析2

1、集成显卡和独立显卡比照

集成显卡是指个别不带显存，而是应用零碎的一部分主内存作为显存的显卡。集成显卡能够被整合进主板作为北桥芯片的一部分，也能够和 CPU 集成在同一个 Die 中。集成显卡的显存个别依据系统软件和应用软件的需要主动调整。如果显卡运行须要占用大量内存空间，那么整个零碎运行会受限，此外零碎内存的频率通常比独立显卡的显存低很多，因而集成显卡的性能比独立显卡要逊色一些。

独立显卡是将显示芯片及相干器件制作成一个独立于电脑主板的板卡，成为业余的图像处理硬件设施。独立显卡因为具备高位宽、高频独立显存和更多的处理单元，性能远比集成显卡优越，不仅可用于一般性的工作，还具备欠缺的 2D 成果和很强的 3D 程度，因而常利用于高性能台式机和笔记本电脑，次要的接口为 PCIe。

现在，独立显卡与集成显卡曾经不是 2 个齐全割裂，各自为营的图像处理单元了。二者在微软 DX12 的反对下也能够实现独核显交火，同时 AMD 和 NVIDIA 的显卡也可实现混合交火。

2.GPU 比照 CPU：

从芯片设计思路看，CPU 是以低提早为导向的计算单元，通常由专为串行解决而优化的几个外围组成，而 GPU 是以吞吐量为导向的计算单元，由数以千计的更小、更高效的外围组成，专为并行多任务设计。

CPU 和 GPU 设计思路的不同导致微架构的不同。CPU 的缓存大于 GPU，但在线程数，寄存器数和 SIMD（单指令多数据流）方面 GPU 远强于 CPU。

微架构的不同最终导致 CPU 中大部分的晶体管用于构建控制电路和缓存，只有少部分的晶体管实现理论的运算工作，功能模块很多，善于分支预测等简单操作。GPU 的流处理器和显存控制器占据了绝大部分晶体管，而控制器绝对简略，善于对大量数据进行简略操作，领有远胜于 CPU 的弱小浮点计算能力。

▲GPU 和 CPU 的外围比照

后摩尔时代，随着 GPU 的可编程性一直加强，GPU 的利用能力曾经远远超出了图形渲染，部份 GPU 被用于图形渲染以外畛域的计算成为 GPGPU。与此同时，CPU 为了谋求通用性，只有少部分晶体管被用于实现运算，而大部分晶体管被用于构建控制电路和高速缓存。然而因为 GPU 对 CPU 的依附性以及 GPU 相较 CPU 更高的开发难度，所以 GPU 不可能齐全取代 CPU。咱们认为将来计算架构将是 GPU+CPU 的异构运算体系。

在 GPU+CPU 的异构运算中，GPU 和 CPU 之间能够无缝地共享数据，而无需内存拷贝和缓存刷新，因为工作以极低的开销被调度到适合的处理器上。CPU 凭借多个专为串行解决而优化的外围运行程序的串行部份，而 GPU 应用数以千计的小外围运行程序的并行局部，充分发挥协同效应和比拟劣势。

异构运算除了须要相干的 CPU 和 GPU 等硬件反对，还须要能将它们无效组织的软件编程。OpenCL 是（OpenComputing Language）的简称，它是第一个为异构零碎的通用并行编程而产生的对立的、收费的规范。OpenCL 反对由多核的 CPU、GPU、Cell 架构以及信号处理器 (DSP) 等其余并行设施组成的异构零碎。

▲异构运算下的 GPU 工作流程

3.GPU 与 ASIC 和 FPGA 的比照：

数据、算力和算法是 AI 三大因素，CPU 配合减速芯片的模式成为典型的 AI 部署计划，CPU 提供算力，减速芯片晋升算力并助推算法的产生。常见的 AI 减速芯片包含 GPU、FPGA、ASIC 三类。

GPU 用于大量反复计算，由数以千计的更小、更高效的外围组成大规模并行计算架构，装备 GPU 的服务器可取代数百台通用 CPU 服务器来解决 HPC 和 AI 业务。

FPGA 是一种半定制芯片，灵活性强集成度高，但运算量小，量产老本高，实用于算法更新频繁或市场规模小的专用畛域。

ASIC 专用性强，市场需求量大的专用畛域，但开发周期较长且难度极高。

在 AI 训练阶段须要大量数据运算，GPU 预计占 64% 左右市场份额，FPGA 和 ASIC 别离为 22% 和 14%。推理阶段无需大量数据运算，GPU 将占据 42% 左右市场，FPGA 和 ASIC 别离为 34% 和 24%。

4.“考古”GPU：GPU 的倒退历史

在 PC 诞生之初，并不存在 GPU 的概念，所有的图形和多媒体运算都由 CPU 负责。然而因为 X86 CPU 的暂存器数量无限，适宜串行计算而不适宜并行计算，尽管以英特尔为代表的厂商屡次推出 SSE 等多媒体拓展指令集试图补救 CPU 的缺点，然而仅仅在指令集方面的改良不能起到基本成果，所以诞生了图形加速器作为 CPU 的辅助运算单元。

GPU 的发展史概括说来就是 NVIDIA、AMD(ATI)的发展史，在此过程中已经的 GPU 巨头 Imagination、3dfx、东芝等纷纷被后辈超过。现在独立显卡畛域次要由英伟达和 AMD 管制，而集成显卡畛域由英特尔和 AMD 管制。

▲GPU 的发展史

5.GPU 发展史：NVDIA GPU 微架构回顾

英伟达的 GPU 架构自 2008 年以来简直始终放弃着每 2 年一次大更新的节奏，带来更多更新的运算单元和更好的 API 适配性。在每次的大换代之间，不乏有一次的小降级，如采纳开普勒二代微架构的 GK110 外围相较于采纳初代开普勒微架构的 GK104 外围，降级了显卡智能动静超频技术，CUDA 运算能力晋升至 3.5 代，极致流式多处理器（SMX）的浮点运算单元晋升 8 倍，退出了 Hyper- Q 技术进步 GPU 的利用率并削减了闲置，更新了网格治理单元（Grid Management Unit），为动静并行技术提供了灵活性。

英伟达 GPU 微架构的继续更新，使英伟达 GPU 的能效晋升了数十倍，霸占了独立显卡技术的制高点。

6.GPU 发展史：微软 DirectX API 回顾**

图形 API 在 GPU 的运算过程中施展着连贯高级语言、显卡驱动乃至底层汇编语言的作用，充当 GPU 运行和开发的“桥梁”和“翻译官”。微软 DirectX 规范能够划分为显示部份、声音部份、输出局部和网络局部，其中与 GPU 具备最间接关系的是显示局部。显示部份可分为 DirectDraw 和 Direct3D 等规范，前者次要负责 2D 图像减速，后者次要负责 3D 成果显示。

从 1995 年公布的初代 DirectX 1.0 开始微软的 DirectX 曾经更新到了 DirectX 12。在此过程中，DirectX 不断完善对各类 GPU 的兼容，减少开发人员的权限，进步 GPU 的显示品质和运行帧数。

DirectX 个别和 Windows 操作系统同步更新，如 Windows 7 推出了 DX11、Windows 10 推出了 DX12。

7.GPU 发展史：NVDIA GPU 制程构回顾

GPU 和 CPU 都是以先进制程为导向的数字芯片。先进制程能够在管制发热和电能耗费的同时，在无限的 Die 中放入尽可能多的晶体管，进步 GPU 的性能和能效。

NVIDIA 的 GPU 从 2008 年 GT200 系列的 65 纳米制程历经 12 年逐渐降级到了 RTX3000 系列的 7 / 8 纳米制程，在整个过程中，晶体管数量晋升了 20 多倍，逐渐确立了在独立 GPU 的市场龙头位置。

同时在整个过程中，NVIDIA 始终保持不采纳 IDM 的模式，而是让台积电负责 GPU 的制作，自生专一于芯片设计，充分发挥比拟劣势。

▲2008-2020 英伟达 GPU 次要制程和晶体管数进化

8.GPU 微架构降级趋势：更多、更专、更智能

依据前 12 年的 GPU 倒退轨迹来看，GPU 微架构的降级趋势能够简要地概括为”更多”、”更专”、”更智能”。“更多”是指晶体管数量和运算单元的减少，其中包含流处理器单元、纹理单元、光栅单元等数量回升。“更专”是指除了惯例的计算单元，GPU 还会减少新的运算单元。例如，英伟达的图灵架构相较于帕斯卡架构新减少了光追单元和张量单元，别离解决实时光线追踪和人工智能运算。“更智能”是指 GPU 的 AI 运算能力回升。如第三代的张量单元相较于上代在吞吐量上晋升了 1 倍。

9.GPU API 降级趋势：更贴近底层**

综合剖析微软的 DirectX12、苹果的 Metal2、Khronos Group 的 Vulkan API 别离相较于前代 DirectX11、Metal、OpenGL 的降级，咱们认为 GPU API 的降级趋势是进步 GPU 的运行效率、减少高级语言和显卡驱动之间的连贯、优化视觉特效等。其中，提供更底层的反对：兼顾高级语言、显卡驱动和底层语言是简直所有 API 降级的次要方向。

不过提供更底层的反对只是更高的帧数或更好的画质的必要非充分条件。在整个软件的开发过程中，软件开发商须要比驱动程序和零碎层更好地调度硬件资源，能力充分发挥底层 API 的成果。

在显示品质方面，DirectX 12 Ultimate 采纳当下最新的图形硬件技术，反对光线追踪、网格着色器和可变速率着色，PC 和 Xbox 共用同一个 API，堪称次世代游戏的全新黄金规范。

10.GPU 制作降级趋势：以先进制程为导向

GPU 性能的三大决定因素为主频、微架构、API。这些因素中主频通常是由 GPU 的制程决定的。制程在过来通常示意晶体管或栅极长度等特色尺寸，不过出于营销的须要，当初的制程曾经偏离了本意，因而单纯比拟纳米数没有意义。按英特尔的观点，每平方毫米内的晶体管数（百万）更能掂量制程。据此，台积电和三星的 7nm 工艺更靠近英特尔的 10nm 工艺。

先进的制程能够升高每一个晶体管的老本，晋升晶体管密度，在 GPU Die 体积不变下实现更高的性能；先进制程能够晋升处理器的效力，在性能不变的状况下，缩小发热或在发热不变的状况下，通过晋升主频来拉高性能。

先进制程的次要目标是升高立体构造带来的漏电率问题，晋升计划能够通过扭转工艺，如采纳 FinFET（鳍式场效应晶体管）或 GAA（盘绕式栅极）；或采纳非凡资料，如 FD-SOI（基于 SOI 的超薄绝缘层上硅体技术)。

11.GPU 制作降级趋势：Chiplet 化

高位宽内存（HBM）是小芯片（Chiplet）在 GPU 中的常见利用。HBM 是一种高速计算机存储器 3D 堆栈 SDRAM 接口。首款 HBM 于 2013 年推出，第二代 HBM2 已于 2016 年被 JEDEC 承受。目前，HBM 次要利用在高端独立显卡和服务器显卡。

HBM 通过 3D 重叠 4 个 DRAM Die 和 1 片逻辑 Die 组成一个 Chiplet，其中每片 DRAM 具备 2 个 128 位通道，通过 TSV（硅通孔）相连。所以，一片 Chiplet 总共 8 个 128 位通道，总位宽 1024 比特。每片 Chiplet 又与 GPU 封装在同一中介层（Interposer）连贯 GPU 芯片。相比之下，GDDR5 内存的总线宽度为 32 位，带有 512 位内存接口的显卡也只有 16 个通道，而且采纳传统的 FBGA 封装。HBM 与 GDDR5 相比，每 GB 的表面积缩小 94%，每 GB/ S 带宽的能效晋升 2 倍多。

HBM 反对最多每个 Chiplet 4GB 的存储，HBM2 在 HBM 的根底上将每片 Chiplet 的最大容量晋升至了 8GB，显存主频晋升 1 倍，同时总位宽放弃不变。

▲HBM 的 GPU 利用

12.GPU 制作的发展趋势：Fab+Fabless 为导向

GPU 制作可分为 IDM 和 Fab+Fabless。IDM 集芯片设计、芯片制作、芯片封装和测试等多个产业链环节于一身。英特尔为 IDM 的代表。

Fabless 只负责芯片的电路设计与销售，将生产、测试、封装等环节外包。苹果和 AMD 为 Fabless 的代表。Foundry 只负责制作，不负责芯片设计，能够同时为多家设计公司服务，但受制于公司间的竞争关系。台积电为 Foundry 的代表。目前英特尔 GPU 落后的次要起因是 GPU 制程的落后，根本原因是英特尔受困于 IDM 运作模式。随着 28 纳米以下先进制程的倒退，芯片的制作老本和设计老本成指数级回升。同时，一条 12 英寸晶圆的生产线从建设到生产的周期约 2 年，投资至多 30-50 亿美元，资本收入占比 80%，整体危险十分大。英特尔以无限的资源不反对它继续的设计和生产的的两线作战。

Fab+Fabless 的模式通过充分发挥比拟劣势，扩散了 GPU 设计和制作的危险，合乎半导体分工的大趋势。

▲IDM 与 Fab+Fabless 比照

▲芯片设计费用趋势（亿美元）

13.GPU 需要概述

过来 20 多年里，GPU 的根本需要源于视频减速，2D/3D 游戏。随后 GPU 使用本身在并行处理和通用计算的劣势，逐渐开辟服务器、汽车、矿机、人工智能、边缘计算等畛域的衍生需要。

尽管 GPU 无奈来到 CPU 独立运作，然而在以后“云化”减速的时代，来到了 GPU 的 CPU 也无奈胜任宏大的计算需要。所以 GPU 和 CPU 组成了异构运算体系，从底层经由系统软件和驱动层反对着下层的各种利用。GPU 曾经成为了专用计算时代的刚需。

▲古代云计算中 GPU 减速的刚需

出品丨自主可控新鲜事

本文内容综合自方正证券、智货色等

关于人工智能:GPU底层技术全球市场格局分析2

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）