关于人工智能:GPU底层技术全球市场格局分析2

1、集成显卡和独立显卡比照

集成显卡是指个别不带显存，而是应用零碎的一部分主内存作为显存的显卡。集成显卡能够被整合进主板作为北桥芯片的一部分，也能够和CPU集成在同一个Die中。集成显卡的显存个别依据系统软件和应用软件的需要主动调整。如果显卡运行须要占用大量内存空间，那么整个零碎运行会受限，此外零碎内存的频率通常比独立显卡的显存低很多，因而集成显卡的性能比独立显卡要逊色一些。

独立显卡是将显示芯片及相干器件制作成一个独立于电脑主板的板卡，成为业余的图像处理硬件设施。独立显卡因为具备高位宽、高频独立显存和更多的处理单元，性能远比集成显卡优越，不仅可用于一般性的工作，还具备欠缺的2D成果和很强的3D程度，因而常利用于高性能台式机和笔记本电脑，次要的接口为PCIe。

现在，独立显卡与集成显卡曾经不是2个齐全割裂，各自为营的图像处理单元了。二者在微软DX12的反对下也能够实现独核显交火，同时AMD和NVIDIA的显卡也可实现混合交火。

2.GPU比照CPU：

从芯片设计思路看，CPU是以低提早为导向的计算单元，通常由专为串行解决而优化的几个外围组成，而GPU是以吞吐量为导向的计算单元，由数以千计的更小、更高效的外围组成，专为并行多任务设计。

CPU和GPU设计思路的不同导致微架构的不同。CPU的缓存大于GPU，但在线程数，寄存器数和SIMD（单指令多数据流）方面GPU远强于CPU。

微架构的不同最终导致CPU中大部分的晶体管用于构建控制电路和缓存，只有少部分的晶体管实现理论的运算工作，功能模块很多，善于分支预测等简单操作。GPU的流处理器和显存控制器占据了绝大部分晶体管，而控制器绝对简略，善于对大量数据进行简略操作，领有远胜于CPU的弱小浮点计算能力。

▲GPU和CPU的外围比照

后摩尔时代，随着GPU的可编程性一直加强，GPU的利用能力曾经远远超出了图形渲染，部份GPU被用于图形渲染以外畛域的计算成为GPGPU。与此同时，CPU为了谋求通用性，只有少部分晶体管被用于实现运算，而大部分晶体管被用于构建控制电路和高速缓存。然而因为GPU对CPU的依附性以及GPU相较CPU更高的开发难度，所以GPU不可能齐全取代CPU。咱们认为将来计算架构将是GPU+CPU的异构运算体系。

在GPU+CPU的异构运算中，GPU和CPU之间能够无缝地共享数据，而无需内存拷贝和缓存刷新，因为工作以极低的开销被调度到适合的处理器上。CPU凭借多个专为串行解决而优化的外围运行程序的串行部份，而GPU应用数以千计的小外围运行程序的并行局部，充分发挥协同效应和比拟劣势。

异构运算除了须要相干的CPU和GPU等硬件反对，还须要能将它们无效组织的软件编程。OpenCL是（OpenComputing Language）的简称，它是第一个为异构零碎的通用并行编程而产生的对立的、收费的规范。OpenCL反对由多核的CPU、GPU、Cell架构以及信号处理器(DSP)等其余并行设施组成的异构零碎。

▲异构运算下的GPU工作流程

3.GPU与ASIC和FPGA的比照：

数据、算力和算法是AI三大因素，CPU配合减速芯片的模式成为典型的AI部署计划，CPU提供算力，减速芯片晋升算力并助推算法的产生。常见的AI减速芯片包含GPU、FPGA、ASIC三类。

GPU用于大量反复计算，由数以千计的更小、更高效的外围组成大规模并行计算架构，装备GPU的服务器可取代数百台通用CPU服务器来解决HPC和AI业务。

FPGA是一种半定制芯片，灵活性强集成度高，但运算量小，量产老本高，实用于算法更新频繁或市场规模小的专用畛域。

ASIC专用性强，市场需求量大的专用畛域，但开发周期较长且难度极高。

在AI训练阶段须要大量数据运算，GPU预计占64%左右市场份额，FPGA和ASIC别离为22%和14%。推理阶段无需大量数据运算，GPU将占据42%左右市场，FPGA和ASIC别离为34%和24%。

4.“考古”GPU：GPU的倒退历史

在PC诞生之初，并不存在GPU的概念，所有的图形和多媒体运算都由CPU负责。然而因为X86 CPU的暂存器数量无限，适宜串行计算而不适宜并行计算，尽管以英特尔为代表的厂商屡次推出SSE等多媒体拓展指令集试图补救CPU的缺点，然而仅仅在指令集方面的改良不能起到基本成果，所以诞生了图形加速器作为CPU的辅助运算单元。

GPU的发展史概括说来就是NVIDIA、AMD(ATI)的发展史，在此过程中已经的GPU巨头Imagination、3dfx、东芝等纷纷被后辈超过。现在独立显卡畛域次要由英伟达和AMD管制，而集成显卡畛域由英特尔和AMD管制。

▲GPU的发展史

5.GPU发展史：NVDIA GPU微架构回顾

英伟达的GPU架构自2008年以来简直始终放弃着每2年一次大更新的节奏，带来更多更新的运算单元和更好的API适配性。在每次的大换代之间，不乏有一次的小降级，如采纳开普勒二代微架构的GK110外围相较于采纳初代开普勒微架构的GK104外围，降级了显卡智能动静超频技术，CUDA运算能力晋升至3.5代，极致流式多处理器（SMX）的浮点运算单元晋升8倍，退出了Hyper-Q技术进步GPU的利用率并削减了闲置，更新了网格治理单元（Grid Management Unit），为动静并行技术提供了灵活性。

英伟达GPU微架构的继续更新，使英伟达GPU的能效晋升了数十倍，霸占了独立显卡技术的制高点。

6.GPU发展史：微软DirectX API回顾**

图形API在GPU的运算过程中施展着连贯高级语言、显卡驱动乃至底层汇编语言的作用，充当GPU运行和开发的“桥梁”和“翻译官”。微软DirectX规范能够划分为显示部份、声音部份、输出局部和网络局部，其中与GPU具备最间接关系的是显示局部。显示部份可分为DirectDraw和Direct3D等规范，前者次要负责2D图像减速，后者次要负责3D成果显示。

从1995年公布的初代DirectX 1.0开始微软的DirectX曾经更新到了DirectX 12。在此过程中，DirectX不断完善对各类GPU的兼容，减少开发人员的权限，进步GPU的显示品质和运行帧数。

DirectX个别和Windows操作系统同步更新，如Windows 7推出了DX11、Windows 10推出了DX12。

7.GPU发展史：NVDIA GPU制程构回顾

GPU和CPU都是以先进制程为导向的数字芯片。先进制程能够在管制发热和电能耗费的同时，在无限的Die中放入尽可能多的晶体管，进步GPU的性能和能效。

NVIDIA的GPU从2008年GT200系列的65纳米制程历经12年逐渐降级到了RTX3000系列的7/8纳米制程，在整个过程中，晶体管数量晋升了20多倍，逐渐确立了在独立GPU的市场龙头位置。

同时在整个过程中，NVIDIA始终保持不采纳IDM的模式，而是让台积电负责GPU的制作，自生专一于芯片设计，充分发挥比拟劣势。

▲2008-2020英伟达GPU次要制程和晶体管数进化

8.GPU微架构降级趋势：更多、更专、更智能

依据前12年的GPU倒退轨迹来看，GPU微架构的降级趋势能够简要地概括为”更多”、”更专”、”更智能”。“更多”是指晶体管数量和运算单元的减少，其中包含流处理器单元、纹理单元、光栅单元等数量回升。“更专”是指除了惯例的计算单元，GPU还会减少新的运算单元。例如，英伟达的图灵架构相较于帕斯卡架构新减少了光追单元和张量单元，别离解决实时光线追踪和人工智能运算。“更智能”是指GPU的AI运算能力回升。如第三代的张量单元相较于上代在吞吐量上晋升了1倍。

9.GPU API降级趋势：更贴近底层**

综合剖析微软的DirectX12、苹果的Metal2、Khronos Group的Vulkan API别离相较于前代DirectX11、Metal、OpenGL的降级，咱们认为GPU API的降级趋势是进步GPU的运行效率、减少高级语言和显卡驱动之间的连贯、优化视觉特效等。其中，提供更底层的反对：兼顾高级语言、显卡驱动和底层语言是简直所有API降级的次要方向。

不过提供更底层的反对只是更高的帧数或更好的画质的必要非充分条件。在整个软件的开发过程中，软件开发商须要比驱动程序和零碎层更好地调度硬件资源，能力充分发挥底层API的成果。

在显示品质方面，DirectX 12 Ultimate采纳当下最新的图形硬件技术，反对光线追踪、网格着色器和可变速率着色，PC和Xbox共用同一个API，堪称次世代游戏的全新黄金规范。

10.GPU制作降级趋势：以先进制程为导向

GPU性能的三大决定因素为主频、微架构、API。这些因素中主频通常是由GPU的制程决定的。制程在过来通常示意晶体管或栅极长度等特色尺寸，不过出于营销的须要，当初的制程曾经偏离了本意，因而单纯比拟纳米数没有意义。按英特尔的观点，每平方毫米内的晶体管数（百万）更能掂量制程。据此，台积电和三星的7nm工艺更靠近英特尔的10nm工艺。

先进的制程能够升高每一个晶体管的老本，晋升晶体管密度，在GPU Die体积不变下实现更高的性能；先进制程能够晋升处理器的效力，在性能不变的状况下，缩小发热或在发热不变的状况下，通过晋升主频来拉高性能。

先进制程的次要目标是升高立体构造带来的漏电率问题，晋升计划能够通过扭转工艺，如采纳FinFET（鳍式场效应晶体管）或GAA（盘绕式栅极）；或采纳非凡资料，如FD-SOI（基于SOI的超薄绝缘层上硅体技术)。

11.GPU制作降级趋势：Chiplet化

高位宽内存（HBM）是小芯片（Chiplet）在GPU中的常见利用。HBM是一种高速计算机存储器3D堆栈SDRAM接口。首款HBM于2013年推出，第二代HBM2已于2016年被JEDEC承受。目前，HBM次要利用在高端独立显卡和服务器显卡。

HBM通过3D重叠4个DRAM Die和1片逻辑Die组成一个Chiplet，其中每片DRAM具备2个128位通道，通过TSV（硅通孔）相连。所以，一片Chiplet总共8个128位通道，总位宽1024比特。每片Chiplet又与GPU封装在同一中介层（Interposer）连贯GPU芯片。相比之下，GDDR5内存的总线宽度为32位，带有512位内存接口的显卡也只有16个通道，而且采纳传统的FBGA封装。HBM与GDDR5相比，每GB的表面积缩小94%，每GB/S带宽的能效晋升2倍多。

HBM反对最多每个Chiplet 4GB的存储，HBM2在HBM的根底上将每片Chiplet的最大容量晋升至了8GB，显存主频晋升1倍，同时总位宽放弃不变。

▲HBM的GPU利用

12.GPU制作的发展趋势：Fab+Fabless为导向

GPU制作可分为IDM和Fab+Fabless。IDM集芯片设计、芯片制作、芯片封装和测试等多个产业链环节于一身。英特尔为IDM的代表。

Fabless只负责芯片的电路设计与销售，将生产、测试、封装等环节外包。苹果和AMD为Fabless的代表。Foundry只负责制作，不负责芯片设计，能够同时为多家设计公司服务，但受制于公司间的竞争关系。台积电为Foundry的代表。目前英特尔GPU落后的次要起因是GPU制程的落后，根本原因是英特尔受困于IDM运作模式。随着28纳米以下先进制程的倒退，芯片的制作老本和设计老本成指数级回升。同时，一条12英寸晶圆的生产线从建设到生产的周期约2年，投资至多30-50亿美元，资本收入占比80%，整体危险十分大。英特尔以无限的资源不反对它继续的设计和生产的的两线作战。

Fab+Fabless的模式通过充分发挥比拟劣势，扩散了GPU设计和制作的危险，合乎半导体分工的大趋势。

▲IDM与Fab+Fabless比照

▲芯片设计费用趋势（亿美元）

13.GPU需要概述

过来20多年里，GPU的根本需要源于视频减速，2D/3D游戏。随后GPU使用本身在并行处理和通用计算的劣势，逐渐开辟服务器、汽车、矿机、人工智能、边缘计算等畛域的衍生需要。

尽管GPU无奈来到CPU独立运作，然而在以后“云化”减速的时代，来到了GPU的CPU也无奈胜任宏大的计算需要。所以GPU和CPU组成了异构运算体系，从底层经由系统软件和驱动层反对着下层的各种利用。GPU曾经成为了专用计算时代的刚需。

▲古代云计算中GPU减速的刚需

出品丨自主可控新鲜事

本文内容综合自方正证券、智货色等