关于人工智能:GPU底层技术全球市场格局分析3

1.寰球GPU市场规模和各子市场趋势

2020年寰球GPU市场价值预计为254.1亿美元，预计2027年将达到1853.1亿美元，年均匀增速为32.82%。按GPU的类型进行划分，市场能够细分为独立、集成和混合。2019年，集成GPU占GPU市场的主导地位，然而因为混合GPU同时领有集成和专用GPU的能力，所以混合细分市场预计实现最高复合增长率。

按GPU的设施进行划分，市场可细分为计算机、平板电脑、智能手机、游戏机、电视、其余。就支出而言，智能手机细分市场占比最大，在将来也将放弃这一趋势。然而，因为医疗等其余设施中对小型GPU的需要一直减少，预计将来的年复合增长率将最高。

按GPU的行业进行划分，市场可细分为电子、IT与电信、国防与情报、媒体与娱乐、汽车、其余。因为GPU在设计和工程利用中的宽泛应用，预计汽车细分行业的年复合增长率最高。

按GPU的天文区域划分，市场可细分为北美、欧洲、亚太和其余地区。亚太地区在2019年主导了寰球GPU市场，预计在整个预测期内将放弃主导地位。

▲寰球GPU市场规模预测

▲2015-2025寰球前三GPU供应商营收总和

2.寰球GPU市场竞争格局

寰球GPU曾经进入了寡头垄断的格局。在传统GPU市场中，排名前三的Nvidia、AMD、Intel的营收简直能够代表整个GPU行业支出。英伟达的支出占56%、AMD占26%、英特尔占18%。

在手机和平板GPU方面，联发科、海思麒麟、三星Exynos的GPU设计次要基于公版ARM MaliGPU或PowerVR微架构。高通骁龙Adreno和苹果A系列采纳自研GPU微架构。

2019Q2，ARM、高通、苹果、Imagination科技、英特尔是寰球智能手机和平板的前五大GPU供应商。同期ARM Mali在以上五大GPU供应商中占43%的市场份额，高通Adreno占36%的份额，苹果占12%的份额。

3.寰球GPU龙头：英伟达

英伟达公司成立于1993年，于1999年率先推出“GPU”的图形解决方案。公司次要设计游戏和业余市场的GPU，挪动计算和主动驾驶汽车的SoC，是GPU计算畛域公认的寰球领导者。它次要的GPU产线“GeForce”和AMD的“Radeon”造成间接竞争。同时，英伟达为了拓展移动游戏平台，推出了掌机Shield、Shield平板、Shield电视盒子和云游戏服务GeForce Now。目前，公司曾经实现了由芯片供应商向计算平台的转型。

英伟达的四大增长驱动力别离是游戏业务、数据中心业务、业余视觉业务、主动驾驶业务，各业务的代表性GPU计划别离是GeForce，DGX、EGX、HGX，Quadro、AGX。

英伟达2021财年营收167亿美元，其中游戏、数据中心、业余视觉、主动驾驶业务在2020财年别离奉献了营收的47%、40%、6%、3%。公司继2014年毛利率冲破50%后，于2021财年毛利率冲破60%。

英伟达的游戏业务：由GeForce和Shield组成。其中Shield面向挪动端和云，GeForce面向PC。游戏笔记本和云游戏是公司拓展市场的2大方向。GeForce是英伟达游戏业务的外围。GeForce是寰球最大的游戏平台，领有超过2亿名玩家。在PC游戏畛域，英伟达的营收是其余次要GPU供应商的三倍多。GeForce曾经来到了RTX30系列，采纳第二代NVIDIA RTX架构-NVIDIA安培架构，搭载全新的RT Core、Tensor Core及流式多处理器，领有RTX游戏、DLSS、G-SYNC、DirectX12等先进技术，可带来真切的光线追踪成果和先进的AI性能。

除了PC游戏市场，英伟达也向合作伙伴--任天堂Switch主机提供定制版Tegra SoC。作为单干的一部分，Shield主机能够畅享任天堂的游戏，GameStream串流游戏和热门游戏，实现4KHDR画质，反对百度DuerOS对话式人工智能。

英伟达的数据中心业务的技术本源是CUDA（对立计算设施架构）。CUDA首次推出于2006年的G80外围，隶属于通用并行计算架构，发明了GPGPU。在“安培”时代，CUDA外围曾经进化到了8.0，被使用在简直所有的英伟达产品线。

CUDA兼容DirectCompute、OpenCL等计算接口。与Direct3D、OpenGL等高级图形API相比，CUDA能够使开发者更容易应用GPU资源。以后，CUDA在狭义上既代表GPU的硬件平台又代表GPU的软件平台。

在硬件平台方面，CUDA蕴含了CUDA指令集以及GPU外部的并行计算引擎。GPU平台的矢量运算如INT、FP32、FP64都由CUDA承当。开发人员能够应用C语言和Fortran语言为CUDA编写程序。

在软件平台方面，基于CUDA的CUDA-X减速库、工具和科技汇合，向上对接不同的行业利用需要。在英伟达的软件栈体系中，分为CUDA-X AI和CUDA-X HPC，别离面向AI和HPC两大畛域，能够在人工智能和高性能计算方面提供远超其余竞品的性能。CUDA-X的开发者曾经超过100万。

英伟达数据中心的产品包含实用于AI的DGX零碎，实用于边缘计算的EGX平台，实用于超算的HGX平台、实用于数据处理的DPU、简化深度学习，机器学习，高性能计算的NGC目录。相干的GPU加速器有采纳安培架构的A100、A40，采纳图灵架构的T4、RTX6000、RTX8000，采纳伏特架构的V100。

过来5个财年中，英伟达数据中心的营收从8.3亿美元回升至66.96亿美元，年复合增速69%。同时，公司的注册开发者超过200万，与次要的云供应商如谷歌、腾讯、阿里建设了供给关系，世界500强超算中的份额从6%回升至70%。

英伟达业余视觉业务次要由Quadro产品线组成。Quadro在GeForce的根底上增强了NVLink、GPU的通用计算性能和显存容量，领有Iray、Omniverse平台、材质定义语言等特有技术。Quadro被广泛应用在台式工作站、笔记本电脑、EGX服务器、虚构工作空间、云端、定制化计划中。英伟达Quadro计划有超过50种利用、4000万设计用户和2000万企业用户，并正在一直解锁新市场。

在过来的5个财年，英伟达业余视觉的营收从8.35亿美元回升至10.53亿美元，年复合增速6%。

▲英伟达业余视觉GPU减速合作伙伴

英伟达的汽车产品包含相干驾驶软件、驾驶根底设计、AGX平台，提供训练、模仿、智能驾驶舱体验、高清地图和定位等解决方案。在相对性能方面，搭载4颗Drive AGX Origin的蔚来ADAM超算平台反对L4以上主动驾驶，超过7个特斯拉FSD算力总和。

不同于特斯拉主动驾驶谋求软硬件的高度符合，英伟达的计划更谋求开放性。公司在汽车畛域的合作伙伴以软件服务和轿车居多，别离达到了76家和42家。同时，公司与公众、丰田、本田、飞驰、宝马、奥迪、沃尔沃、马牌、滴滴、采埃孚、蔚来、小鹏、图森等世界出名公司建设了强力的生态。

在过来的5个财年，英伟达主动驾驶的营收从4.87亿美元回升至5.36亿美元，年复合增速3%。

英伟达并购ARM：2020年9月13日，NVIDIA发表以400亿美元收买ARM。本次收买意义能够细分为以下5个方面：

发明AI时代的世界级计算公司，将英伟达当先的AI计算平台和ARM宏大的CPU生态相结合；
通过英伟达在挪动端和PC等大型终端市场的科技拓展ARM的IP受权组合；
减速ARM的服务器CPU、数据中心、边缘AI、IoT倒退；
将英伟达计算平台的开发者由200万晋升至超过1500万；
并购能够立刻减少英伟达的非GAAP毛利率和非GAAP每股收益；

合并后的英伟达将把计算从云、智能手机、PC、主动驾驶车和机器人技术推动到了边缘物联网，将AI计算拓展到寰球，在拓展大规模、高增长市场的同时减速翻新。

4.寰球GPU先驱：AMD

AMD是寰球惟一能够同时提供高性能GPU和CPU的企业。AMD的显卡来源于2006年并购的ATI科技。在这之后的4年中，AMD持续应用ATI作为显卡品牌。直到2010年，AMD才摈弃原ATI的品牌命名形式。

目前，AMD同时提供独立GPU和集成GPU，其集成GPU次要使用在Ryzen APU、嵌入式、半定制平台中，独立GPU分为Radeon和Instinct系列，次要用于游戏、业余视觉、服务器等利用。

过来六年，AMD的计算和图形支出的营收由18.05亿美元回升至64.32亿美元，年复合增速29%。

将来五年，AMD打算成为高性能计算的领导者，提供颠覆性的CPU和GPU计划。

AMD的集成GPU次要被使用在台式机和笔记本的APU产品中，和CPU组成异构运算单元。台式和笔记本APU的GPU部份共用微架构和核心技术，二者GPU的次要差别在于TDP和处理单元的数量，台式强于笔记本。

“Renior”APU的GPU持续应用Vega微架构，但受害于7纳米制程，每个处理单元效力显著晋升。

7纳米Vega的晋升包含：数据网络翻倍、优化低功耗状态转换、25%主频晋升、77%存储位宽晋升。这些晋升带来了在放弃15W功耗不变的前提下，每个计算单元59%的性能晋升、1.79TFLOPS的32位浮点峰值吞吐。

在3DMark Time Spy（DX12）的跑分中，7纳米的Ryzen 4800U的GPU体现超过10纳米i7-1065G7，是14纳米i7-10710U的2倍以上。

AMD的Radeon系列游戏独立GPU按微架构推出工夫顺次递加能够分为RX6000系列、RX5000系列、Radeon 7、 RX500系列。以上四大系列中，除RX500系列外均采纳台积电7纳米制程。

2020年11月推出的RDNA2微架构相较于前代RDNA相对性能最高晋升一倍，能效进步54%，反对DirectX12 Ultimate，硬件光线追踪和可变速率着色器等先进技术。搭载16GBGDDR6显存和128MB InfinityCache高速缓存的RX 6900XT的游戏性能靠近英伟达的RTX 3090。

为了施展AMD CPU和GPU的协同效应，Radeon领有AMD SmartAccess Memory技术，锐龙CPU和显卡之间能实现更杰出的通信。RX6800系列显卡在局部游戏中4K画质性能额定晋升最高可达7%。

2022年前，AMD将基于更先进的制程打造RDNA3微架构，进一步强化光追等计算体现。

除了传统的BGA显存封装，AMD还踊跃使用HBM系列显存。在Radeon7中，16GB的HBM2显存领有1TB/S的带宽，超过同期Titan RTX 50%。

AMD的数据中心GPU业务由Radeon Instinct加速器系列、以客户为外围的数据中心解决方案和ROCm组成。AMD的次要合作伙伴包含戴尔、惠普等OEM，同时AMD也向微软AZURE和亚马逊网络服务提供视觉云解决方案。

ROCm是寰球首个针对减速式计算且不限定编程语言的超大规模开源平台，遵循UNIX的抉择哲学、极简主义以及针对GPU计算的模块化软件开发。

ROCm适宜大规模计算，反对多路GPU，有丰盛的零碎运行库，包含框架、库、编程模型、互联和Linux Kernel上游反对，提供各种重要性能来反对大规模利用、编译器和语言运行库的开发。

AMD正与美国能源部、橡树岭国家实验室和Cray公司单干，应用EPYC（霄龙）CPU、Radeon Instinct GPU和ROCm打造超过150亿亿次FLOPS的寰球最快超算平台。

▲AMD ROCm开源软件生态

Radeon Instinct MI 100加速器采纳专一计算的CDNA微架构，在计算和连贯方面实现了微小飞跃，与AMD上一代加速器相比，高性能计算工作负载（FP32矩阵）性能晋升近3.5倍，而人工智能工作负载（FP16）性能晋升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超过了同期英伟达安培A100，同时功耗比后者低100瓦。

为了满足多路GPU的互联通信需要，AMD研发了InfinityFabric技术。Infinity Fabric领有先进的平台连接性和可拓展性，最多反对4路GPU互联。P2P带宽是PCIe 4.0的2倍，四GPU集群的P2P带宽最高可达552GB/s。

将来，AMD将基于更先进的制程打造CDNA2微架构，进入百亿亿级时代。

AMD的其余独立GPU次要包含嵌入式、半定制化、Radeon Pro工作站显卡。半定制化独立显卡次要倍使用在索尼、微软的本世代和次世代主机中。现在，AMD的技术存在于2.2亿个家庭畅享游戏和视频娱乐时所用设施的外围。

嵌入式GPU的特点包含卓越的图形性能、多屏显示、形状紧凑、高能效、长期供货。嵌入式GPU分为超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU，它们次要应用14纳米的GCN 1.4北极星微架构，TDP笼罩20W-135W范畴。

Radeon Pro系列显卡被广泛应用于建筑工程、设计制作、媒体娱乐等畛域，领有AMD近程工作站、AMD Eyefinity多屏显示技术、AMD Radeon ProRender等技术。Radeon Pro系列采纳Vega微架构，7或14纳米制程，间接竞争对手是英伟达的Quadro系列。Radeon Pro挪动和台式工作站的合作伙伴包含苹果、戴尔、惠普等。

5.英特尔：寰球GPU追赶者

英特尔是寰球最大的PC GPU供应商，也是PC和服务器显卡惟一的IDM厂商。英特尔的GPU最早能够追溯到1998年的i740，然而因为羸弱的性能和迟缓的更新速度，始终没有十分大的起色。进入Core i时代后，英特尔通过将核芯显卡和CPU进行捆绑销售，利用CPU的宏大市场份额，确立了公司在集成GPU畛域的寡头垄断位置，在此过程中AMD的APU始终是酷睿的间接竞争对手。

2020年，英特尔推出了第12代GPGPU，采纳全新的Xe微架构和10纳米Super Fin制程。相较于第11代核显，Xe-LP在放弃电压不变的前提下，大幅晋升主频，能效显著进步。搭载Xe-LP的i7 1185G7在GPU性能方面曾经超过同期AMD的Vega核显和英伟达的MX系列独显。

Xe系列能够细分为，集成/低功耗的Xe-LP、娱乐/游戏的Xe-HPG、数据中心/高性能的Xe-HP、高性能计算的Xe-HPC。

目前，Xe-LP的集成版本曾经被第11代酷睿所采纳。Xe-LP的挪动独立GPU版本DG1和服务器独立GPU版本SG1也已公布。独显版在核显版的根底上进一步晋升主频，并退出了128位4GB LPDDR4X-4266独立显存，单精度浮点算力晋升15%。

英特尔的集成GPU在模式上体现为核芯显卡。核芯显卡应用零碎DRAM作为非独立显存，通过处理器外部的环状总线与CPU连贯，负责解决游戏、视频娱乐等图像负载。

英特尔Xe核显借助10纳米SuperFin的劣势，将处理单元最高晋升至96个，相较于Icelake的64个晋升了50%，并且将连贯CPU和GPU的总线带宽晋升一倍，独立最终缓存（LLC）进步50%，反对最高86GB/s的存储带宽。以上这些晋升使i7-1185G7的3DMark跑分较前代i7-1065G7晋升靠近一倍，超过AMD的R74800U和同期英伟达的MX350。

Xe核显的显示引擎和媒体引擎也都失去增强。接口方面，外部反对双eDP，内部反对DP1.4、HDMI2.0、雷电4、USB4 Type-C。画质方面，反对8K、HDR10、12比特BT2020色域、360赫兹刷新率等。

英特尔Xe外围显卡和CPU经由自家One API驱动中间层框架和下层利用。英特尔One API解决了编码模型在不同微架构间的壁垒，最大化跨平台体现和最小化开发成本。

目前，锐炬Xe MAX是第一款基于英特尔 Xe 架构的面向轻薄型笔记本电脑的GPU。锐炬Xe MAX在Xe集成GPU的根底上减少了4GBLPDDR4X-4266的独立显存，TDP 25W，峰值主频1650MHz，单精度浮点性能2.46TFLOPs。锐炬Xe MAX能够和11代酷睿处理器、锐炬Xe GPU同时工作。借助英特尔Deep Link技术，取得具备弱小性能和通过功耗优化的集成系统，以改良创造力和游戏体验。

目前，英特尔服务器GPU在Xe核显的根底上，TDP晋升到23W，减少了8GB LPDDR4的独立显存，反对高密度、低提早的安卓云游戏和高密度媒体转码/编码，以实现实时的OTT视频直播。同时，英特尔服务器GPU反对2颗、4颗独立GPU的聚合，成倍进步性能。

将来，英特尔还将推出面向游戏和高性能桌面的Xe HPG产品线，减少了光线追踪等硬件反对，采纳传统封装，外包生产。英特尔服务器GPU将应用Xe HPC、Xe HP微架构，采纳2.5D和3D先进封装，10纳米SuperFin及更先进自家或外包工艺。

6.ARM Mali：寰球GPU IP巨头

ARM是寰球最大的半导体IP提供商。全世界超过95%的智能手机和平板电脑都采纳ARM架构。2019Q2，寰球近43%的手机和平板GPU由Mali驱动。2020第四季度，ARM半导体合作伙伴基于ARM技术的芯片出货量达到67亿颗，再创历史新高，超过其余所有风行的CPU指令集架构—X86、ARC、Power、MIPS的总和。

国产SoC中，有95%是基于ARM处理器技术，ARM中国受权客户超过150家，基于ARM架构的国产芯片出货量曾经超过184亿。

ARM的Mali GPU按性能能够分为3大类，别离是高性能、支流、高能效。

Arm Mali-G78 GPU是用于高端设施的第二代基于Valhall架构的GPU。Mali-G78是性能最高的ArmGPU，可反对简单的利用，例如实用于Vulkan和OpenCL等所有最新API的游戏图形和机器学习（ML）。

Mali-G78与上一代设施相比，GPU性能进步了25％，并加强了设施上的ML性能，从而有助于将高度简单的游戏带入挪动设施。Mali-G78最多反对24个内核，并蕴含异步顶级性能，可确保性能无效地散布在各个内核上，从而使图形运行更加晦涩。全新执行引擎中的新型交融乘加（FMA）单元可进一步升高30%的单元能耗。

在GFXBench Aztec Ruin的跑分中，应用台积电5纳米工艺，搭载24个Mali-G78内核的麒麟9000 SoCGPU的帧数强于骁龙865的Adreno 650，但仍落后于苹果A14。

7.寰球GPU巨头：Imagination

Imagination Technologies是一家总部在英国，专一于半导体和相干知识产权许可，销售PowerVR挪动图形处理器，MIPS嵌入式微处理器和生产电子产品。公司还提供无线基带解决，网络，数字信号处理器，视频和音频硬件，IP语音软件，云计算，以及芯片和零碎设计服务。2017年，董事会发表公司被中资的Canyon Bridge收买。

Imagination在GPU畛域历史悠久，在其超过25年的历史中，Imagination先后推出过多代GPU产品，已积攒超过1500项GPU专利，曾为苹果供给图像处理器（GPU），在图像处理器（GPU）畛域与高通、ARM三分天下，曾占GPU市场大概占据三分之一的份额，在汽车畛域更是达到43%。带有Imagination IP的芯片产品累计出货量已超过110亿。

Imagination的IP包含图形处理器和视觉与人工智能2类。公司Power VR产品被广泛应用于挪动设施（智能手机、平板）、汽车（仪表、信息娱乐、辅助驾驶）、沉迷式体验（AR/VR）、生产电子（电视、机顶盒）。

依据Imagination的GPU路线图，在A系列GPU性能最高晋升2.5倍之后，B系列到D系列GPU的年复合增速在30%左右。2021年的C系列GPU将首次退出L4级别的光线追踪，从硬件层面反对一致性分类的档次突围体（BVH）和简单光线解决，相比目前英伟达和AMD的L3级别光线追踪计划可显著晋升能效，实现更好的用户体验。

2020年10月，Imagination推出了全新的IMG B系列GPU，这是公司第一个蕴含新多核架构的GPU IP系列，也是首次采纳RISC-V，可提供最高的性能密度。得益于多核架构和Imagination图像压缩技（IMGIC），B系列相比A系列，功耗升高30%，带宽升高35%、面积缩减25%，AI算力达到24 TOPS，且填充率比竞品IP内核高2.5倍。与A系列类似，B系列GPU也反对AI协同技术，在提供图形处理性能的同时，可用备用资源来解决可编程AI等工作。

IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四种系列。其中IMG BXE面向高清显示利用，IMG BXM主打图形处理体验，IMG BXT面向高性能利用，IMG BXS面向未来汽车。

BXS系列合乎ISO 26262规范，也是迄今为止所开发的最先进汽车GPU IP内核。BXS提供了一个残缺的产品系列，从入门到高端，可为下一代人机界面（HMI）、UI显示、信息娱乐零碎、数字驾舱、盘绕视图提供解决方案。高计算能力的配置可反对主动驾驶和ADAS。

凭借外围可扩大的劣势，IMG B系列实用于传统挪动设施、消费类设施、物联网、微控制器、数字电视(DTV)和汽车等市场畛域。IMG B系列也可扩大至桌面GPU、云端GPU服务器，且反对主动驾驶和辅助驾驶等。

8、高通Adreno：寰球挪动GPU先驱

高通的自研GPU Adreno源于收买的AMD挪动GPU Imageon系列。晚期的Adreno 100系列只有2D图形减速和无限的多媒体性能。2008年公布的Adreno 200是首款被集成到骁龙SoC中的GPU，并退出了3D硬件加速性能。

2020年12月，高通推出了搭载Adreno 660的骁龙888 SoC。Adreno 660继承了Adreno650的微架构，采纳了三星5纳米LPE工艺，大幅提高主频，使图形渲染性能进步35%，能效进步20%。Adreno 660全面反对Qualcomm® Snapdragon Elite Gaming和Qualcomm® Game Quick Touch ，二者将可变速率渲染和响应速度别离晋升30%和20%。

在GFXBench Aztec Ruin 1080P测试中，Adreno 660的峰值帧数追平麒麟9000，但相较苹果A14仍有近20%的差距。

9、苹果：寰球挪动GPU新秀

苹果的自研GPU首次呈现于2017年的A11 SoC。A11的三外围GPU作为苹果的首款自研GPU，其性能超过采纳Power VR GT7600+的A10 GPU 30%。其后，所有的A系列SoC的GPU均为苹果自研。

2020年，苹果推出了5纳米制程的M1芯片，该款SoC基于A14芯片，在CPU、GPU、NPU、缓存等各方面都进行了强化，用于驱动苹果的Mac产品。M1芯片的公布标记着苹果继2005年放弃IBM的PowerPC指令集转向Intel的X86指令集后的又一大PC畛域转换。

采纳8核GPU的M1领有128个执行单元，能够同步运行近25000个线程，单精度浮点算力达到2.6 TFLOPs。M1 GPU的能效体现是过后同类PC中集成GPU的三倍，峰值性能最高可达其余GPU的2倍。

出品丨自主可控新鲜事

本文内容综合自方正证券、智货色等