关于深度学习:GPU服务器全球市值最大的半导体公司

服务器是 AI 外围基础设施。依据 IDC 数据，2020 年中国 AI 基础设施市场规模为 39.3 亿美元，同比增长 26.8%，并将在 2024 年达到 78.0 亿美元，其中 2020 年服务器市场规模占 AI 基础设施的 87% 以上，承当着最为重要的角色。

互联网行业是 AI 服务器最大洽购行业。依据 IDC 数据，2020 年上半年，互联网占整体减速计算服务器市场近 60% 的份额，同比增持超过 100%；政府行业和服务业别离顺次位居第二位和第三位。

GPU 服务器是 AI 减速计划首选。IDC 预计 2021 年中国 GPU 服务器占比 91.9% 左右的市场份额，是数据中心 AI 减速计划首选。依据 IDC 数据，2019 年中国 GPU 服务器市场规模达到 20 亿美元，预计 2024 年将达到 64 亿美元。

GPU 服务器

GPU 减速服务器可能提供优良的浮点计算能力，从容应对高实时、高并发的海量计算场景，例如深度学习、科学计算、3D 动画渲染、CAE 等利用场景。

2019 年均匀每台服务器配置 8.02 个 GPU。一台 GPU 服务器通常搭载多个 GPU 减速芯片，依据 IDC 数据，2019 年中国 AI 服务器出货量为 79318 台，同比增长 46.7%，每个服务器配置 1 -20 个 GPU，加权计算均匀每台服务器配置 8.02 个 GPU 加速卡。

寰球 GPU 巨头

Nvidia 成立于 1993 年，1999 年上市，市值近 10 年增长超过 83 倍，近 6 年增长超过 49 倍。截至 2021 年 11 月 5 日，Nvidia 总市值 7438 亿美元，总市值美股排名第七，是目前寰球市值最大的半导体公司。

进阶之路

技术革新、场景拓展、内涵并购，Nvidia 引领寰球 GPU 倒退。

➢ GPU 架构：Nvidia 保持每 2 - 3 年推出一代新的 GPU 架构，持续保持技术当先，新的 Ampere 曾经采纳 7nm 工艺；

➢ 利用场景：从最后图形处理到通用计算，再到 AI 深度学习和主动驾驶，Nvidia 一直推动 GPU 利用场景的冲破；

➢ 内涵并购：2000-2008 年 Nvidia 密集收购额多家公司，涵盖显卡、图形处理、半导体等多个畛域，2020 年发表打算收买 ARM。

业务分类

Nvidia 产品次要分为两大类：图形处理、计算 & 网络。上游市场包含游戏、业余可视化、数据中心、汽车四大类。

2020 年 Nvidia 营收 166.8 亿美元（yoy+52.7%），净利润 43.3 亿美元（yoy+54.9%），其中图形处理业务营收 98.3 亿美元，计算 & 网络业务营收 68.4 亿美元。除去 2019 年游戏市场需求稳定造成业绩下滑外，Nvidia 近 5 年营收、利润均放弃较快增长。

得益于基于 Ampere 架构新 GPU 产品带动游戏业务高增，以及数据中心对算力需要旺盛，2021 上半年 Nvidia 营收、净利润快速增长。

上游分类与产品

Nvidia 上游市场分为四类：游戏、业余可视化、数据中心、汽车，各市场重点产品如下：

➢ 游戏：GeForce RTX/GTX 系列 GPU（PCs）、GeForce NOW（云游戏）、SHIELD（游戏主机）

➢ 业余可视化：Quadro/RTX GPU（企业工作站）

➢ 数据中心：基于 GPU 的计算平台和零碎，包含 DGX（AI 服务器）、HGX（超算）、EGX（边缘计算）、AGX（主动设施）

➢ 汽车：NVIDIA DRIVE 计算平台，包含 AGX Xavier（SoC 芯片）、DRIVE AV（主动驾驶）、DRIVE IX（驾驶舱软件）、Constellation（仿真软件）计算业务

计算业务是 Nvidia 成长的次要驱动力：数据中心已成规模，智能汽车将进入收获期。

➢ 在数据中心市场，Nvidia 领有芯片、硬件、硬件的全栈布局。得益于寰球 AI 利用场景的疾速减少，对算力的需要飙升。是 Nvidia 成长最快的市场，2020 年营收达到约 66.96 亿美元，近 4 年 CAGR 达到 68.5%，远高于游戏市场的 17.6%。2020 年 Nvidia 数据中心市场营收占比曾经超过 40%，预计将来仍将持续晋升。

➢ 在智能汽车市场，Nvidia 造成了全栈式主动驾驶解决方案。AGX Xavier 芯片于 2018 年开始出货，下一代主动驾驶芯片 Orin 打算用于 2022 年量产，算力将达到 254TOPS，目前曾经取得蔚来、现实、沃尔沃、飞驰等多个整车厂定点我的项目。咱们认为 2022 年高阶主动驾驶汽车或将集中落地，Nvidia 主动驾驶将进入收获期。中国大陆奉献

Nvidia 中国大陆支出快速增长。2020 年 Nvidia 来自中国大陆支出 38.86 亿美元，同比增长 42.3%，近 4 年 CAGR 达到 31.4%，同期 Nvidia 整体营收 CAGR 为 24.6%。

Nvidia 中国大陆支出占比呈上升趋势。2020 年 Nvidia 中国大陆支出占比达到 23.3%，相比于 2016 年的 18.9% 晋升 4.4pct，2021 上半年 Nvidia 中国大陆支出占比 25.6%，回升趋势显著。

咱们预计中国大陆占比仍将晋升。图显业务层面，人均收入晋升将带动 PC 需要减少；计算业务层面，目前中国大陆在 AI 算法、利用层面具备当先劣势，主动驾驶场景也将率先失去开释。

景嘉微：国产 GPU 领军人物

景嘉微

景嘉微成立于 2006 年，公司主营业务分为图形显控、小型专用化雷达、GPU 芯片三类。其中图显、雷达产品次要面向军用市场，GPU 芯片产品包含 JM5400、JM7200，其中 JM5400 次要利用于公司图显模块中，JM7200 胜利拓展了民用和信创市场。2021 年 9 月，公司第三代 GPU 芯片 JM9 胜利流片，目前正在进行性能测试。

景嘉微量产芯片

景嘉微已实现两个系列、三款 GPU 芯片量产利用。第一代 GPU 产品 JM5400 于 2014 年流片胜利，次要撑持军用配备，已在国产军用飞机上实现了对 ATI M9、M54、M72 等芯片的代替；第二代产品 JM7200 于 2018 年 8 月流片胜利，性能与 Nvidia 的 GT640 显卡相近。在 JM7200 根底上，公司又推出能耗更低的 JM7201，胜利进入民用畛域。

景嘉微：两个系列、三款 GPU 量产利用

景嘉微三款量产 GPU 芯片介绍

JM7200

目前 JM7200 已实现与国内次要的 CPU 和操作系统厂商的适配工作，与长城、联想、同方等十余家国内次要计算机整机厂商建设单干关系并进行产品测试，胜利进入商用畛域。JM7201 是 JM7200 针对民用市场的降级，在保障性能根底上升高能耗。

2019 年 11 月，景嘉微全资子公司长沙景美与湖南长城科技信息有限公司签订了《策略单干协定》，依据协定，2020 年湖南长城拟洽购 10 万套基于 JM7200 芯片的国产图形显卡；2020 年 3 月，景嘉微全资子公司长沙景美与北京神州数码有限公司签订《洽购单干框架协定》，神州数码以景嘉微“大陆地区经销商”名义代理公司 GPU 及显卡产品。中国长城是国内信创市场的外围整机厂商，神州数码是国内重要的 IT 分销商和信创参与方，单干是景嘉微 GPU 产品在民用信创大批量落地的体现。

2021 年上半年景嘉微芯片营收 2.14 亿元，同比增长 13.5 倍，占总营收比例达到 45.1%。

JM9 系列芯片

预计 JM9271 系列芯片性能达到 GTX1080 程度，指标中高端市场。依据公司公告，JM9231 和 JM9271 将采纳业界支流的对立渲染架构，反对 OpenGL4.5 接口，能够无缝兼容市面上支流的 CPU、操作系统和应用程序。

➢ JM9231 性能与国内同类公司 2016 年中低端产品性能相当，次要针对国产化办公电脑，便携式计算机、中低端的游戏机和高端嵌入式零碎等生产电子畛域。

➢ JM9271 在 JM9231 根底上对科学计算能力进行大幅度提高和改良，能够达到国内同类公司 2017 年中高端产品的性能，次要针对人工智能、安防监控、语音辨认、深度学习、云计算等对计算速度要求十分高的高端应用领域。

潜在危险

1、市场竞争加剧的危险

以后寰球独立 GPU 市场由 Nvidia 和 AMD 垄断，景嘉微是国内惟一商用 GPU 公司，将来寰球和国内 GPU 市场竞争或将加剧；

2、GPU 市场倒退不迭预期

GPU 利用正从图像显示向计算畛域拓展，FPGA、ASIC 芯片也利用于计算畛域，将来或将挤占 GPU 在计算畛域利用；

3、Nvidia 产品迭代不迭预期

Nvidia 推动 GPU 向数据中心、汽车等新兴场景利用，若产品迭代不迭预期，或将影响 Nvidia 市场位置和业绩体现；

4、景嘉微第三代芯片性能不迭预期

目前景嘉微 JM9 系列芯片正在性能测试过程中，若性能不迭预期，将影响景嘉微向民用畛域拓展。

附：GPU 重要参数解析

⚫ CUDA Core 和 Tensor Core：为 GPU 提供计算能力的硬件单元。CUDA core 也叫 Streaming Processor（SP），是单精度，组成 SM 的重要局部。Tensor Core 已倒退到第三代，Tensor Core 大幅缩小了深度学习须要的工夫。Core 的数量越多，并行运算的线程越大，计算的峰值越高。

⚫ 像素填充速率：指 GPU 一秒钟内能解决多少个像素，单位是 GPixel/S（每秒十亿像素），或 MPixel/S（每秒百万像素）。像素填充速率是较好掂量 GPU 图像显示性能的整体指标，阐明了显卡能以多快的速度对图像进行光栅化解决。

⚫ 纹理填充率：指对多边形图像进行纹理贴图、实现 3D 成果的速度，和像素填充率相似，单位是 GTexels/ S 或 MTexels/S。游戏采纳了多纹理贴图的形式，使画面具备更好的光影成果。

⚫ 显存容量：其次要性能就是临时贮存 GPU 要解决的数据和处理完毕的数据。显存容量大小决定了 GPU 可能加载的数据量大小，在深度学习、机器学习的训练场景，显存的大小决定了一次可能加载训练数据的量，在大规模训练时，显存会显得比拟重要。

⚫ 显存位宽：显存在一个时钟周期内所能传送数据的位数，位数越大则霎时所能传输的数据量越大，这是显存的重要参数之一。

⚫ 显存频率：肯定水平上反馈着该显存的速度，以 MHz(兆赫兹) 为单位，显存频率随着显存的类型、性能的不同而不同。显存频率和位宽决定显存带宽。

⚫ 显存带宽：指显示芯片与显存之间的数据传输速率，它以字节 / 秒为单位。显卡的显存是由一块块的显存芯片形成的，显存总位宽同样也是由显存颗粒的位宽组成，显存带宽=显存频率×显存位宽 /8。

⚫ 制作工艺：制作工艺，指的是晶体管与晶体管之间的间隔，单位是纳米。制作工艺越小阐明集成度越高，功耗越小，性能越好。

⚫ 功率：集显依附 CPU 的主板连贯提供电源，但独显性能较强，须要独自接电源。

⚫ 总线接口：显示卡要插在主板上能力与主板互相交换数据，当初支流接口为 PCLe（PCI-Express）。接口提供数据流量带宽，目前支流采纳 PCLe4.0 版本，16 个通道。

⚫ Directx 反对：简称 DX，是一种利用程序接口（API）。DX 由微软编写，由很多的 API 组成，包含显示、声音、输出和网络。DirectX 11 还反对高质量实时渲染和预渲染场景，目前 DX 已倒退到 Directx 12 版本，进步了多线程效率，能够充分发挥多线程硬件的后劲。