关于人工智能:GPU底层技术全球市场格局分析

31次阅读

共计 5122 个字符,预计需要花费 13 分钟才能阅读完成。

从去年开始,芯片问题就始终牵动着咱们的神经,因为咱们在这么重要的一个货色上被“卡脖子”了。然而可能还有人不太理解,其实不只是咱们中国,当初,全世界其余国家的很多重要产业,像汽车、电脑、手机等都在被同一个问题困扰着,那就是:芯片短缺。

其实,芯片缺货的景象在传统的电脑配件行业也呈现了。比方显卡局部,英伟达早在 2020 年 9 月就公布了新一代的 RTX 3000 系列显卡,现在四个多月过来了,仍然很难买到。在黄牛那里,原价 5500 块钱的显卡当初至多要卖 8000 块钱。

CPU 局部,AMD 在 20 年 10 月初还公布了锐龙 3 代处理器,当初也是全面缺货,黄牛纷纷加价。甚至京东 AMD 官网旗舰店也把价格进步了 1000 多块钱,与其把利润留给黄牛,不如本人挣了。

在德国最大的网上配件商城上,以上这几类货色的交货率据说有余 12%。

英特尔的产能有余,甚至不是在 2020 年第四季度呈现的,而是从 2019 年就开始了。他们往年曾经确定要将一部分芯片组的产能交给三星,处理器产能分给台积电。

1.GPU 的定义和内部结构:

GPU(graphics processing unit)图形处理器,又称显示外围、视觉处理器、显示芯片,是一种在个人电脑、工作站、游戏机和一些挪动设施(如平板电脑、智能手机等)上做图像和图形相干运算工作的微处理器。GPU 通常包含图形显存控制器、压缩单元、BIOS、图形和计算整列、总线接口、电源治理单元、视频治理单元、显示界面。GPU 的呈现使计算机缩小了对 CPU 的依赖,并解放了局部本来 CPU 的工作。在 3D 图形处理时,GPU 采纳的核心技术有硬件 T &L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素 256 位渲染引擎等,而硬件 T &L 技术能够说是 GPU 的标记。

▲GPU 的外部组成部分

2.GPU 的形成:微架构概述

GPU 的微架构(Micro Architecture)是一种给定的指令集和图形函数汇合在处理器中执行的办法。

图形函数次要用于绘制各种图形所须要的运算。以后和像素、光影解决、3D 坐标变换等相干运算由 GPU 硬件加速来实现。雷同的指令集和图形函数汇合能够在不同的微架构中执行,但施行的目标和成果可能不同。

优良的微架构对 GPU 性能和效力的晋升施展着至关重要的作用,GPU 体系是 GPU 微架构和图形 API 的汇合。

以目前最新的英伟达安培微架构为例,GPU 微架构的运算部份由流处理器 (Stream Processor,SP)、纹理单元(Texture mapping unit, TMU)、张量单元(Tensor Core)、光线追踪单元(RT Cores)、光栅化处理单元(ROPs)组成。这些运算单元中,张量单元,光线追踪单元由 NVIDIA 在伏特 / 图灵微架构引入。

除了上述运算单元外,GPU 的微架构还蕴含 L0/L1 操作缓存、Warp 调度器、调配单元(Dispatch Unit)、寄存器堆(register file)、非凡性能单元(Special function unit,SFU)、存取单元、显卡互联单元(NV Link)、PCIe 总线接口、L2 缓存、二代高位宽显存(HBM2)等接口。


▲英伟达安培内核概览


▲英伟达安培内核“SM”单元

3.GPU 的形成:详解微架构 SP、ROPs、TMU

GPU 的流处理器单元是 NVIDIA 对其对立架构 GPU 内通用标量着色器的命名。SP 单元是全新的全能渲染单元,是继 Pixel Pipelines(像素管线)和 Vertex Pipelines(顶点管线)之后新一代的显卡渲染技术指标。SP 单元既能够实现 VS(Vertex Shader,顶点着色器)运算,也能够实现 PS(Pixel Shader,像素着色器)运算,而且能够依据须要组成任意 VS/PS 比例,从而给开发者更广大的施展空间。

流处理器单元首次呈现于 DirectX 10 时代的 G80 外围的 Nvidia GeForce 8800GTX 显卡,是显卡发展史上一次重大的变革。之后 AMD/ATI 的显卡也引入了这一概念,然而流处理器在横向和纵向都不可类比,大量的流处理器是 GPU 性能强劲的必要非充分条件。

纹理映射单元(TMU)作为 GPU 的部件,它可能对二进制图像旋转、缩放、扭曲,而后将其作为纹理搁置到给定 3D 模型的任意立体,这个过程称为纹理映射。纹理映射单元不可简略跨平台横向比拟,大量的纹理映射单元是 GPU 性能强劲的必要非充分条件。

光栅化处理单元(ROPs)次要负责游戏中的光线和反射运算,兼顾 AA、高分辨率、烟雾、火焰等成果。游戏里的抗锯齿和光影成果越厉害,对 ROPs 的性能要求就越高,否则可能导致帧数的急剧下降。NVIDIA 的 ROPs 单元是和流处理器进行捆绑的,二者同比例增减。在 AMD GPU 中,ROPs 单元和流处理器单元没有间接捆绑关系。


▲英伟达安培内核 SP、ROPs、TMU 拆解


▲英伟达 RTX 3080 GPU- Z 参数

4.GPU 的形成:详解微架构光线追踪单元和张量单元

生产 GPU 的实时光线追踪在 2018 年由英伟达的“图灵”GPU 首次引入,光追单元(RT Cores)在此过程中施展着决定性的作用。图灵 GPU 的光追单元反对边界体积档次减速,实时暗影、环境光、照明和反射,光追单元和光栅单元能够协同工作,进一步提高帧数和暗影的真实感。

光追单元在英伟达的 RTX 光线追踪技术、微软 DXR API、英伟达 Optix API 和 Vulkan 光追 API 的反对下能够充分发挥性能。领有 68 个光追单元的 RTX2080Ti 在光线解决性能上较无光追单元的 GTX1080Ti 强 10 倍。

张量单元(Tensor Core)在 2017 年由英伟达的“伏特”GPU 中被首次引入。张量单元次要用于实时深度学习,服务于人工智能,大型矩阵运算和深度学习超级采样(DLSS),能够带来惊人的游戏和业余图像显示,同时提供基于云零碎的疾速人工智能。


▲英伟达 RTX2080Ti 张量单元算力


▲英伟达图灵 GPU 光追单元运作流程


▲英伟达图灵 GPU 张量单元提供多精度 AI

5.GPU 的形成:API 概述

GPU 的 API(Application Programming Interface)利用程序接口施展着连贯应用程序和显卡驱动的桥梁作用。不过随着系统优化的深刻,API 也能够间接兼顾治理高级语言、显卡驱动和底层汇编语言。

3D API 可能让编程人员所设计的 3D 软件只需调动其 API 内的程序,让 API 主动和硬件的驱动程序沟通,启动 3D 芯片内弱小的 3D 图形处理性能,从而大幅地进步 3D 程序的设计效率。同样的,GPU 厂家也能够依据 API 规范来设计 GPU 芯片,以达到在 API 调用硬件资源时的最优化,取得更好的性能。3D API 能够实现不同厂家的硬件、软件最大范畴兼容。如果没有 API,那么开发人员必须对不同的硬件进行一对一的编码,这样会带来大量的软件适配问题和编码老本。

目前 GPU API 能够分为 2 大营垒和若干其余类。2 大营垒别离是微软的 DirectX 规范和 KhronosGroup 规范,其余类包含苹果的 Metal API、AMD 的 Mantle(地幔)API、英特尔的 One API 等。


▲微软 DirectX 和 Khronos Group API 组合比照

6.GPU 的形成:DirectX AP 和 OpenGLAPI

DirectX 是 Direct eXtension 的简称,作为一种 API,是由微软公司创立的多媒体编程接口。DirectX 能够让以 Windows 为平台的游戏或多媒体程序取得更高的执行效率,增强 3D 图形和声音成果,并提供设计人员一个独特的硬件驱动规范,让游戏开发者不用为每一品牌的硬件来写不同的驱动程序,也升高用户装置及设置硬件的复杂度。DirectX 已被宽泛应用于 Windows 操作系统和 Xbox 主机的电子游戏开发。

OpenGL 是 Open Graphics Library 的简称,是用于渲染 2D、3D 矢量图形的跨语言、跨平台的应用程序编程接口(API),相比 DirectX 更加凋谢。这个接口由近 350 个不同的函数组成,用来绘制从简略的二维图形到简单的三维现象。OpenGL 罕用于 CAD、虚拟现实、迷信可视化程序和电子游戏开发。

正是因为 OpenGL 的凋谢,所以它能够被运行在 Windows、MacOS、Linux、安卓、iOS 等多个操作系统上,学习门槛也比 DirectX 更低。然而,效率低是 OpenGL 的次要毛病。


▲DirectX 和 OpenGL 特点比照

7.GPU 的形成:苹果 MetalAPI 和 Vulkan API

Metal 是 Apple 在 2014 年创立的靠近底层的,低开销的硬件加速 3D 图形和计算着色器 API。Metal 在 iOS 8 中首次亮相。Metal 在一个 API 中联合了相似于 OpenGL 和 OpenCL 的性能。它旨在通过为 iOS,iPadOS,macOS 和 tvOS 上的应用程序提供对 GPU 硬件的底层拜访来进步性能。相较于 OpenGL ES,Metal 缩小了 10 倍的代码拥挤,提供了更好的解决方案,并将会在苹果设施中取代 OpenGL。Metal 也反对英特尔 HD 和 IRIS 系列 GPU、AMD 的 GCN 和 RDNA GPU、NVIDIA GPU。Metal 也是能够应用 Swift 或 Objective- C 编程语言调用的面向对象的 API。GPU 的全副操作是通过 Metal 着色语言管制的。

2017 年,苹果推出了 Metal 的升级版 Metal2,兼容前代 Metal 硬件,反对 iOS11,MacOS 和 tvOS11。Metal2 能够在 Xcode 中更无效地进行配置和调试,放慢机器学习速度,升高 CPU 工作量,在 MacOS 上反对 VR,充分发挥 A11 GPU 的个性。

Vulkan 是一种低开销,跨平台的 3D 图像和计算 API。Vulkan 面向跨所有平台的高性能实时 3D 图形应用程序,如视频游戏和交互式媒体。与 OpenGL,Direct3D 11 和 Metal 相比,Vulkan 旨在提供更高的性能和更均衡的 CPU/GPU 用法。除了较低的 CPU 应用外,Vulkan 还旨在使开发人员更好地在多核 CPU 中调配工作。

Vulkan 源自并基于 AMD 的 Mantle API 组件,最后的版本被称为 OpenGL 的下一代。最新的 Vulkan1.2 公布于 2020 年 1 月 15 日,该版本整合了 23 个额定常常被应用的 Vulkan 拓展。


▲Metal 与 OpenGL 性能比照


▲OpenGL 和 Vulkan 比照

8.GPU 生态

软件生态方面,GPU 无奈独自工作,必须由 CPU 进行管制调用能力工作,而 CPU 在解决大量类型统一的数据时,则可调用 GPU 进行并行计算。所以,GPU 的生态和 CPU 的生态是高度相干的。

近年来,在摩尔定律演进的放缓和 GPU 在通用计算畛域的高速倒退的此消彼长之下,通用图形处理器(GPGPU)逐步“反客为主”,利用 GPU 来计算本来由 CPU 解决的通用计算工作。

目前,各个 GPU 厂商的 GPGPU 的实现办法不尽相同,如 NVIDIA 应用的 CUDA(compute unified device architecture)技术、原 ATI 的 ATI Stream 技术、Open CL 联盟、微软的 DirectCompute 技术。这些技术能够让 GPU 在媒体编码减速、视频补帧与画面优化、人工智能与深度学习、科研畛域、超级计算机等方面施展异构减速的劣势。以上 4 种技术中,只有 OpenCL 反对跨平台和凋谢标注的个性,还能够应用专门的可编程电路来减速计算,业界反对十分宽泛。


▲DirectX 和 OpenGL 生态比照


▲OpenCL 联盟生态

9.GPU 的分类

GPU 依据接入形式能够划分为独立 GPU 和集成 GPU。独立 GPU 个别封装在独立的显卡电路板上,领有独立显存,而集成 GPU 常和 CPU 共用一个 Die,共享零碎内存。GPU 依据接入形式能够划分为独立 GPU 和集成 GPU。独立 GPU 个别封装在独立的显卡电路板上,领有独立显存,而集成 GPU 常和 CPU 共用一个 Die,共享零碎内存。


▲GPU 的次要分类


▲独立 GPU


▲集成 GPU Die

10.GPU 的显存

GPU 显存是用来存储显卡芯片解决过或者行将提取的渲染数据,是 GPU 失常运作不可或缺的核心部件之一。GPU 的显存能够分为独立显存和集成显存两种。目前,独立显存次要采纳 GDDR3、GDDR5、GDDR5X、GDDR6,而集成显存次要采纳 DDR3、DDR4。服务器 GPU 偏好应用 Chiplet 模式的 HBM 显存,最大化吞吐量。

集成显存受制于 64 位操作系统的限度,即使组成 2 通道甚至 4 通道,与独立显存的带宽仍有相当差距。通常这也造成了独立 GPU 的性能强于集成 GPU。


▲显存的次要分类


▲独立显存的工作形式


▲独立显存的工作形式

出品丨自主可控新鲜事

本文内容综合自方正证券、智货色等

正文完
 0