关于深度学习:最全讲解GPU技术架构知识

GPU的起源

GPU缩写为Graphics Processing Unit的，个别称为视觉处理单元。

GPU被宽泛用于嵌入式零碎、移动电话、个人电脑、工作站和电子游戏解决方案当中。

古代的GPU对图像和图形处理是非常高效率的，这是因为GPU被设计为很高的并行架构这样使得比通用处理器CPU在大的数据块并行处理算法上更具备劣势。

1985年 8月20日 ATi公司成立，同年10月ATi应用ASIC技术开发出了第一款图形芯片和图形卡，1992年 4月 ATi公布了 Mach32 图形卡集成了图形减速性能，1998年 4月 ATi被IDC评比为图形芯片工业的市场领导者，但那时候这种芯片还没有GPU的名称，很长的一段时间ATI都是把图形处理器称为VPU，直到AMD收买ATI之后其图形芯片才正式采纳GPU的名字。

NVIDIA公司在1999年公布GeForce 256图形处理芯片时首先提出GPU的概念。

从此NVIDIA显卡的芯片就用这个新名字GPU来称说。GPU使显卡削减了对CPU的依赖，并执行局部本来CPU的工作，尤其是在3D图形处理时。

GPU所采纳的核心技术有钢体T&L、立方环境材质贴图与顶点混合、纹理压缩及凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬体T&L技术可能说是GPU的标记。

对于GPU必须晓得的基本知识

图形处理单元（或简称GPU）会负责解决从PC外部传送到所连贯显示器的所有内容，无论你在玩游戏、编辑视频或只是盯着桌面的壁纸，所有显示器中显示的图像都是由GPU进行渲染的。

对普通用户来说，实际上不须要独立显卡就能够向显示器「提供」内容。像笔记本电脑或平板用户，通常CPU芯片都会集成GPU内核，也就是大家熟称的「核显」，这样就能够为对显示要求不高的低功耗设施提供更好的性价比。

正因如此，局部笔记本电脑、平板电脑和某些PC用户来说，要想将其图形处理器降级到更高级别也很艰难，甚至不太可能。

这就会导致游戏（和视频编辑等）性能不佳，只能将图形品质设置升高能力工作。对此类用户而言，只有在主板反对和闲暇空间足够的状况下，增加新显卡才可能把（游戏）显示体验进步到一个新的程度。

GPU工作流程

GPU目前已成为PC外部最弱小的组件之一，其性能大部分都来自于VRAM。因为独立显卡应用的显示内存独立于计算机内存，这些存储器模块容许疾速存储和接收数据，而不用再通过CPU路由到主板上插的内存。

尽管显卡内存与计算机内存类似，但却齐全不同，例如：反对DDR4内存的主板也可能会反对GDDR5 RAM的显卡。显卡上的VRAM用于在卡上疾速存储和拜访数据，以及为显示器缓冲渲染帧。其还有助于升高影响屏幕上近似数据的「锯齿状边缘」以实现抗锯齿，使图像看起来更平滑。

顶点解决：这阶段GPU读取形容3D图形外观的顶点数据并依据顶点数据确定3D图形的形态及地位关系，建设起3D图形的骨架。在反对DX8和DX9规格的GPU中，这些工作由硬件实现的VertexShader（定点着色器）实现。

光栅化计算：显示器理论显示的图像是由像素组成的，咱们须要将下面生成的图形上的点和线通过肯定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如，一条数学示意的斜线段，最终被转化成阶梯状的间断像素点。

纹理帖图：顶点单元生成的多边形只形成了3D物体的轮廓，而纹理映射（texturemapping）工作实现对多变形外表的帖图，艰深的说，就是将多边形的外表贴上相应的图片，从而生成“实在”的图形。TMU（Texturemapping unit）即是用来实现此项工作。

像素解决：这阶段（在对每个像素进行光栅化解决期间）GPU实现对像素的计算和解决，从而确定每个像素的最终属性。在反对DX8和DX9规格的GPU中，这些工作由硬件实现的Pixel Shader（像素着色器）实现最终输入，由ROP（光栅化引擎）最终实现像素的输入，1帧渲染结束后，被送到显存帧缓冲区。

GPU散热

要利用好GPU的原始设计效力必须有大量供电，大量用电就意味着大量发热。显卡（或处理器）产生的热量是以热设计功耗（或简称TDP）和瓦特为单位测量的。但商家对产品的标称并不是间接所需的功耗值，例如新的GTX 1080标称为180W TDP等级，但这并不意味着它须要180W的功率。

之所以揭示大家关怀这个值是因为，具备较高TDP的GPU用到无限空气流动的紧凑空间中可能会导致散热问题。特地是对GPU超频的用户来说，须要有足够的冷却伎俩来解决减少的热量，能力让其稳固运行。

GPU术语

架构：GPU基于的平台（或技术）。个别由GPU厂商进行定义，如AMD 的Polaris架构。

显存带宽：它决定了GPU如何无效地利用可用的VRAM。显卡能够应用GDDR5内存，但如果没有无效地利用带宽依然会有瓶颈。

纹理填充率：指GPU在单位工夫内所能解决的纹理贴图的数量，单位是MTexels/S，由内核时钟乘以可用纹理映射单元（TMU）确定。

内核/处理器：显卡上可用的并行内核（或处理器）数。

外围时钟：与CPU的时钟速率相似，通常该值越高GPU则可能更快地工作。

SLI/CrossFire：SLI和CrossFire别离是Nvidia和AMD应用的技术，它们容许用户装置多块GPU卡并协同工作。

显卡解决图形问题和其余工作的泛滥外围都是专门设计的，弱小的显卡和GPU能够为游戏提供更高的保真度和分辨率，尽管它比CPU更弱小，但理论只能用于特定的应用程序。

关于深度学习:最全讲解GPU技术架构知识

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于深度学习:最全讲解GPU技术架构知识

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复