关于深度学习:GPU的工作原理显卡和CPU的关系像主仆

57次阅读

共计 2478 个字符，预计需要花费 7 分钟才能阅读完成。

在 GPU 呈现以前，显卡和 CPU 的关系有点像“主仆”，简略地说这时的显卡就是画笔，依据各种有 CPU 收回的指令和数据进行着色，材质的填充、渲染、输入等。

较早的娱乐用的 3D 显卡又称“3D 加速卡”，因为大部分坐标解决的工作及光影特效须要由 CPU 亲自解决，占用了 CPU 太多的运算工夫，从而造成整体画面不能十分流畅地体现进去。

那么，GPU 的工作原理是什么？

简略的说 GPU 就是可能从硬件上反对 T &L（Transform and Lighting，多边形转换与光源解决）的显示芯片，因为 T &L 是 3D 渲染中的一个重要局部，其作用是计算多边形的 3D 地位和解决动静光线成果，也能够称为“几何解决”。一个好的 T &L 单元，能够提供粗疏的 3D 物体和高级的光线特效；只不过大多数 PC 中，T&L 的大部分运算是交由 CPU 解决的（这就也就是所谓的软件 T &L），因为 CPU 的工作繁多，除了 T &L 之外，还要做内存治理、输出响应等非 3D 图形处理工作，因而在理论运算的时候性能会大打折扣，经常呈现显卡期待 CPU 数据的状况，其运算速度远跟不上明天简单三维游戏的要求。

即便 CPU 的工作频率超过 1GHz 或更高，对它的帮忙也不大，因为这是 PC 自身设计造成的问题，与 CPU 的速度无太大关系。

GPU 图形处理，能够大抵分成 5 个步骤，如下图箭头的局部。

别离为 vertex shader、primitive processing、rasterisation、fragment shader、testing and blending。

显卡和 CPU 的关系像“主仆”，GPU 的工作原理是什么
第一步，vertex shader。是将三维空间中数个（x,y,z）顶点放进 GPU 中。

在这一步骤中，电脑会在外部模拟出一个三维空间，并将这些顶点搁置在这一空间外部。接着，投影在同一立体上，也是咱们将看到的画面。同时，存下各点间隔投影面的垂直距离，以便做后续的解决。

这个过程就像是本地球观看星星个别。地球的天空，就像是一个投影面，所有的星星，不论远近皆投影在同一面上。本地球的咱们，抬起头来观看星星，分不出星星的远近，只能分辨出亮度。

GPU 所投影出的后果，和这个状况相似。

显卡和 CPU 的关系像“主仆”，GPU 的工作原理是什么
从地球所看到的星空，星星就像是投影到一球面上，除非应用特地的仪器，不然分不出星星和地球的间隔

第二步，primitive processing。是将相干的点链接在一起，以造成图形。在一开始输出数个顶点进入 GPU 时，程序会特地注记哪些点是须要组合在一起，以造成一线或面。就像是看星座的时候一样，将相干连的星星连起来，造成特定的图案。

第三步，rasterisation。因为电脑的屏幕是由一个又一个的像素组成，因而，须要将一条间断的直线，应用绘图的演算法，以方格绘出该直线。图形也是以此形式，先标出边线，再用方格填满整个立体。

第四步，fragment shader。将格点化后的图形着上色彩。所需着上的色彩也是于输出时便被注记。在玩耍游戏时，这一步相当消耗 GPU 的计算资源，因为光影的成果、物体外表材质皆是在这一步进行，这些计算决定着游戏画面的精密水平。因而在玩耍游戏时，调高游戏画面品质大幅减少这一步的计算累赘，升高游戏品质。

将一个三角形，用方格出现近似原始图案，并着上色彩。一块又一块的方格，就是显示器上的像素

最初一步，testing and blending。便是将第一步所取得的投影垂直距离取出，和第四步的后果一起做最初解决。在去除被会被其余较近距离的物体挡住的物体后，让剩下的图形放进 GPU 的输入内存。之后，后果便会被送到电脑屏幕显示。

GPU 与 DSP 区别

GPU 在几个次要方面有别于 DSP（Digital Signal Processing，简称 DSP（数字信号处理）架构。其所有计算均应用浮点算法，而且目前还没有位或整数运算指令。此外，因为 GPU 专为图像处理设计，因而存储系统实际上是一个二维的分段存储空间，包含一个区段号（从中读取图像）和二维地址（图像中的 X、Y 坐标）。此外，没有任何间接写指令。输入写地址由光栅处理器确定，而且不能由程序扭转。这对于天然散布在存储器之中的算法而言是极大的挑战。最初一点，不同碎片的处理过程间不容许通信。实际上，碎片处理器是一个 SIMD 数据并行执行单元，在所有碎片中独立执行代码。

只管有上述束缚，然而 GPU 还是能够无效地执行多种运算，从线性代数和信号处理到数值仿真。尽管概念简略，但新用户在应用 GPU 计算时还是会感到蛊惑，因为 GPU 须要专有的图形常识。这种状况下，一些软件工具能够提供帮忙。两种高级描影语言 CG 和 HLSL 可能让用户编写相似 C 的代码，随后编译成碎片程序汇编语言。Brook 是专为 GPU 计算设计，且不须要图形常识的高级语言。因而对第一次应用 GPU 进行开发的工作人员而言，它能够算是一个很好的终点。

Brook 是 C 语言的延长，整合了能够间接映射到 GPU 的简略数据并行编程结构。经 GPU 存储和操作的数据被形象地比喻成“流”（stream），相似于规范 C 中的数组。外围（Kernel）是在流上操作的函数。在一系列输出流上调用一个外围函数意味着在流元素上施行了隐含的循环，即对每一个流元素调用外围体。Brook 还提供了约简机制，例如对一个流中所有的元素进行和、最大值或乘积计算。

Brook 还齐全暗藏了图形 API 的所有细节，并把 GPU 中相似二维存储器零碎这样许多用户不相熟的局部进行了虚拟化解决。用 Brook 编写的应用程序包含线性代数子程序、疾速傅立叶转换、光线追踪和图像处理。利用 ATI 的 X800XT 和 Nvidia 的 GeForce 6800 Ultra 型 GPU，在雷同高速缓存、SSE 汇编优化 Pentium 4 执行条件下，许多此类利用的速度晋升高达 7 倍之多。

对 GPU 计算感兴趣的用户致力将算法映射到图形根本元素。相似 Brook 这样的高级编程语言的问世使编程老手也可能很容易就把握 GPU 的性能劣势。拜访 GPU 计算性能的便利性也使得 GPU 的演变将继续下去，不仅仅作为绘制引擎，而是会成为个人电脑的次要计算引擎。

正文完