关于机器学习:MindSporeCUDA编程二CUDA代码执行原理

咱们把 CPU,内存这块区域叫做“主机（HOST）”，把GPU，显存这块区域叫做“设施（DEVICE）”。（是不是跟昇腾有点相似？）CUDA的代码执行蕴含以下几步：

简述一下，就是 host_to_device-》在device上并行计算-》device_to_host。cuda程序其实是一个对C的扩大程序。其后缀名为.cu，如果头文件则为.cuh。这个.cu 程序除了C程序的语法外，还有一些cuda的特有局部，比方它在函数后面加了前缀，分为 global__, __host__,__device 三种。对于__global__：

所谓的“执行配置”，上面会提到，比如说是 <<< >>>两头的内容。这个标识符将一个C函数申明成一个核函数。它只能在设施（device）上执行。对于__host__：

对于__device_：

这几个前缀定义了这些代码运行的设施，这会让程序决定在哪个设施上运行。对于一个简略的Hello World代码而言：#include <stdio.h>

void hello_from_cpu()
{

printf("Hello World from the CPU!\n");

}

int main(void)
{

hello_from_cpu();
return 0;

如果咱们想让它在GPU上运行，仅须要做两步：（1）将被调用的函数 hello_from_cpu 改为 hello_from_gpu ，后面加上 global 将其定义为核函数。（2）在main主函数调用的时候，加上执行配置<<< >>>局部，如加上<<<1,1>>>则为并行1次，如加上<<<2,4>>>则运行 2X4次。咱们看看理论代码批改后的成果：#include <stdio.h>

global void hello_from_gpu()
{

printf("Hello World from the GPU!\n");

}

int main(void)
{

hello_from_gpu<<<1,1>>>();
return 0;

}
cu代码必须应用nvcc编译，编译的时候要依据GPU架构的不同填不同的参数。

其中，arch参数如下：

code参数如下：

举个简略的例子，张小白这台笔记本的显卡是Quardo P1000，是Pascal架构，那么参数是compute_61和sm_61.咱们执行以下语句：/usr/local/cuda/bin/nvcc -arch=compute_61 -code=sm_61 hello_cuda.cu -o hello_cuda./hello_cuda

如果将执行配置改为2,4：

能够发现这个核函数被执行了8次。

关于机器学习:MindSporeCUDA编程二CUDA代码执行原理

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:MindSporeCUDA编程二CUDA代码执行原理

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复