关于程序员:基于CUDA的GPU计算PI值

拜访【WRITE-BUG数字空间】_[内附残缺源码和文档]基于CUDA的GPU计算PI值。本我的项目应用CUDA编程模型并行计算PI值，钻研GPU与CPU效率的比拟，剖析不同GPU线程分块对性能的影响。异构计算试验报告—试验1：基于CUDA的GPU计算PI值

第一局部：试验环境OS：Windows 10CPU：intel(R) Core(TM) i7-10510U CPU@mailto:CPU@ 1.80GhzGPU:NVIDIA GeForce MX250编译器： cl :v19.29.30133nvcc:Cuda compilationn tools, release 11.4, V11.4.120第二局部：试验内容应用 CUDA 编程模型并行计算 PI 值，钻研 GPU 与 CPU 效率的比拟，剖析不同 GPU 线程分块对性能的影响第三局部：试验原理数学原理为1 积分求解

编辑切换为居中增加图片正文，不超过 140 字（可选）2 幂级数求解

编辑切换为居中增加图片正文，不超过 140 字（可选）应用 CUDA 编程模型，程序执行过程为CUDAMALLOC -> CUDAMEMCPY(HTOD) ->KERNEL->CUDAMEMCPY(DTOH)

在执行和函数时指定 <<<grid，block>>> 来控制线程的数量和构造第四局部：性能剖析# define Ｎ　迭代次数

1 CPU VS GPU1.1 单核比拟N = (10001000100)=100MCPU（thread = 1）：4.887（s）GPU(grid = 1,block=1)：用时过长..无奈测量1.2 多核比拟首先要施展出最大的 CPU 性能，因为机器的 CPU 是逻辑 8 核的，所以实践上开启 8 个线程能够施展最大性能。所以我写了一个 8 线程并行的程序来计算，同样循环 N=（10001000100）次

编辑切换为居中增加图片正文，不超过 140 字（可选）能够看出新的工夫为 0.768s 快了不少（PS：这里的程序是应用 GCC 编译的，而 CUDA 程序 NVCC 调用的是 MSCV 的编译器，Windows 平台上 NVCC 不反对 GCC，然而后果应该是差不多的）2 GPU 性能剖析接下来就是找出 GPU 的最高性能了。首先在 grid = 1 下探索 block 里的线程数对性能的影响。这里能够间接用 nvprof 剖析，十分不便。2.1 grid = (1,1,1) block = (10,1,1)

编辑切换为居中增加图片正文，不超过 140 字（可选）一共用时：34.5556s 线程数：10能够留神到，在本程序中，次要的工夫是耗费在计算上的，因为没有什么要拷贝的内存，所以瓶颈只会呈现在计算上2.2 grid=(1,1,1) block=(100,1,1)

编辑切换为居中增加图片正文，不超过 140 字（可选）一共用时：2.58383s 线程数：1002.3 grid=(1,1,1) block=(1000,1,1)

编辑切换为居中增加图片正文，不超过 140 字（可选）一共用时：1.543s 线程数：1000每个 block 的最大线程数限度是 1024，这里就不能再减少 block 了

关于程序员:基于CUDA的GPU计算PI值

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于程序员:基于CUDA的GPU计算PI值

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复