欢送拜访我的GitHub
https://github.com/zq2599/blog_demos
内容:所有原创文章分类汇总及配套源码,波及Java、Docker、Kubernetes、DevOPS等;
本篇概览
- 作为《DL4J实战》的第四篇,明天咱们不写代码,而是为今后的实战做些筹备:在DL4J框架下用GPU减速深度学习的训练过程;
- 如果您电脑上有NVIDIA显卡,并且胜利的装置了CUDA,那么就随本文一起实际操作吧,全文由以下内容形成:
- 软硬件环境参考信息
- DL4J的依赖库和版本
- 应用GPU的具体操作步骤
- GPU训练和CPU训练比照
软硬件环境参考信息
- 家喻户晓,欣宸是个富人,因而带NVIDIA显卡的电脑就是一台破旧的联想笔记本,相干信息如下:
- 操作系统:Ubuntu16桌面版
- 显卡型号:GTX950M
- CUDA:9.2
- CPU:i5-6300HQ
- 内存:32G DDR4
- 硬盘:NvMe 1T
- 实际证明,以上配置能够顺利运行《DL4J实战之三:经典卷积实例(LeNet-5)》一文中的实例,并且能够通过GPU减速训练(GPU和CPU的比照数据会在前面给出)
- 在Ubuntu16环境装置NVIDIA驱动和CUDA9.2的过程,能够参考文章《污浊Ubuntu16装置CUDA(9.1)和cuDNN》,这外面装置的CUDA版本是9.1,请自行改为9.2版本
DL4J的依赖库和版本
- 首先要强调的是:不要应用CUDA 11.2版本(这是执行nvidia-smi时输入的版本),截止写本文时,应用CUDA 11.2及其依赖库,在启动时会有ClassNotFound异样
- CUDA 10.X版本我这里也没有试过,因而不做评论
- CUDA 9.1和9.2版本都尝试过,能够失常应用
- 为什么不必9.1呢?咱们先去地方仓库看看DL4J外围库的版本状况,如下图,最新的版本曾经到了<font color="blue">1.0.0-M1</font>:
- 再看看CUDA 9.1对应的nd4j库的版本状况,如下图红框,最新的是2018年的<font color="blue">1.0.0-beta</font>,与外围库差距太大了:
- 好了,再来看看CUDA 9.2对应的nd4j库的版本状况,如下图红框,最新的是<font color="blue">1.0.0-beta6</font>,与外围库差两个版本,因而,倡议应用CUDA 9.2:
应用GPU的具体操作步骤
- 应用CPU还是GPU,具体操作步骤非常简单:切换不同的依赖库即可,上面别离介绍
- 如果您用CPU做训练,则依赖库和版本如下:
<!--外围库,不论是CPU还是GPU都要用到--><dependency> <groupId>org.deeplearning4j</groupId> <artifactId>deeplearning4j-core</artifactId> <version>1.0.0-beta6</version></dependency><!--CPU要用到--><dependency> <groupId>org.nd4j</groupId> <artifactId>nd4j-native</artifactId> <version>1.0.0-beta6</version></dependency>
如果您用GPU做训练,且CUDA版本是9.2,则依赖库和版本如下:
<!--外围库,不论是CPU还是GPU都要用到--><dependency> <groupId>org.deeplearning4j</groupId> <artifactId>deeplearning4j-core</artifactId> <version>1.0.0-beta6</version></dependency><!--GPU要用到--><dependency> <groupId>org.deeplearning4j</groupId> <artifactId>deeplearning4j-cuda-9.2</artifactId> <version>1.0.0-beta6</version></dependency><!--GPU要用到--><dependency> <groupId>org.nd4j</groupId> <artifactId>nd4j-cuda-9.2-platform</artifactId> <version>1.0.0-beta6</version></dependency>
- java代码就不在这里贴出了,用的是《DL4J实战之三:经典卷积实例(LeNet-5)》中的代码,不做任何扭转
内存设置
- 应用IDEA运行代码的时候,能够依照以后硬件状况将内存适当调大,步骤如下图:
- 请酌情调整,我这里设置为8G
- 设置结束,接下来在同一电脑上别离用CPU和GPU执行训练和测试,通过比照查看GPU减速成果
CPU版本
- 在这台破旧的笔记本电脑上,用CPU做训练是十分吃力的,如下图,简直被榨干:
- 控制台输入如下,耗时<font color="blue">158</font>秒,真是个漫长的过程:
=========================Confusion Matrix========================= 0 1 2 3 4 5 6 7 8 9--------------------------------------------------- 973 1 0 0 0 0 2 2 1 1 | 0 = 0 0 1132 0 2 0 0 1 0 0 0 | 1 = 1 1 5 1018 1 1 0 0 4 2 0 | 2 = 2 0 0 2 1003 0 3 0 1 1 0 | 3 = 3 0 0 1 0 975 0 2 0 0 4 | 4 = 4 2 0 0 6 0 880 2 1 1 0 | 5 = 5 6 1 0 0 3 4 944 0 0 0 | 6 = 6 0 3 6 1 0 0 0 1012 2 4 | 7 = 7 3 0 1 1 0 1 1 2 964 1 | 8 = 8 0 0 0 2 6 2 0 2 0 997 | 9 = 9Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times==================================================================13:24:31.616 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 实现训练和测试,耗时[158739]毫秒13:24:32.116 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的MINIST模型保留在[/home/will/temp/202106/26/minist-model.zip]
GPU版本
- 接下来依照后面给出的依赖关系批改pom.xml文件,即可启用GPU,运行过程中,控制台输入以下内容示意已启用GPU:
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Backend used: [CUDA]; OS: [Linux]13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Cores: [4]; Memory: [7.7GB];13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Blas vendor: [CUBLAS]13:27:08.300 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - ND4J CUDA build version: 9.2.14813:27:08.301 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - CUDA device 0: [GeForce GTX 950M]; cc: [5.0]; Total memory: [4242604032]
- 这次的运行过程显著晦涩了许多,CPU使用率降落了不少:
- 控制台输入如下,耗时<font color="blue">21</font>秒,可见GPU减速成果还是很显著的:
=========================Confusion Matrix========================= 0 1 2 3 4 5 6 7 8 9--------------------------------------------------- 973 1 0 0 0 0 2 2 1 1 | 0 = 0 0 1129 0 2 0 0 2 2 0 0 | 1 = 1 1 3 1021 0 1 0 0 4 2 0 | 2 = 2 0 0 1 1003 0 3 0 1 2 0 | 3 = 3 0 0 1 0 973 0 3 0 0 5 | 4 = 4 1 0 0 6 0 882 2 1 0 0 | 5 = 5 6 1 0 0 2 5 944 0 0 0 | 6 = 6 0 2 4 1 0 0 0 1016 2 3 | 7 = 7 1 0 2 1 0 1 0 2 964 3 | 8 = 8 0 0 0 2 6 3 0 2 1 995 | 9 = 9Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times==================================================================13:27:30.722 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 实现训练和测试,耗时[21441]毫秒13:27:31.323 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的MINIST模型保留在[/home/will/temp/202106/26/minist-model.zip]Process finished with exit code 0
- 至此,DL4J框架下的GPU减速实战就实现了,如果您手里有NVIDIA显卡,能够尝试一下,心愿本文能给您一些参考
你不孤独,欣宸原创一路相伴
- Java系列
- Spring系列
- Docker系列
- kubernetes系列
- 数据库+中间件系列
- DevOps系列
欢送关注公众号:程序员欣宸
微信搜寻「程序员欣宸」,我是欣宸,期待与您一起畅游Java世界...
https://github.com/zq2599/blog_demos