欢送拜访我的 GitHub
https://github.com/zq2599/blog_demos
内容:所有原创文章分类汇总及配套源码,波及 Java、Docker、Kubernetes、DevOPS 等;
本篇概览
- 作为《DL4J 实战》的第四篇,明天咱们不写代码,而是为今后的实战做些筹备:在 DL4J 框架下用 GPU 减速深度学习的训练过程;
- 如果您电脑上有 NVIDIA 显卡,并且胜利的装置了 CUDA,那么就随本文一起实际操作吧,全文由以下内容形成:
- 软硬件环境参考信息
- DL4J 的依赖库和版本
- 应用 GPU 的具体操作步骤
- GPU 训练和 CPU 训练比照
软硬件环境参考信息
- 家喻户晓,欣宸是个富人,因而带 NVIDIA 显卡的电脑就是一台破旧的联想笔记本,相干信息如下:
- 操作系统:Ubuntu16 桌面版
- 显卡型号:GTX950M
- CUDA:9.2
- CPU:i5-6300HQ
- 内存:32G DDR4
- 硬盘:NvMe 1T
- 实际证明,以上配置能够顺利运行《DL4J 实战之三:经典卷积实例(LeNet-5)》一文中的实例,并且能够通过 GPU 减速训练(GPU 和 CPU 的比照数据会在前面给出)
- 在 Ubuntu16 环境装置 NVIDIA 驱动和 CUDA9.2 的过程,能够参考文章《污浊 Ubuntu16 装置 CUDA(9.1)和 cuDNN》,这外面装置的 CUDA 版本是 9.1,请自行改为 9.2 版本
DL4J 的依赖库和版本
- 首先要强调的是:不要应用 CUDA 11.2 版本(这是执行 nvidia-smi 时输入的版本),截止写本文时,应用 CUDA 11.2 及其依赖库,在启动时会有 ClassNotFound 异样
- CUDA 10.X 版本我这里也没有试过,因而不做评论
- CUDA 9.1 和 9.2 版本都尝试过,能够失常应用
- 为什么不必 9.1 呢?咱们先去地方仓库看看 DL4J 外围库的版本状况,如下图,最新的版本曾经到了 <font color=”blue”>1.0.0-M1</font>:
- 再看看 CUDA 9.1 对应的 nd4j 库的版本状况,如下图红框,最新的是 2018 年的 <font color=”blue”>1.0.0-beta</font>,与外围库差距太大了:
- 好了,再来看看 CUDA 9.2 对应的 nd4j 库的版本状况,如下图红框,最新的是 <font color=”blue”>1.0.0-beta6</font>,与外围库差两个版本,因而,倡议应用 CUDA 9.2:
应用 GPU 的具体操作步骤
- 应用 CPU 还是 GPU,具体操作步骤非常简单:切换不同的依赖库即可,上面别离介绍
- 如果您用 CPU 做训练,则依赖库和版本如下:
<!-- 外围库,不论是 CPU 还是 GPU 都要用到 -->
<dependency>
<groupId>org.deeplearning4j</groupId>
<artifactId>deeplearning4j-core</artifactId>
<version>1.0.0-beta6</version>
</dependency>
<!--CPU 要用到 -->
<dependency>
<groupId>org.nd4j</groupId>
<artifactId>nd4j-native</artifactId>
<version>1.0.0-beta6</version>
</dependency>
如果您用 GPU 做训练,且 CUDA 版本是 9.2,则依赖库和版本如下:
<!-- 外围库,不论是 CPU 还是 GPU 都要用到 -->
<dependency>
<groupId>org.deeplearning4j</groupId>
<artifactId>deeplearning4j-core</artifactId>
<version>1.0.0-beta6</version>
</dependency>
<!--GPU 要用到 -->
<dependency>
<groupId>org.deeplearning4j</groupId>
<artifactId>deeplearning4j-cuda-9.2</artifactId>
<version>1.0.0-beta6</version>
</dependency>
<!--GPU 要用到 -->
<dependency>
<groupId>org.nd4j</groupId>
<artifactId>nd4j-cuda-9.2-platform</artifactId>
<version>1.0.0-beta6</version>
</dependency>
- java 代码就不在这里贴出了,用的是《DL4J 实战之三:经典卷积实例(LeNet-5)》中的代码,不做任何扭转
内存设置
- 应用 IDEA 运行代码的时候,能够依照以后硬件状况将内存适当调大,步骤如下图:
- 请酌情调整,我这里设置为 8G
- 设置结束,接下来在同一电脑上别离用 CPU 和 GPU 执行训练和测试,通过比照查看 GPU 减速成果
CPU 版本
- 在这台破旧的笔记本电脑上,用 CPU 做训练是十分吃力的,如下图,简直被榨干:
- 控制台输入如下,耗时 <font color=”blue”>158</font> 秒,真是个漫长的过程:
=========================Confusion Matrix=========================
0 1 2 3 4 5 6 7 8 9
---------------------------------------------------
973 1 0 0 0 0 2 2 1 1 | 0 = 0
0 1132 0 2 0 0 1 0 0 0 | 1 = 1
1 5 1018 1 1 0 0 4 2 0 | 2 = 2
0 0 2 1003 0 3 0 1 1 0 | 3 = 3
0 0 1 0 975 0 2 0 0 4 | 4 = 4
2 0 0 6 0 880 2 1 1 0 | 5 = 5
6 1 0 0 3 4 944 0 0 0 | 6 = 6
0 3 6 1 0 0 0 1012 2 4 | 7 = 7
3 0 1 1 0 1 1 2 964 1 | 8 = 8
0 0 0 2 6 2 0 2 0 997 | 9 = 9
Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times
==================================================================
13:24:31.616 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 实现训练和测试,耗时 [158739] 毫秒
13:24:32.116 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的 MINIST 模型保留在[/home/will/temp/202106/26/minist-model.zip]
GPU 版本
- 接下来依照后面给出的依赖关系批改 pom.xml 文件,即可启用 GPU,运行过程中,控制台输入以下内容示意已启用 GPU:
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Backend used: [CUDA]; OS: [Linux]
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Cores: [4]; Memory: [7.7GB];
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Blas vendor: [CUBLAS]
13:27:08.300 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - ND4J CUDA build version: 9.2.148
13:27:08.301 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - CUDA device 0: [GeForce GTX 950M]; cc: [5.0]; Total memory: [4242604032]
- 这次的运行过程显著晦涩了许多,CPU 使用率降落了不少:
- 控制台输入如下,耗时 <font color=”blue”>21</font> 秒,可见 GPU 减速成果还是很显著的:
=========================Confusion Matrix=========================
0 1 2 3 4 5 6 7 8 9
---------------------------------------------------
973 1 0 0 0 0 2 2 1 1 | 0 = 0
0 1129 0 2 0 0 2 2 0 0 | 1 = 1
1 3 1021 0 1 0 0 4 2 0 | 2 = 2
0 0 1 1003 0 3 0 1 2 0 | 3 = 3
0 0 1 0 973 0 3 0 0 5 | 4 = 4
1 0 0 6 0 882 2 1 0 0 | 5 = 5
6 1 0 0 2 5 944 0 0 0 | 6 = 6
0 2 4 1 0 0 0 1016 2 3 | 7 = 7
1 0 2 1 0 1 0 2 964 3 | 8 = 8
0 0 0 2 6 3 0 2 1 995 | 9 = 9
Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times
==================================================================
13:27:30.722 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 实现训练和测试,耗时 [21441] 毫秒
13:27:31.323 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的 MINIST 模型保留在[/home/will/temp/202106/26/minist-model.zip]
Process finished with exit code 0
- 至此,DL4J 框架下的 GPU 减速实战就实现了,如果您手里有 NVIDIA 显卡,能够尝试一下,心愿本文能给您一些参考
你不孤独,欣宸原创一路相伴
- Java 系列
- Spring 系列
- Docker 系列
- kubernetes 系列
- 数据库 + 中间件系列
- DevOps 系列
欢送关注公众号:程序员欣宸
微信搜寻「程序员欣宸」,我是欣宸,期待与您一起畅游 Java 世界 …
https://github.com/zq2599/blog_demos