关于云计算:DL4J实战之四经典卷积实例GPU版本

https://github.com/zq2599/blog_demos

内容：所有原创文章分类汇总及配套源码，波及 Java、Docker、Kubernetes、DevOPS 等；

作为《DL4J 实战》的第四篇，明天咱们不写代码，而是为今后的实战做些筹备：在 DL4J 框架下用 GPU 减速深度学习的训练过程；
如果您电脑上有 NVIDIA 显卡，并且胜利的装置了 CUDA，那么就随本文一起实际操作吧，全文由以下内容形成：
软硬件环境参考信息
DL4J 的依赖库和版本
应用 GPU 的具体操作步骤
GPU 训练和 CPU 训练比照

家喻户晓，欣宸是个富人，因而带 NVIDIA 显卡的电脑就是一台破旧的联想笔记本，相干信息如下：
操作系统：Ubuntu16 桌面版
显卡型号：GTX950M
CUDA：9.2
CPU：i5-6300HQ
内存：32G DDR4
硬盘：NvMe 1T
实际证明，以上配置能够顺利运行《DL4J 实战之三：经典卷积实例(LeNet-5)》一文中的实例，并且能够通过 GPU 减速训练(GPU 和 CPU 的比照数据会在前面给出)
在 Ubuntu16 环境装置 NVIDIA 驱动和 CUDA9.2 的过程，能够参考文章《污浊 Ubuntu16 装置 CUDA(9.1)和 cuDNN》，这外面装置的 CUDA 版本是 9.1，请自行改为 9.2 版本

首先要强调的是：不要应用 CUDA 11.2 版本(这是执行 nvidia-smi 时输入的版本)，截止写本文时，应用 CUDA 11.2 及其依赖库，在启动时会有 ClassNotFound 异样
CUDA 10.X 版本我这里也没有试过，因而不做评论
CUDA 9.1 和 9.2 版本都尝试过，能够失常应用
为什么不必 9.1 呢？咱们先去地方仓库看看 DL4J 外围库的版本状况，如下图，最新的版本曾经到了 1.0.0-M1：

再看看 CUDA 9.1 对应的 nd4j 库的版本状况，如下图红框，最新的是 2018 年的 1.0.0-beta，与外围库差距太大了：

好了，再来看看 CUDA 9.2 对应的 nd4j 库的版本状况，如下图红框，最新的是 1.0.0-beta6，与外围库差两个版本，因而，倡议应用 CUDA 9.2：

应用 CPU 还是 GPU，具体操作步骤非常简单：切换不同的依赖库即可，上面别离介绍
如果您用 CPU 做训练，则依赖库和版本如下：

<!-- 外围库，不论是 CPU 还是 GPU 都要用到 -->
<dependency>
    <groupId>org.deeplearning4j</groupId>
    <artifactId>deeplearning4j-core</artifactId>
    <version>1.0.0-beta6</version>
</dependency>
<!--CPU 要用到 -->
<dependency>
    <groupId>org.nd4j</groupId>
    <artifactId>nd4j-native</artifactId>
    <version>1.0.0-beta6</version>
</dependency>

如果您用 GPU 做训练，且 CUDA 版本是 9.2，则依赖库和版本如下：

<!-- 外围库，不论是 CPU 还是 GPU 都要用到 -->
<dependency>
    <groupId>org.deeplearning4j</groupId>
    <artifactId>deeplearning4j-core</artifactId>
    <version>1.0.0-beta6</version>
</dependency>
<!--GPU 要用到 -->
<dependency>
    <groupId>org.deeplearning4j</groupId>
    <artifactId>deeplearning4j-cuda-9.2</artifactId>
    <version>1.0.0-beta6</version>
</dependency>
<!--GPU 要用到 -->
<dependency>
    <groupId>org.nd4j</groupId>
    <artifactId>nd4j-cuda-9.2-platform</artifactId>
    <version>1.0.0-beta6</version>
</dependency>

java 代码就不在这里贴出了，用的是《DL4J 实战之三：经典卷积实例(LeNet-5)》中的代码，不做任何扭转

应用 IDEA 运行代码的时候，能够依照以后硬件状况将内存适当调大，步骤如下图：

请酌情调整，我这里设置为 8G

设置结束，接下来在同一电脑上别离用 CPU 和 GPU 执行训练和测试，通过比照查看 GPU 减速成果

在这台破旧的笔记本电脑上，用 CPU 做训练是十分吃力的，如下图，简直被榨干：

控制台输入如下，耗时 158 秒，真是个漫长的过程：

=========================Confusion Matrix=========================
    0    1    2    3    4    5    6    7    8    9
---------------------------------------------------
  973    1    0    0    0    0    2    2    1    1 | 0 = 0
    0 1132    0    2    0    0    1    0    0    0 | 1 = 1
    1    5 1018    1    1    0    0    4    2    0 | 2 = 2
    0    0    2 1003    0    3    0    1    1    0 | 3 = 3
    0    0    1    0  975    0    2    0    0    4 | 4 = 4
    2    0    0    6    0  880    2    1    1    0 | 5 = 5
    6    1    0    0    3    4  944    0    0    0 | 6 = 6
    0    3    6    1    0    0    0 1012    2    4 | 7 = 7
    3    0    1    1    0    1    1    2  964    1 | 8 = 8
    0    0    0    2    6    2    0    2    0  997 | 9 = 9

Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times
==================================================================
13:24:31.616 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 实现训练和测试，耗时 [158739] 毫秒
13:24:32.116 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的 MINIST 模型保留在[/home/will/temp/202106/26/minist-model.zip]

接下来依照后面给出的依赖关系批改 pom.xml 文件，即可启用 GPU，运行过程中，控制台输入以下内容示意已启用 GPU：

13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Backend used: [CUDA]; OS: [Linux]
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Cores: [4]; Memory: [7.7GB];
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Blas vendor: [CUBLAS]
13:27:08.300 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - ND4J CUDA build version: 9.2.148
13:27:08.301 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - CUDA device 0: [GeForce GTX 950M]; cc: [5.0]; Total memory: [4242604032]

这次的运行过程显著晦涩了许多，CPU 使用率降落了不少：

控制台输入如下，耗时 21 秒，可见 GPU 减速成果还是很显著的：

=========================Confusion Matrix=========================
    0    1    2    3    4    5    6    7    8    9
---------------------------------------------------
  973    1    0    0    0    0    2    2    1    1 | 0 = 0
    0 1129    0    2    0    0    2    2    0    0 | 1 = 1
    1    3 1021    0    1    0    0    4    2    0 | 2 = 2
    0    0    1 1003    0    3    0    1    2    0 | 3 = 3
    0    0    1    0  973    0    3    0    0    5 | 4 = 4
    1    0    0    6    0  882    2    1    0    0 | 5 = 5
    6    1    0    0    2    5  944    0    0    0 | 6 = 6
    0    2    4    1    0    0    0 1016    2    3 | 7 = 7
    1    0    2    1    0    1    0    2  964    3 | 8 = 8
    0    0    0    2    6    3    0    2    1  995 | 9 = 9

Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times
==================================================================
13:27:30.722 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 实现训练和测试，耗时 [21441] 毫秒
13:27:31.323 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的 MINIST 模型保留在[/home/will/temp/202106/26/minist-model.zip]

Process finished with exit code 0

至此，DL4J 框架下的 GPU 减速实战就实现了，如果您手里有 NVIDIA 显卡，能够尝试一下，心愿本文能给您一些参考

Java 系列
Spring 系列
Docker 系列
kubernetes 系列
数据库 + 中间件系列
DevOps 系列

微信搜寻「程序员欣宸」，我是欣宸，期待与您一起畅游 Java 世界 …
https://github.com/zq2599/blog_demos

关于云计算:DL4J实战之四经典卷积实例GPU版本

欢送拜访我的 GitHub

本篇概览

软硬件环境参考信息

DL4J 的依赖库和版本

应用 GPU 的具体操作步骤

内存设置

CPU 版本

GPU 版本

你不孤独，欣宸原创一路相伴

欢送关注公众号：程序员欣宸