乐趣区

关于云计算:DL4J实战之四经典卷积实例GPU版本

欢送拜访我的 GitHub

https://github.com/zq2599/blog_demos

内容:所有原创文章分类汇总及配套源码,波及 Java、Docker、Kubernetes、DevOPS 等;

本篇概览

  • 作为《DL4J 实战》的第四篇,明天咱们不写代码,而是为今后的实战做些筹备:在 DL4J 框架下用 GPU 减速深度学习的训练过程;
  • 如果您电脑上有 NVIDIA 显卡,并且胜利的装置了 CUDA,那么就随本文一起实际操作吧,全文由以下内容形成:
  • 软硬件环境参考信息
  • DL4J 的依赖库和版本
  • 应用 GPU 的具体操作步骤
  • GPU 训练和 CPU 训练比照

软硬件环境参考信息

  • 家喻户晓,欣宸是个富人,因而带 NVIDIA 显卡的电脑就是一台破旧的联想笔记本,相干信息如下:
  • 操作系统:Ubuntu16 桌面版
  • 显卡型号:GTX950M
  • CUDA:9.2
  • CPU:i5-6300HQ
  • 内存:32G DDR4
  • 硬盘:NvMe 1T
  • 实际证明,以上配置能够顺利运行《DL4J 实战之三:经典卷积实例(LeNet-5)》一文中的实例,并且能够通过 GPU 减速训练(GPU 和 CPU 的比照数据会在前面给出)
  • 在 Ubuntu16 环境装置 NVIDIA 驱动和 CUDA9.2 的过程,能够参考文章《污浊 Ubuntu16 装置 CUDA(9.1)和 cuDNN》,这外面装置的 CUDA 版本是 9.1,请自行改为 9.2 版本

DL4J 的依赖库和版本

  • 首先要强调的是:不要应用 CUDA 11.2 版本(这是执行 nvidia-smi 时输入的版本),截止写本文时,应用 CUDA 11.2 及其依赖库,在启动时会有 ClassNotFound 异样
  • CUDA 10.X 版本我这里也没有试过,因而不做评论
  • CUDA 9.1 和 9.2 版本都尝试过,能够失常应用
  • 为什么不必 9.1 呢?咱们先去地方仓库看看 DL4J 外围库的版本状况,如下图,最新的版本曾经到了 <font color=”blue”>1.0.0-M1</font>:

  • 再看看 CUDA 9.1 对应的 nd4j 库的版本状况,如下图红框,最新的是 2018 年的 <font color=”blue”>1.0.0-beta</font>,与外围库差距太大了:

  • 好了,再来看看 CUDA 9.2 对应的 nd4j 库的版本状况,如下图红框,最新的是 <font color=”blue”>1.0.0-beta6</font>,与外围库差两个版本,因而,倡议应用 CUDA 9.2:

应用 GPU 的具体操作步骤

  • 应用 CPU 还是 GPU,具体操作步骤非常简单:切换不同的依赖库即可,上面别离介绍
  • 如果您用 CPU 做训练,则依赖库和版本如下:
<!-- 外围库,不论是 CPU 还是 GPU 都要用到 -->
<dependency>
    <groupId>org.deeplearning4j</groupId>
    <artifactId>deeplearning4j-core</artifactId>
    <version>1.0.0-beta6</version>
</dependency>
<!--CPU 要用到 -->
<dependency>
    <groupId>org.nd4j</groupId>
    <artifactId>nd4j-native</artifactId>
    <version>1.0.0-beta6</version>
</dependency>

如果您用 GPU 做训练,且 CUDA 版本是 9.2,则依赖库和版本如下:

<!-- 外围库,不论是 CPU 还是 GPU 都要用到 -->
<dependency>
    <groupId>org.deeplearning4j</groupId>
    <artifactId>deeplearning4j-core</artifactId>
    <version>1.0.0-beta6</version>
</dependency>
<!--GPU 要用到 -->
<dependency>
    <groupId>org.deeplearning4j</groupId>
    <artifactId>deeplearning4j-cuda-9.2</artifactId>
    <version>1.0.0-beta6</version>
</dependency>
<!--GPU 要用到 -->
<dependency>
    <groupId>org.nd4j</groupId>
    <artifactId>nd4j-cuda-9.2-platform</artifactId>
    <version>1.0.0-beta6</version>
</dependency>
  • java 代码就不在这里贴出了,用的是《DL4J 实战之三:经典卷积实例(LeNet-5)》中的代码,不做任何扭转

内存设置

  • 应用 IDEA 运行代码的时候,能够依照以后硬件状况将内存适当调大,步骤如下图:

  • 请酌情调整,我这里设置为 8G

  • 设置结束,接下来在同一电脑上别离用 CPU 和 GPU 执行训练和测试,通过比照查看 GPU 减速成果

CPU 版本

  • 在这台破旧的笔记本电脑上,用 CPU 做训练是十分吃力的,如下图,简直被榨干:

  • 控制台输入如下,耗时 <font color=”blue”>158</font> 秒,真是个漫长的过程:
=========================Confusion Matrix=========================
    0    1    2    3    4    5    6    7    8    9
---------------------------------------------------
  973    1    0    0    0    0    2    2    1    1 | 0 = 0
    0 1132    0    2    0    0    1    0    0    0 | 1 = 1
    1    5 1018    1    1    0    0    4    2    0 | 2 = 2
    0    0    2 1003    0    3    0    1    1    0 | 3 = 3
    0    0    1    0  975    0    2    0    0    4 | 4 = 4
    2    0    0    6    0  880    2    1    1    0 | 5 = 5
    6    1    0    0    3    4  944    0    0    0 | 6 = 6
    0    3    6    1    0    0    0 1012    2    4 | 7 = 7
    3    0    1    1    0    1    1    2  964    1 | 8 = 8
    0    0    0    2    6    2    0    2    0  997 | 9 = 9

Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times
==================================================================
13:24:31.616 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 实现训练和测试,耗时 [158739] 毫秒
13:24:32.116 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的 MINIST 模型保留在[/home/will/temp/202106/26/minist-model.zip]

GPU 版本

  • 接下来依照后面给出的依赖关系批改 pom.xml 文件,即可启用 GPU,运行过程中,控制台输入以下内容示意已启用 GPU:
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Backend used: [CUDA]; OS: [Linux]
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Cores: [4]; Memory: [7.7GB];
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Blas vendor: [CUBLAS]
13:27:08.300 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - ND4J CUDA build version: 9.2.148
13:27:08.301 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - CUDA device 0: [GeForce GTX 950M]; cc: [5.0]; Total memory: [4242604032]
  • 这次的运行过程显著晦涩了许多,CPU 使用率降落了不少:

  • 控制台输入如下,耗时 <font color=”blue”>21</font> 秒,可见 GPU 减速成果还是很显著的:
=========================Confusion Matrix=========================
    0    1    2    3    4    5    6    7    8    9
---------------------------------------------------
  973    1    0    0    0    0    2    2    1    1 | 0 = 0
    0 1129    0    2    0    0    2    2    0    0 | 1 = 1
    1    3 1021    0    1    0    0    4    2    0 | 2 = 2
    0    0    1 1003    0    3    0    1    2    0 | 3 = 3
    0    0    1    0  973    0    3    0    0    5 | 4 = 4
    1    0    0    6    0  882    2    1    0    0 | 5 = 5
    6    1    0    0    2    5  944    0    0    0 | 6 = 6
    0    2    4    1    0    0    0 1016    2    3 | 7 = 7
    1    0    2    1    0    1    0    2  964    3 | 8 = 8
    0    0    0    2    6    3    0    2    1  995 | 9 = 9

Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times
==================================================================
13:27:30.722 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 实现训练和测试,耗时 [21441] 毫秒
13:27:31.323 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的 MINIST 模型保留在[/home/will/temp/202106/26/minist-model.zip]

Process finished with exit code 0
  • 至此,DL4J 框架下的 GPU 减速实战就实现了,如果您手里有 NVIDIA 显卡,能够尝试一下,心愿本文能给您一些参考

你不孤独,欣宸原创一路相伴

  1. Java 系列
  2. Spring 系列
  3. Docker 系列
  4. kubernetes 系列
  5. 数据库 + 中间件系列
  6. DevOps 系列

欢送关注公众号:程序员欣宸

微信搜寻「程序员欣宸」,我是欣宸,期待与您一起畅游 Java 世界 …
https://github.com/zq2599/blog_demos

退出移动版