关于云计算:纯净Ubuntu16安装CUDA91和cuDNN

10次阅读

共计 7073 个字符,预计需要花费 18 分钟才能阅读完成。

欢送拜访我的 GitHub

https://github.com/zq2599/blog_demos

内容:所有原创文章分类汇总及配套源码,波及 Java、Docker、Kubernetes、DevOPS 等;

本篇概览

  • 本人有一台 2015 年的联想笔记本,显卡是 GTX950M,已装置 ubuntu 16.04 LTS 桌面版,为了应用其 GPU 实现 deeplearning4j 的训练工作,本人入手装置了 CUDA 和 cuDNN,在此将整个过程记录下来,以备未来参考,整个装置过程分为以下几步:
  • 筹备工作
  • 装置 Nvidia 驱动
  • 装置 CUDA
  • 装置 cuDNN

特地问题阐明

  • 依照个别步骤,在装置完 Nvidia 显卡驱动后,会提醒对应的 CUDA 版本,接下来依照提醒的版本装置 CUDA,例如我这里提醒的是 11.2,失常状况下,我应该装置 11.2 版本的 CUDA
  • 然而我抉择 9.1 版本就行装置,因为之前的开发中发现 deeplearning4j 应用了 11.2 的 SDK 后,启动利用会有 ClassNotFound 的谬误,此问题至今未修复 (羞愧,欣宸程度如此之低 …),因而,我在 Nvidia 驱动提醒 11.2 版本的状况下,仍然装置了 9.1 版本,起初在此环境运行 deeplearning4j 利用一切正常
  • 如果您没有我这类问题,齐全能够依照驱动指定的版本来装置 CUDA,具体的操作步骤稍后会具体说到;

筹备工作

  • 接下来的操作,除了在网页下载,其余都是 ssh 近程连贯到 ubuntu 机器操作的,ssh 登录的帐号为一般帐号,并非 root
  • 如果已有驱动,请先删除:
sudo apt-get remove --purge nvidia*
  • 禁用 nouveau 驱动( 很重要 ),用 vi 关上文件 <font color=”blue”>/etc/modprobe.d/blacklist.conf</font>,在尾部减少以下内容,而后保留退出:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
  • 敞开 nouveau:
echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf
  • 更新 initramfs:
update-initramfs -u
  • 执行 reboot 重启电脑
  • 重启后,执行以下命令,应该不会有任何输入,证实 nouveau 曾经禁用:
lsmod|grep nouveau
  • 获取 Kernel source:
sudo apt-get install linux-source
  • 装置过程中显示信息如下图:

  • 依据上图红框中的信息,可知内核版本号为 <font color=”blue”></font>,于是执行以下命令:
sudo apt-get install linux-headers-4.4.0-210-generic

下载和装置 Nvidia 驱动

  • 拜访 Nvidia 网站,地址 <font color=”blue”>https://www.nvidia.cn/Downloa…</font>,而后抉择对应的显卡和操作系统,我的抉择如下图所示:

  • 点击上图 <font color=”blue”> 搜寻 </font> 按钮后,进入下图页面,点击下载:

  • 下载失去的文件名为 <font color=”blue”>NVIDIA-Linux-x86_64-460.84.run</font>
  • 敞开图形页面:
sudo service lightdm stop
  • 给驱动文件减少可执行权限:
sudo chmod a+x NVIDIA-Linux-x86_64-460.84.run
  • 开始装置:
sudo ./NVIDIA-Linux-x86_64-460.84.run -no-x-check -no-nouveau-check -no-opengl-files
  • 遇到下图,抉择红框:

  • 遇到下图,间接回车:
  • 复原图形页面:
sudo service lightdm start
  • 执行命令 <font color=”blue”>nvidia-smi</font>,如果驱动装置胜利,会显示以下内容:
will@lenovo:~/temp/202106/20$ nvidia-smi
Sun Jun 20 09:02:11 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.84       Driver Version: 460.84       CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce GTX 950M    Off  | 00000000:01:00.0 Off |                  N/A |
| N/A   41C    P0    N/A /  N/A |      0MiB /  4046MiB |      1%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
  • 从上述内容可见 <font color=”blue”>CUDA Version: 11.2</font> 示意该驱动对应的 CUDA 版本应该是 <font color=”red”>11.2</font>,正如后面所说,我这边遇到了问题,因而接下来会装置 9.1 版本,然而您能够抉择装置 <font color=”red”>11.2</font>

装置 CUDA

  • 浏览器拜访 <font color=”blue”>https://developer.nvidia.com/…</font>,点击红框中的链接:

  • 如下图,下载 Linux 版本:

  • 持续抉择 <font color=”blue”>x86_64</font>:

  • 抉择具体的 Linux 版本及其版本号:

  • 要下载的货色不少,一个安装程序和三个补丁:

  • 上述四个文件的下载地址整顿如下:
https://developer.download.nvidia.cn/compute/cuda/9.1/secure/Prod/local_installers/cuda_9.1.85_387.26_linux.run?P0Ntu_6NLtuuEMm6fJRk1W5vl4KM7oaT1oFW870zKJ-zDw2ckKntFLOE6klRJfw2CmTa8z3Q390_6urlgc6LqjoqlIFW9gvfvDCusnINYplLaw1u8lRY8R4oVNtpNzaXU4BQcHjvdb6c6rjq20dktCcRd4640woXt1yHmD95v1Du7wdBBXq2eOY

https://developer.download.nvidia.cn/compute/cuda/9.1/secure/Prod/patches/1/cuda_9.1.85.1_linux.run?yeXf_7wIGlHAUw--E_YVLQZRgXv0x2i043woJVY-ydXU5Kyhc-eYQf5JmL-4mvYmlvPYCEc5RhT2sDWscX20CJbdOwpkt30kWb9vx8E4oIlajDQ3MVPvXdiKKsIOBUx-h0q0N0jSkNn80VMhW-nk8jwvRY_e6MuFzqWBaPk

https://developer.download.nvidia.cn/compute/cuda/9.1/secure/Prod/patches/2/cuda_9.1.85.2_linux.run?5jGZxNigaOJkaaPbMagjhSW7ebQvYGyYoqe2vBxZ1eV8qp2BzXJLxIPgAo11UgWhORirQkdJGq5b8eFh4aShBVUTmuPaasvRiMCKDZw5yjjIobGQrCEyU-LFO59AbrRER57Mxa0T1Sc97fC80IOZq8Ox2repjn7A3oYVgd8

https://developer.download.nvidia.cn/compute/cuda/9.1/secure/Prod/patches/3/cuda_9.1.85.3_linux.run?CxWimJTC-XROYihig-UZmH62odbJInf1fmxTZ_bsW1nQ0Zz5cL5r8qLmlMR_1j2rVhk3j8Z5lS6dpArt8frjGHH2MeVn5TefMoclam8udm-RSMMmqHXYE66hHN2D0drVEdtCwe8ZrEIYb2rpucaz9svCFE8Z319mge4Ju94
  • 下载结束后,执行命令 <font color=”blue”>chmod a+x *.run</font> 为上述四个文件减少可执行权限
  • 装置 CUDA:
sudo sh cuda_9.1.85_387.26_linux.run
  • 遇到 license 时,像是用 vi 工具那样,输出 ”:”,再输出 ”q” 回车,就能跳过 license 浏览,执行真正的安装操作了:

  • 接下来是一系列发问,每一个发问的答复如下图,千万留神红框中的问题肯定要抉择 <font color=”red”>n</font>:

  • 装置实现后输入以下内容:
Installing the CUDA Toolkit in /usr/local/cuda-9.1 ...
Missing recommended library: libGLU.so
Missing recommended library: libX11.so
Missing recommended library: libXi.so
Missing recommended library: libXmu.so
Missing recommended library: libGL.so

Installing the CUDA Samples in /home/will ...
Copying samples to /home/will/NVIDIA_CUDA-9.1_Samples now...
Finished copying samples.

===========
= Summary =
===========

Driver:   Not Selected
Toolkit:  Installed in /usr/local/cuda-9.1
Samples:  Installed in /home/will, but missing recommended libraries

Please make sure that
 -   PATH includes /usr/local/cuda-9.1/bin
 -   LD_LIBRARY_PATH includes /usr/local/cuda-9.1/lib64, or, add /usr/local/cuda-9.1/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit, run the uninstall script in /usr/local/cuda-9.1/bin

Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-9.1/doc/pdf for detailed information on setting up CUDA.

***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 384.00 is required for CUDA 9.1 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
    sudo <CudaInstaller>.run -silent -driver

Logfile is /tmp/cuda_install_13425.log
  • 关上文件 <font color=”blue”>~/.bashrc</font>,在尾部减少以下两行 (LD_LIBRARY_PATH 如果曾经存在,请参考 PATH 的写法改成追加):
export PATH=/usr/local/cuda-9.1/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64
  • 执行命令 <font color=”blue”>source ~/.bashrc</font> 使配置失效
  • 执行命令 <font color=”blue”>su -</font> 切换到 root 帐号,执行以下命令(不要用 sudo,而是切到 root 帐号):
sudo echo "/usr/local/cuda-9.1/lib64" >> /etc/ld.so.conf
  • 再以 root 身份执行以下命令:
ldconfig
  • 执行命令 <font color=”blue”>exit</font> 退出 root 身份,当初又是一般帐号的身份了
  • 执行命令 <font color=”blue”>nvcc -V</font> 查看 CUDA 版本,留神参数 V 是大写:
will@lenovo:~$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2017 NVIDIA Corporation
Built on Fri_Nov__3_21:07:56_CDT_2017
Cuda compilation tools, release 9.1, V9.1.85
  • 装置第一个补丁:
sudo sh cuda_9.1.85.1_linux.run
  • 装置第二个补丁:
sudo sh cuda_9.1.85_387.26_linux.run
  • 装置第三个补丁:
sudo sh cuda_9.1.85_387.26_linux.run

装置 cuDNN

  • 浏览器拜访 <font color=”red”>https://developer.nvidia.com/…</font>:

  • 按提醒登录,如果没有帐号请注册一个,登录后进入下载页面,须要点击下图红框地位才有能见到老版本:

  • 抉择与 CUDA 匹配的版本:

  • 下载后解压,失去文件夹 <font color=”blue”>cuda</font>,而后执行以下命令:
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
  • 执行查看确认的命令 <font color=”blue”>cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2</font>,如果装置顺利会有以下输入:
#define CUDNN_MAJOR 7
#define CUDNN_MINOR 1
#define CUDNN_PATCHLEVEL 3
--
#define CUDNN_VERSION    (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)

#include "driver_types.h"
  • 至此,Ubuntu16 装置 CUDA(9.1) 和 cuDNN 曾经实现了,心愿能给您一些参考。

你不孤独,欣宸原创一路相伴

  1. Java 系列
  2. Spring 系列
  3. Docker 系列
  4. kubernetes 系列
  5. 数据库 + 中间件系列
  6. DevOps 系列

欢送关注公众号:程序员欣宸

微信搜寻「程序员欣宸」,我是欣宸,期待与您一起畅游 Java 世界 …
https://github.com/zq2599/blog_demos

正文完
 0