关于gpu:便捷快速稳定高性能以-GPU-实例演示-Alibaba-Cloud-Linux-3-对-AI-生态的支持

41次阅读

共计 2990 个字符,预计需要花费 8 分钟才能阅读完成。

日前,Alibaba Cloud Linux 3 为使 AI 开发体验更高效,提供了一些优化降级,本文为“Alibaba Cloud Linux 3 AI 能力介绍”系列文章预告篇,以 GPU 实例为例,为大家演示 Alibaba Cloud Linux 3 对 AI 生态的反对。接下来还将陆续公布 2 篇系列文章,次要介绍基于 Alinux 的云市场镜像为用户提供开箱即用的 AI 根底软件环境,以及基于 AMD 介绍 AI 能力差异化。敬请期待。更多 Alibaba Cloud Linux 3 信息可返回官网查看:https://www.aliyun.com/product/ecs/alinux

当在 Linux 操作系统上开发人工智能(AI)应用程序时,研发人员可能会遇到一些挑战,这些挑战包含但不限于:

  1. GPU 驱动程序:为了在 Linux 零碎上应用 NVIDIA GPU 进行训练或推理,须要装置和配置正确的 NVIDIA GPU 驱动程序。因为不同的操作系统和 GPU 型号可能须要不同的驱动程序,因而可能须要一些额定的工作。
  2. AI 框架编译:在 Linux 零碎上应用 AI 框架进行编程时,须要装置和配置适当的编译器和其余依赖项。这些框架通常须要进行编译,因而须要确保正确装置了编译器和其余依赖项,并正确配置编译器。
  3. 软件兼容性:Linux 操作系统反对许多不同的软件和工具,但不同版本和发行版之间可能存在兼容性问题。这可能会导致某些程序无奈失常运行或者在某些操作系统上不可用。因而,研发人员须要理解其工作环境的软件兼容性,并进行必要的配置和批改。
  4. 性能问题:AI 软件栈是一个异样简单的零碎,通常须要对不同型号的 CPU 和 GPU 进行业余的优化,能力施展其最佳性能。软硬件协同的性能优化对于 AI 软件栈来说是一个具备挑战性的工作,须要领有高超的技术水平和专业知识。

阿里云第三代云服务器操作系统 Alibaba Cloud Linux 3(以下简称“Alinux 3”)是基于龙蜥操作系统 Anolis OS 研发的商业版操作系统,为开发人员提供了弱小的 AI 开发平台,通过反对龙蜥生态 repo(epao),Alinux 3 实现了对支流的 nvidia GPU 和 CUDA 生态的全面反对,使得 AI 开发更加便捷高效。此外,Alinux 3 还反对支流的 AI 框架 TensorFlow/PyTorch,intel/amd 等不同 CPU 平台对 AI 的优化,还将引入了 modelscope、huggingface 等大模型 SDK 的原生反对,为开发人员提供了丰盛的资源和工具。这些反对,使得 Alinux 3 成为了一个欠缺的 AI 开发平台,解决 AI 开发人员的痛点问题,不必始终折腾环境,让 AI 开发体验更容易更高效。

Alinux 3 为开发人员提供了弱小的 AI 开发平台。为了解决以上研发人员可能遇到的挑战,Alinux 3 提供了以下几点优化降级:

1. Alinux 3 通过引入龙蜥生态软件仓库(epao),反对开发者一键装置支流 NVIDIA GPU 驱动以及 CUDA 减速库,节俭了开发者须要匹配驱动版本以及手动装置的工夫。

  1. epao 仓库中还提供了对支流 AI 框架 Tensorflow/PyTorch 的版本反对,同时装置过程中会主动解决 AI 框架的依赖问题,开发者无需进行额定编译,即可搭配零碎 Python 环境进行疾速开发。
  2. Alinux 3 的 AI 能力在提供给开发者之前,所有组件均通过兼容性测试,开发者能够一键装置对应的 AI 能力,免去了环境配置中可能呈现的对系统依赖项的批改,进步了应用过程中的稳定性。
  3. Alinux 3 针对 Intel/AMD 等不同平台的 CPU 进行了 AI 专门优化,更好地开释硬件的全副性能。
  4. 为了更快的适应 AIGC 产业的疾速迭代,Alinux 3 还将引入对 ModelScope、HuggingFace 等大模型 SDK 的原生反对,为开发人员提供了丰盛的资源和工具。

在多维度的优化加持下,使得 Alinux 3 成为一个欠缺的 AI 开发平台,解决了 AI 开发人员的痛点问题,让 AI 开发体验更容易更高效。

以下以阿里云 GPU 实例为例子,演示 Alinux 3 对 AI 生态的反对:

1、购买 GPU 实例

2、抉择 Alinux 3 镜像

3、装置 epao repo 配置

dnf install -y anolis-epao-release

4、装置 nvidia GPU driver

装置 nvidia driver 之前先保障 kernel-devel 已装置,确保 nvidia driver 装置胜利。

dnf install -y kernel-devel-$(uname-r)

装置 nvidia driver:

dnf install -y nvidia-driver nvidia-driver-cuda

装置实现后能够通过 nvidia-smi 命令查看 GPU 设施状态。

5、装置 cuda 生态库

dnf install -y cuda

6、装置 AI 框架 tensorflow/pytorch

以后提供 CPU 版的 tensorflow/pytorch,将来将反对 GPU 版的 AI 框架。

dnf install tensorflow -y dnf install pytorch -y

装置实现后可通过简略的命令查看是否装置胜利:

7、部署模型

应用 Alinux 3 对 AI 的生态反对,能够部署 GPT-2 Large 模型来进行本文续写工作。

装置 Git 以及 Git LFS 不便后续下载模型。

dnf install -y git git-lfs wget

更新 pip,便于后续部署 Python 环境。

python -m pip install --upgrade pip

启用 Git LFS 的反对。

git lfs install

下载 write-with-transformer 我的项目源码,以及预训练模型。write-with-transformer 我的项目是一个网页写作 APP,能够应用 GPT-2 大模型对写作内容进行续写。

git clone https://huggingface.co/spaces/merve/write-with-transformer
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/gpt2-large
wget https://huggingface.co/gpt2-large/resolve/main/pytorch_model.bin -O gpt2-large/pytorch_model.bin

装置 write-with-transformer 所须要的依赖环境。

cd ~/write-with-transformer
pip install --ignore-installed pyyaml==5.1
pip install -r requirements.txt

环境部署结束后,就能够运行网页版 APP,来体验 GPT-2 帮忙实现写作的乐趣。目前 GPT-2 只反对应用英文进行文本生成。

cd ~/write-with-transformer
sed -i 's?"gpt2-large"?"../gpt2-large"?g' app.py
sed -i '34s/10/32/;34s/30/120/' app.py
streamlit run app.py --server.port 7860

回显信息呈现 External URL: http://<ECS EXTERNAL IP>:7860 表明网页版 APP 运行胜利。

点击立刻收费试用云产品 开启云上实际之旅!

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0