关于gpu:便捷快速稳定高性能以-GPU-实例演示-Alibaba-Cloud-Linux-3-对-AI-生态的支持

日前，Alibaba Cloud Linux 3 为使 AI 开发体验更高效，提供了一些优化降级，本文为“Alibaba Cloud Linux 3 AI 能力介绍”系列文章预告篇，以 GPU 实例为例，为大家演示 Alibaba Cloud Linux 3 对 AI 生态的反对。接下来还将陆续公布 2 篇系列文章，次要介绍基于 Alinux 的云市场镜像为用户提供开箱即用的 AI 根底软件环境，以及基于 AMD 介绍 AI 能力差异化。敬请期待。更多 Alibaba Cloud Linux 3 信息可返回官网查看：https://www.aliyun.com/product/ecs/alinux

当在 Linux 操作系统上开发人工智能（AI）应用程序时，研发人员可能会遇到一些挑战，这些挑战包含但不限于：

GPU 驱动程序：为了在 Linux 零碎上应用 NVIDIA GPU 进行训练或推理，须要装置和配置正确的 NVIDIA GPU 驱动程序。因为不同的操作系统和 GPU 型号可能须要不同的驱动程序，因而可能须要一些额定的工作。
AI 框架编译：在 Linux 零碎上应用 AI 框架进行编程时，须要装置和配置适当的编译器和其余依赖项。这些框架通常须要进行编译，因而须要确保正确装置了编译器和其余依赖项，并正确配置编译器。
软件兼容性：Linux 操作系统反对许多不同的软件和工具，但不同版本和发行版之间可能存在兼容性问题。这可能会导致某些程序无奈失常运行或者在某些操作系统上不可用。因而，研发人员须要理解其工作环境的软件兼容性，并进行必要的配置和批改。
性能问题：AI 软件栈是一个异样简单的零碎，通常须要对不同型号的 CPU 和 GPU 进行业余的优化，能力施展其最佳性能。软硬件协同的性能优化对于 AI 软件栈来说是一个具备挑战性的工作，须要领有高超的技术水平和专业知识。

阿里云第三代云服务器操作系统 Alibaba Cloud Linux 3（以下简称“Alinux 3”）是基于龙蜥操作系统 Anolis OS 研发的商业版操作系统，为开发人员提供了弱小的 AI 开发平台，通过反对龙蜥生态 repo（epao），Alinux 3 实现了对支流的 nvidia GPU 和 CUDA 生态的全面反对，使得 AI 开发更加便捷高效。此外，Alinux 3 还反对支流的 AI 框架 TensorFlow/PyTorch，intel/amd 等不同 CPU 平台对 AI 的优化，还将引入了 modelscope、huggingface 等大模型 SDK 的原生反对，为开发人员提供了丰盛的资源和工具。这些反对，使得 Alinux 3 成为了一个欠缺的 AI 开发平台，解决 AI 开发人员的痛点问题，不必始终折腾环境，让 AI 开发体验更容易更高效。

Alinux 3 为开发人员提供了弱小的 AI 开发平台。为了解决以上研发人员可能遇到的挑战，Alinux 3 提供了以下几点优化降级：

1. Alinux 3 通过引入龙蜥生态软件仓库（epao），反对开发者一键装置支流 NVIDIA GPU 驱动以及 CUDA 减速库，节俭了开发者须要匹配驱动版本以及手动装置的工夫。

epao 仓库中还提供了对支流 AI 框架 Tensorflow/PyTorch 的版本反对，同时装置过程中会主动解决 AI 框架的依赖问题，开发者无需进行额定编译，即可搭配零碎 Python 环境进行疾速开发。
Alinux 3 的 AI 能力在提供给开发者之前，所有组件均通过兼容性测试，开发者能够一键装置对应的 AI 能力，免去了环境配置中可能呈现的对系统依赖项的批改，进步了应用过程中的稳定性。
Alinux 3 针对 Intel/AMD 等不同平台的 CPU 进行了 AI 专门优化，更好地开释硬件的全副性能。
为了更快的适应 AIGC 产业的疾速迭代，Alinux 3 还将引入对 ModelScope、HuggingFace 等大模型 SDK 的原生反对，为开发人员提供了丰盛的资源和工具。

在多维度的优化加持下，使得 Alinux 3 成为一个欠缺的 AI 开发平台，解决了 AI 开发人员的痛点问题，让 AI 开发体验更容易更高效。

以下以阿里云 GPU 实例为例子，演示 Alinux 3 对 AI 生态的反对：

dnf install -y anolis-epao-release

装置 nvidia driver 之前先保障 kernel-devel 已装置，确保 nvidia driver 装置胜利。

dnf install -y kernel-devel-$(uname-r)

装置 nvidia driver：

dnf install -y nvidia-driver nvidia-driver-cuda

装置实现后能够通过 nvidia-smi 命令查看 GPU 设施状态。

dnf install -y cuda

以后提供 CPU 版的 tensorflow/pytorch，将来将反对 GPU 版的 AI 框架。

dnf install tensorflow -y dnf install pytorch -y

装置实现后可通过简略的命令查看是否装置胜利：

应用 Alinux 3 对 AI 的生态反对，能够部署 GPT-2 Large 模型来进行本文续写工作。

装置 Git 以及 Git LFS 不便后续下载模型。

dnf install -y git git-lfs wget

更新 pip，便于后续部署 Python 环境。

python -m pip install --upgrade pip

启用 Git LFS 的反对。

git lfs install

下载 write-with-transformer 我的项目源码，以及预训练模型。write-with-transformer 我的项目是一个网页写作 APP，能够应用 GPT-2 大模型对写作内容进行续写。

git clone https://huggingface.co/spaces/merve/write-with-transformer
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/gpt2-large
wget https://huggingface.co/gpt2-large/resolve/main/pytorch_model.bin -O gpt2-large/pytorch_model.bin

装置 write-with-transformer 所须要的依赖环境。

cd ~/write-with-transformer
pip install --ignore-installed pyyaml==5.1
pip install -r requirements.txt

环境部署结束后，就能够运行网页版 APP，来体验 GPT-2 帮忙实现写作的乐趣。目前 GPT-2 只反对应用英文进行文本生成。

cd ~/write-with-transformer
sed -i 's?"gpt2-large"?"../gpt2-large"?g' app.py
sed -i '34s/10/32/;34s/30/120/' app.py
streamlit run app.py --server.port 7860

回显信息呈现 External URL: http://<ECS EXTERNAL IP>:7860 表明网页版 APP 运行胜利。

点击立刻收费试用云产品开启云上实际之旅！

原文链接

本文为阿里云原创内容，未经容许不得转载。

关于gpu:便捷快速稳定高性能以-GPU-实例演示-Alibaba-Cloud-Linux-3-对-AI-生态的支持

1、购买 GPU 实例

2、抉择 Alinux 3 镜像

3、装置 epao repo 配置

4、装置 nvidia GPU driver

5、装置 cuda 生态库

6、装置 AI 框架 tensorflow/pytorch

7、部署模型