云上快速搭建Serverless-AI实验室

jiezi

6 年前

Serverless Kubernetes 和 ACK 虚拟节点都已基于 ECI 提供 GPU 容器实例功能，让用户在云上低成本快速搭建 serverless AI 实验室，用户无需维护服务器和 GPU 基础运行环境，极大降低 AI 平台运维的负担，显著提升整体计算效率。

在 pod 的 annotation 中指定所需 GPU 的类型（P4/P100/V100 等），同时在 resource.limits 中指定 GPU 的个数即可创建 GPU 容器实例。每个 pod 独占 GPU，暂不支持 vGPU，GPU 实例的收费与 ECS GPU 类型收费一致，不产生额外费用，目前 ECI 提供多种规格的 GPU 类型。（请参考 https://help.aliyun.com/document_detail/114581.html）

选择深圳区域，可用区 D。

我们使用 tensorflow 模型对如下图片进行识别：

使用模版创建 pod，其中选择 P100 GPU 规格。在 pod 中的脚本会下载上述图片文件，并根据模型进行识别计算。

apiVersion: v1
kind: Pod
metadata:
  name: tensorflow
  annotations:
    k8s.aliyun.com/eci-gpu-type : "P100"
spec:
  containers:
  - image: registry-vpc.cn-shenzhen.aliyuncs.com/ack-serverless/tensorflow
    name: tensorflow
    command:
    - "sh"
    - "-c"
    - "python models/tutorials/image/imagenet/classify_image.py"
    resources:
      limits:
        nvidia.com/gpu: "1"
  restartPolicy: OnFailure

部署后 pod 会处于 pending 状态：

等待几十秒后 pod 状态变成 Running，待计算完成后会变成 Terminated 状态。

从 pod 的日志我们可以看到 pod 能够识别 P100 GPU 硬件，而且可以正确识别图片为 Panda。

通过以上示例可以看出，从环境搭建到计算结束，整个过程用户无需购买和管理服务器，无需安装 GPU 运行环境，serverless 的方式可以让用户更加关注在 AI 模型构建，而不是底层基础设施的管理和维护。

本文作者：贤维

原文链接

本文为云栖社区原创内容，未经允许不得转载。

云上快速搭建Serverless-AI实验室

如何使用 GPU 容器实例

示例

1. 创建 Serverless Kubernetes 集群

2. 创建 GPU 容器实例

总结