如何在PAI平台跑实验

44次阅读

共计 1574 个字符，预计需要花费 4 分钟才能阅读完成。

PAI 平台使用教程

build image
upload & run
storage system

build image
首先去官网下载 docker windows，如果系统不适配，就用官网的 docker tools 辅助安装。安装后，右下角任务栏找到小鲸鱼图案，右键点击 setting。在左边的栏目里面找到 Daemon 选项，进去后就会看到我们什么都没有配置，所以按照下面的信息配置 docker：
“registry-mirrors”:[“http://f1361db2.m.daocloud.io”]
“insecure-registries”:[“192.168.193.253:5000”]
配置好后打开 cmd 或其他命令行软件，用下面的指令下载基础镜像到本地并运行：
docker pull 192.168.193.253:5000/pytorch:v0.4.0
#此镜像为 pytorch0.4 版本的基础镜像
docker image ls
#查看目前本地所拥有的镜像
docker container run -ti <Image ID>
#从查看过程中可以得到 Image ID，输到对应位置，运行镜像
运行镜像后就进入 linux 的 terminal 了，你拥有 root 权限，可以进行任何操作。在其中配置好你想要的环境弄完之后输入 exit 退出我们运行下面几条指令，把刚刚弄好的镜像上传到服务器：
docker container ls -l
#查看刚刚编辑的镜像，主要记住其 container ID
docker container commit <container ID>
#把镜像 commit 一下，返回一个 sha256 编码就表示成功了
docker image ls
#查看一下刚刚 commit 的镜像 id 刚刚 commit 的名字为 none，记住其 image id
docker image tag <ImageID> <name>:<tag>
#用这个命令给镜像起名字，注意 name 和 tag 要起成以下格式：192.168.193.253:5000/zhangyu:0.3 IP 必须有，zhangyu 那部分填自己的，冒号后面为 tag，你可以当作版本号。
docker push <Image 名字 >
#上传你的镜像
至此镜像就配置完了，下面就可以上传代码，跑代码了
upload & run
首先在本地 python 环境安装常瑞师兄编写的 pai 包，常瑞师兄在 github 上写的比较详细，具体操作按照上面来，我在这里主要介绍一下 configuration 中的注意事项，所涉及的都是需要改的，其余可以不予理睬。jobname：是我们提交任务的名称，同时平台会在 root 下建立一个此名称的文件夹，运行其中代码。初次我们起名为 **_，上传时平台会在_后随即给你添数字，如果你不按照此格式，他会把你起的名称覆盖。image：填你要使用的镜像名称 gputype：填你要使用的 gpu 目前有两种 geforce1080ti geforce2080ticpunumber：填你要申请的 cpu 数量，一般 3 就足够了 memoryMB：一般 4、5g 就可 shmMB：影响读数据速度，可以填 1024 或 2048，填多了没用 gpuNumber：这里填你要申请的 gpu 数量，一般都为 1 个，如果需要并行跑，可以申请多个 command：/bin/bash /root/mount.sh 这个必输，其余的就填你要运行的指令。
storage system
平台采用挂载的形式，把服务器的部分存储空间挂载到了平台上，挂载过后的位置为：/root/data/ 里面存放 /root/data/datasets/ 数据集，/root/data/models/ 模型库，/root/data/ouputs/ 存一些代码的输出我们可以用 WinSCP 或 XTerm 连文件系统：ip 为 192.168.193.253 用户名为 fileserver 密码 123456

正文完

发表至： linux

2019-02-27

0

键盘侠Linux教程六-正则表达式与通配符

在Linux系统中快速搭建NFS服务的新途径

被遗忘的-10-个Linux命令很实用

关于linux:HopeEdge-OS荣获2020CIS年度十大创新产品

聊聊flink的BlobService

如何在PAI平台跑实验

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）