文章起源 | 恒源云
原文地址 | 迁徙
明天来和大家聊一聊,何为迁徙,如何迁徙!
一、何为迁徙?
当实例关机后 GPU 被占,无奈启动,或者训练过程中想换一台机器显卡,即可关机后进行实例迁徙。迁徙胜利后即可从新开始训练!
二、如何迁徙?
实例迁徙注意事项
- 实例迁徙过程不会迁徙实例中的
/hy-tmp/
目录,并且会革除实例中/hy-tmp/
目录下的数据,如果您须要迁徙,则须要把实例中的/hy-tmp/
目录中的数据通过 OSS 命令工具上传至集体数据空间。 - 实例迁徙必须先将实例进行关机操作。
- 如果应用了
/hy-nas
目录,则在迁徙时也须要抉择具备“共享存储”的实例。 - 实例迁徙过程中不免费。
实例迁徙步骤
- 备份实例中
/hy-tmp/
目录中的数据,而后通过 OSS 命令工具上传至集体数据空间。 - 通过恒源云控制台关机实例。
- 点击实例治理进行迁徙。
- 迁徙实现后进入实例,通过 OSS 命令工具将备份的数据下载到实例
/hy-tmp/
中。
实例迁徙过程演示
1. 备份实例中 /hy-tmp/
目录中的数据,而后通过 OSS 命令工具上传至集体数据空间
# 查看 /hy-tmp 目录中的数据,我这里有 5 个文件和 5 个目录
root@I87f7d582c00801bcf:~# cd /hy-tmp/
root@I87f7d582c00801bcf:/hy-tmp# ls
dataset1 dataset2 dataset3 dataset4 dataset5 datasetDir1 datasetDir2 datasetDir3 datasetDir4 datasetDir5
#将 /hy-tmp 目录中的数据打包压缩
root@I87f7d582c00801bcf:/hy-tmp# tar zpcf dataset.tar.gz ./*
#通过 OSS 命令将打包好的数据上传至集体数据空间
root@I87f7d582c00801bcf:/hy-tmp# oss login
Username:139xxxxxxxx
Password:**********
139xxxxxxxx login successfully!
root@I87f7d582c00801bcf:/hy-tmp# oss cp dataset.tar.gz oss://
#而后查看集体数据空间是否上传胜利
root@I87f7d582c00801bcf:/hy-tmp# oss ls -s -d oss://
Listing objects .
Object list:
oss://dataset.tar.gz #这里为刚上传的数据文件
File number is: 1
2. 通过恒源云控制台关机实例
3. 点击开始迁徙实例
迁徙的指标实例倡议与以后实例的 GPU 型号雷同
提醒 /hy-tmp/ 目录被革除,如果您没有备份数据,应先去备份数据,而后进行迁徙。
4. 进入实例通过 OSS 命令工具下载数据到以后实例 /hy-tmp/
目录中
# 进入 /hy-tmp/ 目录,而后登录 OSS
root@I87f7d582c00801bcf:~# cd /hy-tmp/
t@I87f7d582c00801bcf:/hy-tmp# oss login
Username:139xxxxxxxx
Password:**********
139xxxxxxxx login successfully!
#查看 OSS 集体数据空间
root@I87f7d582c00801bcf:/hy-tmp# oss ls -s -d oss://
Listing objects .
Object list:
oss://dataset.tar.gz
File number is: 1
#下载集体数据空间中的 dataset.tar.gz 到实例中的当前目录
root@I87f7d582c00801bcf:/hy-tmp# oss cp oss://dataset.tar.gz ./
#查看下载的数据
root@I87f7d582c00801bcf:/hy-tmp# ls
dataset.tar.gz
#解压数据到当前目录
root@I87f7d582c00801bcf:/hy-tmp# tar zxvf dataset.tar.gz
#查看解压后的数据文件
root@I87f7d582c00801bcf:/hy-tmp# ls
dataset1 dataset2 dataset3 dataset4 dataset5 datasetDir1 datasetDir2 datasetDir3 datasetDir4 datasetDir5 dataset.tar.gz