关于运维:恒源云Gpushare如何防止训练不中断技巧大放送1

45次阅读

共计 433 个字符,预计需要花费 2 分钟才能阅读完成。

1、训练期间因网络抖动中断,怎么将训练任务放到后盾运行?

举荐应用 Tmux 终端复用器,可能将过程放到后盾运行,须要时从新接管。

为了避免 SSH 因网络断开造成的过程运行中断,倡议把所有须要长期运行的训练等工作都应用 Tmux 终端。参考 Tmux 文档。

2、敞开本地电脑,训练任务会中断吗?

如果是通过 Tmux 将工作放在后盾运行,或应用 JupyterLab 浏览器运行的工作,敞开本地电脑不会中断训练。

如果是间接在终端中执行训练,或应用 VSCode 等 IDE 连贯执行训练,则敞开电脑会中断训练。

3、敞开 JupyterLab 浏览器,训练任务会中断吗?

若是敞开了 JupyterLab 的浏览器页面,只有实例不敞开,JupyterLab 中 NoteBook 和终端中的训练任务会持续运行。

4、敞开 VSCode、PyCharm、iTerm2 等 IDE 或终端,训练任务会中断吗?

应用 IDE 连贯到实例执行训练任务,如果敞开 IDE 或终端会中断训练任务。

如果须要后盾运行举荐应用 Tmux 终端。参考 Tmux 文档。

正文完
 0