首先,应该先尝试google colab —— 因为间接注册google cloud中的VM和TPU,只能收费用3个月,注册早了切实是亏了,等colab里试得差不多了,再注册cloud不迟。
正式应用的步骤:
- 创立VM,要留神选区,目前只有几个区反对TPU,所以最好同时把创立TPU的界面关上对照着看,不同区之间,要想拜访只能通过公网了,这对于机器学习的密集运算显然不可行
- VM的核越多,内网带宽越大,所以有钱的状况下,尽量选多核的
- VM的抢占式尽管便宜,但一旦被抢占,所有状态就失落了,慎选
- VM的磁盘能够放大一些,因为须要保留训练中的snapshot,大模型倡议300GB
创立TPU
- v3比v2贵,但性能也高,所谓v3-8, v2-8,都是一块TPU(内置8个单元,是最小单位了),慎选v3-128 v3-512这种配置,看上去价格没变,实际上标的是单价,最终免费会成倍上涨
- TPU能够抉择抢占式,因为即便被抢占,下次还能够从快照持续,而且价格便宜好多
- 总体来说,TPU比VM贵多了,有数量级的差别
?VM和TPU怎么联合呢?
貌似要在VM里创立一个指向TPU的配置:
export TPU_IP_ADDRESS=10.2.3.2; # 这个ip是tpu的ip,通过gcloud compute tpus list --zone=europe-west4-a命令能够看到export XRT_TPU_CONFIG="tpu_worker;0;$TPU_IP_ADDRESS:8470";
这里还还有待进一步学习摸索。
如果图省事的话,创立TPU的之后,间接抉择TPU虚拟机(而不是TPU节点)即可,这时会失去一个VM+TPU一体的机器,能够反对ssh登录拜访,连TPU版本的tensorflow或者pytorch(看抉择哪个版本的操作系统)都是预装置好的,间接运行本人的代码即可。
- 极客工夫-NLP学习-12.深度学习与硬件
- 极客工夫-NLP学习-24.如何构建简略的深度学习环境
- 手把手教你应用谷歌cloud tpu
- 谷歌TPU应用办法
- TPUs in Colab