关于机器学习:google-cloud中使用TPU

68次阅读

共计 850 个字符，预计需要花费 3 分钟才能阅读完成。

首先，应该先尝试 google colab —— 因为间接注册 google cloud 中的 VM 和 TPU，只能收费用 3 个月，注册早了切实是亏了，等 colab 里试得差不多了，再注册 cloud 不迟。

正式应用的步骤：

创立 VM，要留神选区，目前只有几个区反对 TPU，所以最好同时把创立 TPU 的界面关上对照着看，不同区之间，要想拜访只能通过公网了，这对于机器学习的密集运算显然不可行
VM 的核越多，内网带宽越大，所以有钱的状况下，尽量选多核的
VM 的抢占式尽管便宜，但一旦被抢占，所有状态就失落了，慎选
VM 的磁盘能够放大一些，因为须要保留训练中的 snapshot，大模型倡议 300GB

创立 TPU

v3 比 v2 贵，但性能也高，所谓 v3-8, v2-8，都是一块 TPU（内置 8 个单元，是最小单位了），慎选 v3-128 v3-512 这种配置，看上去价格没变，实际上标的是单价，最终免费会成倍上涨
TPU 能够抉择抢占式，因为即便被抢占，下次还能够从快照持续，而且价格便宜好多
总体来说，TPU 比 VM 贵多了，有数量级的差别

?VM 和 TPU 怎么联合呢?
貌似要在 VM 里创立一个指向 TPU 的配置:

export TPU_IP_ADDRESS=10.2.3.2;  # 这个 ip 是 tpu 的 ip，通过 gcloud compute tpus list --zone=europe-west4- a 命令能够看到
export XRT_TPU_CONFIG="tpu_worker;0;$TPU_IP_ADDRESS:8470";

这里还还有待进一步学习摸索。

如果图省事的话，创立 TPU 的之后，间接抉择 TPU 虚拟机（而不是 TPU 节点）即可，这时会失去一个 VM+TPU 一体的机器，能够反对 ssh 登录拜访，连 TPU 版本的 tensorflow 或者 pytorch（看抉择哪个版本的操作系统）都是预装置好的，间接运行本人的代码即可。