关于机器学习:google-cloud中使用TPU

5次阅读

共计 850 个字符,预计需要花费 3 分钟才能阅读完成。

首先,应该先尝试 google colab —— 因为间接注册 google cloud 中的 VM 和 TPU,只能收费用 3 个月,注册早了切实是亏了,等 colab 里试得差不多了,再注册 cloud 不迟。

正式应用的步骤:

  1. 创立 VM,要留神选区,目前只有几个区反对 TPU,所以最好同时把创立 TPU 的界面关上对照着看,不同区之间,要想拜访只能通过公网了,这对于机器学习的密集运算显然不可行
  2. VM 的核越多,内网带宽越大,所以有钱的状况下,尽量选多核的
  3. VM 的抢占式尽管便宜,但一旦被抢占,所有状态就失落了,慎选
  4. VM 的磁盘能够放大一些,因为须要保留训练中的 snapshot,大模型倡议 300GB

创立 TPU

  1. v3 比 v2 贵,但性能也高,所谓 v3-8, v2-8,都是一块 TPU(内置 8 个单元,是最小单位了),慎选 v3-128 v3-512 这种配置,看上去价格没变,实际上标的是单价,最终免费会成倍上涨
  2. TPU 能够抉择抢占式,因为即便被抢占,下次还能够从快照持续,而且价格便宜好多
  3. 总体来说,TPU 比 VM 贵多了,有数量级的差别

?VM 和 TPU 怎么联合呢?
貌似要在 VM 里创立一个指向 TPU 的配置:

export TPU_IP_ADDRESS=10.2.3.2;  # 这个 ip 是 tpu 的 ip,通过 gcloud compute tpus list --zone=europe-west4- a 命令能够看到
export XRT_TPU_CONFIG="tpu_worker;0;$TPU_IP_ADDRESS:8470";

这里还还有待进一步学习摸索。

如果图省事的话,创立 TPU 的之后,间接抉择 TPU 虚拟机(而不是 TPU 节点)即可,这时会失去一个 VM+TPU 一体的机器,能够反对 ssh 登录拜访,连 TPU 版本的 tensorflow 或者 pytorch(看抉择哪个版本的操作系统)都是预装置好的,间接运行本人的代码即可。

  • 极客工夫 -NLP 学习 -12. 深度学习与硬件
  • 极客工夫 -NLP 学习 -24. 如何构建简略的深度学习环境
  • 手把手教你应用谷歌 cloud tpu
  • 谷歌 TPU 应用办法
  • TPUs in Colab
正文完
 0