关于python:如何用-Python-实现分布式计算

面对计算密集型的工作，除了多过程，就是分布式计算，如何用 Python 实现分布式计算呢？明天分享一个很简略的办法，那就是借助于 Ray。

什么是 Ray

Ray 是基于 Python 的分布式计算框架，采纳动态图计算模型，提供简略、通用的 API 来创立分布式应用。应用起来很不便，你能够通过装璜器的形式，仅需批改极少的的代码，让本来运行在单机的 Python 代码轻松实现分布式计算，目前多用于机器学习。

Ray 的特色：

1、提供用于构建和运行分布式应用程序的简略原语。

2、使用户可能并行化单机代码，代码更改很少甚至为零。

3、Ray Core 包含一个由应用程序、库和工具组成的大型生态系统，以反对简单的应用程序。比方 Tune、RLlib、RaySGD、Serve、Datasets、Workflows。

装置 Ray

最简略的装置官网版本的形式：

pip install -U ray
pip install 'ray[default]'

如果是 Windows 零碎，要求必须装置 Visual C++ runtime

其余装置形式见官网文档。

应用 Ray

一个装璜器就搞定分布式计算：

import ray
ray.init()

@ray.remote
def f(x):
    return x * x

futures = [f.remote(i) for i in range(4)]
print(ray.get(futures)) # [0, 1, 4, 9]

先执行 ray.init()，而后在要执行分布式工作的函数前加一个装璜器 @ray.remote 就实现了分布式计算。装璜器 @ray.remote 也能够装璜一个类：

import ray
ray.init()

@ray.remote
class Counter(object):
    def __init__(self):
        self.n = 0

    def increment(self):
        self.n += 1

    def read(self):
        return self.n

counters = [Counter.remote() for i in range(4)]
tmp1 = [c.increment.remote() for c in counters]
tmp2 = [c.increment.remote() for c in counters]
tmp3 = [c.increment.remote() for c in counters]
futures = [c.read.remote() for c in counters]
print(ray.get(futures)) # [3, 3, 3, 3]

当然了，上述的分布式计算仍然是在本人的电脑上进行的，只不过是以分布式的模式。程序执行的过程中，你能够输出 http://127.0.0.1:8265/#/ 查看分布式工作的执行状况：

那么如何实现 Ray 集群计算呢？接着往下看。

应用 Ray 集群

Ray 的劣势之一是可能在同一程序中利用多台机器。当然，Ray 能够在一台机器上运行，因为通常状况下，你只有一台机器。但真正的力量是在一组机器上应用 Ray。

Ray 集群由一个头节点和一组工作节点组成。须要先启动头节点，给 worker 节点赋予头节点地址，组成集群：

你能够应用 Ray Cluster Launcher 来配置机器并启动多节点 Ray 集群。你能够在 AWS、GCP、Azure、Kubernetes、阿里云、外部部署和 Staroid 上甚至在你的自定义节点提供商上应用集群启动器。

Ray 集群还能够利用 Ray Autoscaler，它容许 Ray 与云提供商交互，以依据标准和应用程序工作负载申请或公布实例。

当初，咱们来疾速演示下 Ray 集群的性能，这里是用 Docker 来启动两个 Ubuntu 容器来模仿集群：

环境 1: 172.17.0.2 作为 head 节点
环境 2: 172.17.0.3 作为 worker 节点，能够有多个 worker 节点

具体步骤：

1. 下载 ubuntu 镜像

docker pull ubuntu

2. 启动 ubuntu 容器，装置依赖

启动第一个

docker run -it --name ubuntu-01 ubuntu bash

启动第二个

docker run -it --name ubuntu-02 ubuntu bash

查看下它们的 IP 地址：

$ docker inspect -f "{{ .NetworkSettings.IPAddress }}" ubuntu-01
172.17.0.2
$ docker inspect -f "{{ .NetworkSettings.IPAddress }}" ubuntu-02
172.17.0.3

而后别离在容器外部装置 python、pip、ray

apt update && apt install python3 
apt install python3-pip
pip3 install ray

3. 启动 head 节点和 worker 节点

抉择在其中一个容器作为 head 节点，这里抉择 172.17.0.2，执行：

ray start --head --node-ip-address 172.17.0.2

默认端口是 6379，你能够应用 --port 参数来批改默认端口，启动后的后果如下：

疏忽掉正告，能够看到给出了一个提醒，如果要把其余节点绑定到该 head，能够这样：

ray start --address='172.17.0.2:6379' --redis-password='5241590000000000'

在另一个节点执行上述命令，即可启动 worker 节点：

如果要敞开，执行：

ray stop

4、执行工作

轻易抉择一个节点，执行上面的脚本，批改下 ray.init() 函数的参数：

from collections import Counter
import socket
import time

import ray

ray.init(address='172.17.0.2:6379', _redis_password='5241590000000000')

print('''This cluster consists o    f
    {} nodes in total
    {} CPU resources in total
'''.format(len(ray.nodes()), ray.cluster_resources()['CPU']))

@ray.remote
def f():
    time.sleep(0.001)
    # Return IP address.
    return socket.gethostbyname(socket.gethostname())

object_ids = [f.remote() for _ in range(10000)]
ip_addresses = ray.get(object_ids)

print('Tasks executed')
for ip_address, num_tasks in Counter(ip_addresses).items():
    print('    {} tasks on {}'.format(num_tasks, ip_address))

执行后果如下：

能够看到 172.17.0.2 执行了 4751 个工作，172.17.0.3 执行了 5249 个工作，实现了分布式计算的成果。

最初的话

有了 Ray，你能够不应用 Python 的多过程就能够实现并行计算。明天的机器学习次要就是计算密集型工作，不借助分布式计算速度会十分慢，Ray 提供了简略实现分布式计算的解决方案。

关于python:如何用-Python-实现分布式计算

什么是 Ray

装置 Ray

应用 Ray

应用 Ray 集群

1. 下载 ubuntu 镜像

2. 启动 ubuntu 容器，装置依赖

3. 启动 head 节点和 worker 节点

4、执行工作

最初的话

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于python:如何用-Python-实现分布式计算

什么是 Ray

装置 Ray

应用 Ray

应用 Ray 集群

1. 下载 ubuntu 镜像

2. 启动 ubuntu 容器，装置依赖

3. 启动 head 节点和 worker 节点

4、执行工作

最初的话

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复