本文首发于:行者AI

随着各行各业数字化的一直推动,AI须要解决的数据越来越多,繁多服务器曾经难以满足以后产业的倒退需要,服务器集群成为企业用AI解决数据的标配硬件,而分布式计算成为人工智能利用的标配软件。

从图1能够看出,现今有很多开源的分布式计算框架,从模型的训练、调参到部署;从NLP、CV到RS;这些框架笼罩到了AI产业生命周期的各个方面。本文就选取其中的Ray框架进行简略的介绍。

图1. 各种分布式计算框架

Ray 是伯克利大学在2017年开源的分布式计算框架,对应的论文是《Ray: A Distributed Framework for Emerging AI Applications》。强化学习工作须要与环境进行大量的交互(毫秒级),且在工夫上反对异构性。该框架专门为机器学习与强化学习设计,相较于其余框架,ray具备以下劣势:

  • 轻量级
  • 可疾速构建
  • 通用性强
  • 性能优异

上面就这四个长处为大家进行具体介绍。

1. Ray框架的劣势

1.1 轻量级

相较于传统的分布式框架(尤其是hadoop、spark等),Ray能够间接通过pip进行装置,且对系统版本无要求。

pip install -U ray

Ray是一个简略的分布式策略,而非残缺的生态,因此不须要简单的构建。

另一方面,轻量而优良的框架往往能够作为企业数据处理的根底框架,企业一直在该框架的根底上减少生态,从而造成企业独有的利用生态。

1.2 可疾速构建

如hadoop等传统框架,要对原有的单机程序进行分布式化,须要批改整个代码逻辑,以MapReduce的编程计划重构各个计算模块,这使得hadoop等传统框架有着良好的可编辑性,算法工程师能够依据业务需要进行具体的批改。弱小的可编辑性也带来了学习老本高,代码重构艰难等诸多问题。人工智能突飞猛进,模型在一直更迭,麻利开发成为了很多AI企业的开发模式,AI利用的简单构建会大大影响整个我的项目的推动。

如下代码,将一个简略的单机程序函数,转换为Ray分布式的函数,只是在原有函数的根底上退出了ray.remote的装璜器,便实现了分布式化的工作。

### 原始单机代码def f(x):    return x * xfutures = [f.remote(i) for i in range(4)]print(ray.get(futures))### Ray分布式代码import rayray.init()@ray.remotedef f(x):    return x * xfutures = [f.remote(i) for i in range(4)]print(ray.get(futures))

1.3 通用性强

近年tensorflow、torch等深度学习框架成为人工智能利用的模型框架,思考到产业利用场景,这些框架都给出了各自分布式训练和部署的计划,且这些计划的计算资源利用率较高。大型的我的项目往往由数个算法模型组成,为了疾速开发,算法工程师往往采纳开源的代码构建,而这些开源的代码采纳的深度学习框架很可能互不雷同,针对繁多框架的分布式计划难以实用。

除此之外,ONNIX等为代表的框架,偏向于将所有框架的模型对立到繁多的解决方案上,因为很多前沿的深度学习模型对神经元进行了简单的批改,无奈适配到通用的算子上,须要算法工程师手写算子,从而拖慢了开发速度。Ray将机器学习模型、numpy数据计算、繁多的函数形象成通用的计算,实现了对各种深度学习框架、机器学习框架的适配。

另外,Ray对强化学习的利用进行了专门的生态构建。

1.4 性能优异

图2为Ray、Horovod以及tensorflow原生的分布式计划训练ResNet-101模型的比拟,纵轴为每秒均匀迭代的图片数,能够看出Ray稍微优于Horovod框架。

图2. 分布式训练速度比拟

图3为Clipper和Ray在模型调用上吞吐量的比拟,两者均用同一网络模型,能够看出Ray优于Clipper。

图3. 分布式部署吞吐量比拟

Ray并没有做到每个分布式场景都优于其余框架,但Ray汇合训练、调参以及部署为一体,仍能放弃不错的性能,因此值得学习和应用。

得益于Ray框架良好的性能,Ray宽泛用于工业界(如蚂蚁金服),要先学会应用Ray必先理解Ray的形成,下一大节就Ray的形成进行介绍。

2. Ray的应用

2.1 Ray的形成

Ray大抵由四局部组成:

  • Tune: 超参数调整模块
  • RLlib: 强化学习模块
  • RaySGD: 分布式训练模块
  • Ray Serve: 应用服务部署模块

Ray波及了AI利用的整个生命周期:训练、调参、部署,并对强化学习场景进行了专门的优化。因为集体应用教训无限,这里只介绍Ray的Serve模块。

2.2 Ray的启动

如图4,Ray由一个头节点(Head node)和一组工作节点(Worker node)组成。启动Ray须要首先启动头节点,并为工作节点提供头节点的地址以造成集群。头节点负责管理和调配工作节点的工作,工作节点负责执行工作并返回后果。通过测试,头节点和工作节点能够为同一台计算机。

Ray的启动由两个步骤组成:启动头节点、注册工作节点到头节点。

图4. Ray节点示意图

以下是头节点的启动代码和敞开代码。

import rayray.init()  # 启动assert ray.is_initialized() == Trueray.shutdown()  # 敞开assert ray.is_initialized() == False

注:启动脚本该当退出敞开代码,如果没有,ray程序可能始终在过程中运行。

Ray框架采纳Actor模型,相较于传统的共享内存模型,Ray不存在状态竞争、能够不便的组建集群、能更好的管制状态。每个Actor即每个工作节点的注册形式如下。

import rayray.init(address=头节点地址)  # 启动assert ray.is_initialized() == Trueray.shutdown()  # 敞开assert ray.is_initialized() == False

2.3 Ray Serve

Ray Serve能够类比clipper,次要用于模型的部署服务,并反对多种深度学习框架,官网给出的示例有:

  • Keras and Tensorflow Tutorial
  • PyTorch Tutorial
  • Scikit-Learn Tutorial

这里以tensorflow2为例,来说一下如何用ray来部署模型服务。

步骤一:定义一个模型服务类

如下是模型服务类的繁难代码,和Flask等框架部署AI服务相似。因为Ray应用gRPC作为通信协议,速度更快,Ray还在gRPC根底上进行了优化,有些场景快于原生的gRPC通信。

class TFMnistModel:    def __init__(self, model_path):        import tensorflow as tf        self.model_path = model_path        # 加载模型        self.model = tf.keras.models.load_model(model_path)    async def __call__(self, starlette_request):  # 异步调用        # transform HTTP request -> tensorflow input        input_array = np.array((await starlette_request.json())["array"])        reshaped_array = input_array.reshape((1, 28, 28))        #  tensorflow input -> tensorflow output        prediction = self.model(reshaped_array)        # 返回后果        #  tensorflow output -> web output          return {            "prediction": prediction.numpy().tolist(),            "file": self.model_path        }

步骤二:模型部署到Ray Serve

如下代码中,start函数用于启动服务,create_backend函数用于启动模型,create_endpoint函数启动服务。在Ray中,模型和服务是拆散的,能够多个服务调用同一个模型,以反对简单的调用逻辑。

"tf:v1"为模型的名称,"tf_classifier"为服务的名称,route参数为路由,这些参数都可自在定义。

client = serve.start()client.create_backend("tf:v1", TFMnistModel, TRAINED_MODEL_PATH)client.create_endpoint("tf_classifier", backend="tf:v1", route="/mnist")

步骤三:申请测试

resp = requests.get(    "http://localhost:8000/mnist",    json={"array": np.random.randn(28 * 28).tolist()})print(resp.json())

3. 结语

一个优良的框架往往蕴含了泛滥先进的设计理念。Ray框架在构建时,参考了许多先进的设计理念,如混合调度策略、GCS 治理等等,这些设计理念使得框架自身欠缺而又先进。Ray宽泛用于AI企业的分布式计算场景,从泛滥框架中怀才不遇,值得学习。