关于机器学习:AI开发平台系列2集成式机器学习平台对比分析

【编者按：在上一期中，咱们介绍了算法开发平台的倒退背景和驱动力，算法开发平台的次要分类——集成式机器学习平台和 AI 根底软件平台，以及算法开发平台的外围价值。在本期的分享中，咱们将上期所提到的云厂商集成式机器学习平台进行性能和技术的具体分析和比照】

近年来，云计算厂商纷纷向云计算 +AI 转型，无论是百度云提出的“云智一体”，阿里云打出的“大数据 +” AI 工程化”，还是华为云的 AI 全栈全场景策略，都是这一趋势的无力体现。云厂商在数据和算力云原生的根底上，延长打造涵盖算法开发全流程的集成式机器学习平台，助力企业开释数据价值，减速智能化转型。与云的深度协同，是云厂商机器学习平台的立足之基，也塑造了其产品与服务体系架构。

云厂商通过云服务取得了丰盛的客户根底，并在客户服务中积攒了大量机器学习利用实际。基于这些劣势，云厂商通常提供包含底层云计算基础设施、机器学习平台和应用层行业解决方案于一体的产品和服务。

云计算基础设施层，次要通过容器对异构硬件资源进行对立治理和调度，帮忙客户在人工智能业务中实现资源的灵便调配，让最适宜的专用硬件去服务最适宜的业务场景。同时，配置大数据计算引擎，为大规模分布式计算提供基础设施撑持。

在行业应用层，通常基于本身业务或服务客户的实际积攒，面向特定行业、特定场景提供针对性的算法解决方案，如阿里巴巴外部的搜寻零碎、举荐零碎及金融服务零碎等算法，通过 PAI 平台输入赋能批发、金融等企业客户。

对于最外围的机器学习平台层，集成式机器学习平台产品建构于支流机器学习框架之上，兼容 TensorFlow、Pytorch、Caffe 等开源框架，为使用者提供更高的灵活性，同时升高环境配置老本。从性能上，集成并提供数据治理与筹备、模型开发、计算与训练、推理部署与运维各阶段的产品与服务。

此外，从生态构建的角度，云厂商纷纷依靠本身集成式机器学习平台搭建 AI 市场，吸引宽广开发者和算法需求方，推动算法、模型的共享和交易。但 AI 市场尚处于倒退晚期，对集成式算法开发平台的商业和生态反哺作用较为优先，其次要挑战在于：所开发模型的行业价值、利用后劲还有待开掘；能提出明确需要的市场购买者仍有待培养，交易和供应链机制仍待欠缺（包含算法和模型供需的匹配、模型生产优化的调试服务等）。

图 1 云厂商集成式机器学习平台产品与服务架构

对于集成式机器学习平台的外围性能，即数据管理与筹备、模型开发、计算与训练、推理部署与运维，咱们将以 AWS SageMaker、百度 BML、阿里云 PAI 和华为 ModelArts 为例进行深入分析。

机器学习平台数据管理与筹备模块的外围价值，是让数据科学家、算法工程师便捷地接入数据并疾速理解数据。四大集成式机器学习平台在数据管理和开发筹备方面次要提供数据接入、数据管理、数据处理、数据标注、数据摸索及高级摸索等性能，其中，数据处理与标注两大细分性能是重中之重。在不足无效工具的状况下，这两大事项通常消耗算法开发人员最多的开发筹备工夫和精力。

数据处理是从大量非标、芜杂的数据中提取或生成有价值的数据集，用于后续数据标注和模型训练。从各企业官网公开信息来看，AWS SageMaker 和华为云 ModelArts 的数据处理类型绝对更为丰盛，包含数据校验、数据抉择、数据荡涤和数据加强；阿里云仅对可视化建模预置数据处理工具，采纳交互式建模的算法工程师和数据科学家需先应用 Dataworks 产品进行数据处理。

数据标注，模型训练过程中须要大量已标注的数据，本文波及的四大集成式机器学习平台均提供人工标注、智能标注和团队标注性能。但目前智能标注和团队标注性能仍无奈全场景、大规模应用，以华为云 ModelArts 为例（如图 3），智能标注仅反对图像分类和物体检测，团队标注对语音内容、声音分类和视频尚不反对。

SageMaker 是这四大集成式机器学习平台中目前惟一提供特色库的平台。SageMaker Feature Store 是齐全托管的机器学习特色存储库，帮忙数据科学家和算法工程师团队高效平安地存储、共享和检索可供训练及预测工作应用的工程数据。

图 2 云厂商集成式机器学习平台数据管理与筹备性能 / 技术比照

图 3 华为云 ModelArts 数据标注性能

模型开发方面，本文波及的四大集成式机器学习平台性能根本旗鼓相当（见图 4）。其所服务的应用对象，均既包含业余的数据科学家和算法工程师，也包含业务人员和 AI 初学者，并针对两类用户的差异化需要，别离提供交互式建模和可视化建模环境。

对于交互式建模，四大平台采纳集成 JupyterLab/Jupyter notebook 的形式，进行肯定水平的插件优化，其更多的精力则投入到可视化建模工具的打造。可视化建模面向的用户不足模型构建能力，甚至对模型开发的根本步骤与概念也知之甚少。这类使用者通过可视化建模工具仅需进行简略的点击和拖拽，无需编写代码或具备任何机器学习教训即可构建模型并进行业务预测。因为可视化建模与业务利用严密耦合，因而，可视化建模工具的外围差异化竞争力在于行业专精以及内置算子的丰盛度和品质。目前，各平台可视化建模的落地利用还仅限于局部聚焦场景，如阿里 PAI 内置的数百个成熟机器学习算法次要聚焦于商品举荐、金融风控、广告预测等高频场景，AWS SageMaker 的可视化建模目前次要针对客户散失预测、价格优化和库存优化场景。

除开发环境外，工作流的调度和治理也是晋升模型开发效率的重要一环。从目前官网颁布信息来看，SageMaker 具备绝对欠缺的工作流管理工具，阿里 PAI 的工作流次要基于开源的 MLflow 构建。

在计算与训练环节，最外围的需要是反对分布式训练和弹性计算资源管理，以晋升大模型训练的效率，节约算力老本。本文比照剖析的四大平台均能较好反对这两大性能需要。

对于分布式训练，AWS SageMaker 和阿里云 PAI 采取的形式是，基于本身的深度学习容器提供反对数据并行和模型并行的分布式训练库，以晋升训练速度和吞吐量。此外，华为云 ModelArts 提供华为自研的分布式训练减速框架——Moxing，它构建于开源的深度学习算法框架 TensorFlow、MXNet、PyTorch 等之上，晋升这些框架的训练性能。从华为云披露的测试后果来看，在 ImageNet 数据集上用 128 块 V100 GPU 训练 ResNet-50 模型，与 fast.ai 相比，利用 Moxing 减速后，训练时长由 18 分钟缩短到 10 分钟，为用户节俭 44% 的老本 1。

计算资源管理方面，四大平台基于本身云服务，均可反对主动扩缩容。特地地，SageMaker 提供托管的 Spot 训练，利用 Amazon EC2 Spot 实例（AWS 中的可用闲暇计算容量）而非按需示例来训练模型。Spot 训练与按需获取算力资源的训练相比，可大幅升高算力老本。但因为 Spot 训练可被中断，导致训练须要更长的工夫，因而 Spot 实例配合 checkpoint 的形式更适宜非紧急的简单大模型训练。

此外，超算数优化等模型调试性能和模型评估工具，也逐步被集成进机器学习平台。但目前相干工具还处于欠缺过程中。

图 4 云厂商集成式机器学习平台模型开发、计算与训练性能比照

模型开发与训练的最终目标，是将其部署到生产环境中，为业务赋能。SDK 公布、API 公布和多版本治理是各集成式机器学习平台均具备的基本功能。

除前文所提到的数据处理和标注外，工程化机器学习模型的另一外围难点是推理性能的优化。随着生产环境日趋多元和分散化（需反对多元的算法框架、异构的硬件和零碎）以及模型日益复杂化，对推理性能优化的需要更加突出。各平台均开始提供推理优化工具，封装编译优化、计算图优化等技术，升高模型优化门槛，晋升用户体验和生产效率。此外，模型转换也是晋升生产效率的重要伎俩，通过转化模型格局，使其更适配于指标生产环境。但目前仅局部玩家明确提及反对模型转化，如华为云 ModelArts 目前反对原始框架类型为 Caffe 和 Tensorflow 的模型转换，指标部署芯片反对 Ascend 芯片、ARM 或 GPU 三种类型。模型转化性能将来仍有较大的欠缺空间。

图 5 云厂商集成式机器学习平台部署与运维性能 / 技术比照

云厂商集成式机器学习平台目前已根本涵盖 AI 开发和生产全流程所需的工具。随着 AI 利用的大规模落地，人工智能零碎的运维治理（MLOps）将是该类平台将来倒退的方向，通过标准化的模型开发、部署与运维流程、继续集成和继续部署，进一步减速企业模型开发与部署的同时，无效保障模型品质。

【参考资料】

华为云产品与解决方案，《华为云 ModelArts 做到性能极致！128 块 GPU，ImageNet 训练工夫 10 分钟》

官方网站：https://baihai.co/
公众号：Baihai IDP

关于机器学习:AI开发平台系列2集成式机器学习平台对比分析

1. 云厂商集成式机器学习平台产品与服务架构

2. 局部平台外围性能与技术比照

2.1 数据管理与筹备

2.2 模型开发

2.3 计算与训练

2.4 推理部署与运维

3. 总结

Just My Socks（注册教程内含优惠码）

关于机器学习:AI开发平台系列2集成式机器学习平台对比分析

1. 云厂商集成式机器学习平台产品与服务架构

2. 局部平台外围性能与技术比照

2.1 数据管理与筹备

2.2 模型开发

2.3 计算与训练

2.4 推理部署与运维

3. 总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）