关于云原生:云原生机器学习落地难灵雀云助力企业快速应用-MLOps

40次阅读

共计 2559 个字符,预计需要花费 7 分钟才能阅读完成。

灵雀云企业级 MLOps 解决方案 帮忙企业从开发运维全流程降本增效,疾速实现云原生时代的 MLOps。

作为 AI 时代的 DevOps,MLOps 助力于减速企业从数字化转型到大数据转型再到智能化转型的产业降级过程,为企业积淀行业特有的 AI 模型、AI 利用提供工具链保障。随着 Kubernetes 的利用暴发,企业也踊跃投身建设基于 Kubernetes 的 AI 平台,充分利用 K8s 生态提供的资源管理、利用编排、运维监控能力。

然而,企业在间接应用风行的开源 MLOps 软件如 Kubeflow[1] , MLflow[2] 等,通常须要耗费较大的调研、部署、运维、利用迁徙、利用适配等老本。灵雀云 MLOps 以及其开源版本 kubeflow-chart[3],致力于极大水平地升高企业应用 MLOps 的老本,在 Kubeflow 的根底上,集成 MLFlow,SQLFlow, kfpdist,elyra 等工具,补充 Kubeflow 难以利用之处,构建残缺的 MLOps 开源解决方案。

企业级云原生机器学习落地妨碍重重

关注云原生机器学习的敌人对 Kubeflow 必不会生疏。Kubeflow 是基于容器和 Kubernetes 构建,提供面向机器学习业务的麻利部署、开发、训练、公布和治理平台,通过集成开源生态中越来越多的我的项目,如 Jupyter, Knative, Seldon Core 等,搭建了机器学习利用从开发到上线到迭代的生命周期内的工具链,解决企业应用机器学习中遇到的和 DevOps 相似的工具链的困扰,因而,Kubeflow 也成为了以后云原生场景下支流的 MLOPS 平台。

然而,有了 Kubeflow,是不是在 Kubernetes 上一下子搞定机器学习、深度学习呢?事实并没有那么简略。据理解,很多企业对于 Kubeflow 调研和尝试也多以失败告终。Kubeflow 目前存在以下诸多问题导致企业间接应用 Kubeflow 利用 MLOps 颇为艰难:

  1. Kubeflow 部署简单、艰难
  2. Kubeflow 蕴含组件繁多,依赖简单,运维排错消耗人力
  3. Kubeflow 许多性能易用性差,企业 AI 利用开发、迁徙艰难
  4. Kubeflow 没有中文反对

首先,部署 Kubeflow 残缺平台,须要部署大量的依赖和组件。社区提供的装置办法为应用 Kustomize 命令,并应用仓库 https://github.com/kubeflow/m… 中的层叠式 (overlayed) YAML 配置文件实现装置。当开发者须要批改某一具体配置项时,须要从宏大的 YAML 文件中寻找配置项地位,并建设新的 YAML 文件实现层叠式笼罩,十分繁琐与不便。

另外,在少数 On-Prem(私有化)K8s 环境中,很多 Kubeflow 依赖的组件曾经有原先的部署,比方 Istio, Knative, Dex 等,要和这些已有环境中的组件协同部署就不得不一个个组件的独自配置和部署,不能实现一键装置。

其次,Kubeflow 蕴含许多组件,每个组件都有其重要的性能,并相互依赖。当零碎呈现故障,排查会耗费大量的精力,如果要对应用不便的中央进行调整,就会更加耗时耗力。

再次,上手应用 Kubeflow 仍存在以下难题:诸如 Kubeflow Pipeline 工作流 Python API 的侵入式设计,开发学习老本高;试验血统追踪应用简单,没有针对训练任务的调度器,资源利用率不高,模型部署只能应用 YAML 配置,没有中文界面等。

灵雀云企业级 MLOps 解决方案

在灵雀云企业级 MLOps 的实际中,咱们通过 kubeflow-chart,简化部署步骤,kubeflow-chart 能够将常见的配置项,比方镜像地址,认证配置信息,默认账户,依赖组件装置开关等罕用配置项抽出,只须要更改一个 values.yaml 文件,即可实现 kubeflow 对不同 K8s 环境实现部署,同时咱们也提供了 values-cn.yaml 免去在国内的同学对镜像下载的困扰,帮忙企业疾速实现 MLOps。

有了 kubeflow-chart 的助力,开发者便能够轻松实现在 Kubernetes 上疾速不便地部署、应用、治理以后最风行的机器学习软件。

Kubeflow-chart 减速 MLOps 落地

为更好解决企业 AI 落地难题,Kubelfow-chart 会逐渐推出下述性能,助力疾速搭建适宜您理论环境的 MLOps 平台,构建 MLOps 残缺开源解决方案:

· 应用 Helm Chart 形式疾速在任意环境部署 Kubeflow 以及其余组件· SQLFlow 助力升高企业 AI 研发老本,应用 SQL 即可就能够实现模型训练预测
· kfpdist 对立 Kubeflow 工作流和分布式训练,无需再应用 TFJob
· elyra 实现可视化 AI 工作流建模
· Volcano 实现更适宜 AI 工作的调度器,晋升 CPU/GPU 资源利用率· MLFlow 代替 Kubeflow 试验追踪,取得更易用的试验追踪性能

kubeflow-chart 是灵雀云企业级 MLOps 平台的一部分,在灵雀云企业级 MLOps 平台中咱们还会提供更残缺的企业级性能包含:
· 多租户
· vGPU
· 高可用和跨区域部署
· 可视化、中文化
· 丰盛案例教程
· 监控报警等

如上在灵雀云企业级 MLOps 解决方案中,依靠于灵雀云 ACP 以及多项企业级容器平台产品之上,集成 Kubeflow, SQLFlow 等组件将提供开箱即用,工业生产级别的 MLOps 平台。咱们心愿能逐渐凋谢以上能力,包含 4-Flow(Kubeflow,SQLFlow,MLFlow,ParaFlow),推动 MLOps 技术落地过程。

灵雀云作为企业数字化转型中重要的云原生合作伙伴,始终致力于通过革命性的技术,帮忙企业建设现代化的软件基础设施,实现数字化转型,直面业务挑战。此次推出的企业级 MLOps 解决方案,正是灵雀云助力企业疾速向云原生机器学习进阶、减速数字化过程的又一重要工具。

点击此处,具体理解灵雀云如何帮忙您疾速利用云原生机器学习 MLOps,独特摸索企业级 MLOPS 最佳实际。

援用链接
[1] Kubeflow: https://www.kubeflow.org/
[2] MLflow: https://mlflow.org/
[3] kubeflow-chart: https://github.com/alauda/kub… 

正文完
 0