关于机器学习:Apache-Flink-ML-220-发布公告

46次阅读

共计 2474 个字符,预计需要花费 7 分钟才能阅读完成。

起源 | Apache Flink 官网博客

翻译 | 林东

Apache Flink 社区很荣幸地发表 Apache Flink ML 2.2.0 版本正式公布!本次公布的版本重点增加了 Flink ML 中的特色工程算法。当初 Flink ML 蕴含了 33 个开箱可用的特色工程算法,能够反对很多常见的特色工程工作。

随着这些算法的增加,咱们置信 Flink ML 曾经筹备好用于须要特色工程的生产作业,例如预处理离线和在线机器学习工作的输出数据。

咱们激励您下载该版本 [1] 并通过 Flink 邮件列表 [2] 或 JIRA [3] 与社区分享您的反馈!咱们心愿您喜爱新版本,并且咱们期待理解您的应用体验。

重要个性

1. 引入在线推理服务须要的接口和基础设施

在机器学习中,模型训练的次要指标之一是将已训练好的模型部署并反对在线推理。在线推理服务须要以毫秒级提早响应传入申请。之前公布的 Flink ML 算子仅反对应用 Flink 流解决引擎进行近线推理,提早性能无奈满足在线推理的须要。

通过应用 FLIP-289 [4] 所提供的接口,Flink ML 当初反对用户从由 Estimator 生成的模型数据加载 ModelServable。这个 ModelServable 能够被复制和部署在多个模型推理服务器上,执行大规模分布式的在线模型推理。并且,ModelServable 不依赖 Flink 的流解决引擎,它还能够作为 Java UDF 集成到其余服务或解决框架中,读取由 Flink ML 生成的模型数据来进行离线或在线模型推理。

作为展现,咱们增加了 LogisticRegressionModelServable 算子,反对 LogisticRegression 在线推理。咱们将在接下来的 Flink ML 公布中增加更多 Servable 算子,让 Flink ML 训练失去的模型数据能在更宽泛的场景中产生价值。

2. 增加了 27 个特色工程算法

此次 Flink ML 版本显著扩充了特色工程算法的覆盖范围,将算法数量从 6 减少到 33。Flink ML 当初笼罩了 Spark ML 提供的 33 个特色工程算法中的 28 个,使其成为更全面的特色工程工作库。

特色工程是古代 AI 基础设施的重要组成部分。它提供的数据预处理能力,不仅实用于传统机器学习算法 (e.g. GBT),也实用于越来越风行的深度学习算法 (e.g. Transformer)。通过增加这些算法,咱们心愿 Flink ML 能在更宽泛的机器学习工作中落地产生价值。

所有特色工程算法都能够通过 Flink ML 页面左侧的下拉列表 [5] 拜访。咱们为每个算法提供了 Python 和 Java 示例,以演示如何应用它们。

3. 增加了两个通过生产作业验证的在线学习算法

通过应用 Flink 弱小的流解决能力,Flink ML 能更好地进行在线学习和频繁更新模型数据。为了让这个劣势落地并产生价值,咱们在 Flink ML 中实现了两个在线机器学习算法并利用于阿里团体外部的智能运维平台上。该算法能显著升高智能运维平台的模型更新提早以及运维老本 [6]。

该智能运维工作应用在线聚类算法来分类和检测日志中的错误信息,以帮忙 SRE 和用户更高效地诊断问题。通过应用 OnlineStandardScaler 和 AgglomerativeClustering 算子进行在线数据预处理和在线聚类,咱们简化了该工作的基础架构,并能更频繁地更新模型。咱们在去年的 Flink Forward Asia [7] 大会上展现了这项工作,并且行将把相干工作集成到开源我的项目 SREWorks [8]。

通过这些在线算法,Flink ML 反对机器学习工作继续应用新数据更新模型,从而晋升推理服务的时效性和准确率。这个能力对于能接触到最新用户行为数据的机器学习工作是相当有价值的。

降级阐明

这个版本与 Flink ML 2.1 齐全向后兼容。用户应该能够降级到 Flink ML 2.2.0,而不用放心任何不兼容性或破坏性变动。

公布阐明和相干资源

用户能够查看公布阐明 [9] 以取得具体的批改和新性能列表。

二进制文件和源代码能够从 Flink 官网的下载页面 [1] 取得,最新的 Flink ML Python 公布能够从 PyPI [10] 取得。

贡献者列表

Apache Flink 社区感激对此版本做出奉献的每一位贡献者:

Zhipeng Zhang, Dong Lin, Fan Hong, JiangXin, Zsombor Chikan, huangxingbo, taosiyuan163, vacaly, weibozhao, yunfengzhou-hub

[1] https://flink.apache.org/downloads.html

[2] https://flink.apache.org/community.html#mailing-lists

[3] https://issues.apache.org/jira/browse/flink

[4] https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=240881268

[5] https://nightlies.apache.org/flink/flink-ml-docs-master/docs/operators/feature/binarizer/

[6] https://mp.weixin.qq.com/s/yhXiQtUSR4hxp9XWrkiiew

[7] https://flink-forward.org.cn/

[8] https://github.com/alibaba/SREWorks

[9] https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315522&version=12351884

[10] https://pypi.org/project/apache-flink-ml/

点击查看更多技术内容

Github 地址: https://github.com/apache/flink-ml/

扫码退出交换群,欢送探讨 Flink ML 相干的任何问题~

正文完
 0