共计 1032 个字符,预计需要花费 3 分钟才能阅读完成。
2019 年 11 月 28 日,在 Flink Forward Asia 大会上,机器学习算法平台 Alink 发表开源,成为泛滥开发者关注的焦点。往年 2 月,Alink 1.10 公布,对 Flink 1.10 和 Flink 1.9 提供了反对。近期 Alink 团队继续发力,公布了最新的 Alink 1.1.1 版本,不仅开发了新性能,还对局部已有性能进行了加强和欠缺。
本文将详解介绍 Alink 1.1.1 版本中的新增性能及修复内容,并分享 Alink 1.1.1 在易用性方面的小技巧。
版本更新下载及 Github 送 Star
https://github.com/alibaba/Alink
Alink 1.1.1 Release Note 概览
Alink 1.1.1 加强性能和新性能:
- 数据列参数的测验和提醒
- 枚举类型参数的测验和提醒
- 优化 Alink 批式组件与 Python Dataframe 之间数据转换的速度
- 当 useRemoveEnv 时自动检测 localIp
- 新增组件,将 CSV、JSON 和 KV 格局的字符串解析为多列
- 新增组件 WindowGroupByStreamOp,简化流式数据的窗口分组操作
- Tokenizer 反对多个空格的字符串拆分
- 增加 FTRL 示例
Alink 1.1.1 修复和欠缺:
- 修复 dill 版本抵触
- 修复 HasVectorSize 别名谬误
- 修复应用 collect 办法时呈现 mysqlsource 谬误
理解更多 Alink 1.1.1 feature:
https://github.com/alibaba/Al…
Alink 1.1.1 在易用性方面的小技巧
在应用 Alink 算法时,常常遇到一些枚举类型的参数,譬如:对于卡方特色选择器 ChiSqSelector,其参数 SelectorType 能够填写 NumTopFeatures、Percentil、FPR 等,是枚举类型,然而咱们在写脚本的时候,可能会记错,譬如,咱们输出了“aaa”,脚本代码如下:
在之前的 Alink 版本,会显示如下信息:
SelectorType 输入谬误的值 AAA,异样信息不显著,没有指出是哪个参数写错了。
在 1.1.1 版本优化之后, 异样信息中会有哪个参数填写谬误,和值可能是什么。
如果应用 Java 编辑器,倡议应用枚举类型作为参数的办法,编辑器的主动提醒进行抉择。
咱们在应用算法组件的时候还常常遇到这种状况,算法中会有些列名参数,咱们也有输出谬误的可能,如下图所示,将 text 列名写为 text1。
在 1.1.1 版本里,不仅抛出哪列不存在,也会提醒最可能的列名,帮忙用户做判断。