共计 1796 个字符,预计需要花费 5 分钟才能阅读完成。
DSW 2.0:面向 AI 研发的集成开发平台
DSW(Data Science Workshop)是阿里巴巴 PAI 团队根据多年的 AI 算法和产品研发经验积累,围绕提高 AI 算法研发效率,降低研发成本而推出的一款适用于各类 AI 开发者的云端机器学习集成开发环境。DSW2.0 是借助阿里云 ECS,Docker 和 Kubernetes 等云原生技术,能够在几分钟内帮用户完成环境搭建,相对 DSW1.0 开放更高的开发权限,满足各个层面客户的使用需求。
- 云原生架构
DSW 借助阿里云 ECS,Docker 和 Kubernetes 等云原生技术,能够在几分钟内帮用户完成环境搭建。用户可以根据算法需要和成本考虑,选择阿里云 ECS 提供的包括 CPU 和异构计算 GPU 在内的所有资源规格。
- 满足不同层次开发习惯
结合交互式编程和命令行输入,DSW 提供了三种编程入口:WebIde 适用于工程化要求比较高的项目;JupyterLab 适用于快速 POC 试验;Terminal 入口可用于快速执行 Shell 命令,运行程序和简单的编辑等。
- 预装丰富插件
DSW 还开发和预装了各种 JupyterLab 和 WebIDE 插件,比如广受深度学习开发者喜爱的可视化工具 Tensorboard,用户在 DSW 内通过 Launcher,Commands 打开,甚至还可以使用 %tensorboard 魔法命令直接在 Notebook 中开启等多种方式使用 Tensorboard。不仅支持本地文件,还可以打开存放在 OSS,ODPS 里的训练日志。针对算法同学使用 Python 比较多的特点,DSW 的 WebIDE 内安装了 Python 插件,可以直接在浏览器内在线调试,单步跟踪程序运行。用户还可以根据需要,自主安装需要的任意插件。
- 支持多种数据源读写
NAS,OSS,云盘和 MaxCompute,尤其是内置了 dswmagic 魔法命令可以让用户在 ipynb 文件中使用 SQL 语句读写 MaxCompute 表中数据,预置的 SQL 编辑器支持语法高亮、智能提示、自动补全等功能,还支持运行带变量替换功能的 Sql 脚本。查询结果自动以最友好的图形化展示。
Alink:流批一体机器学习算法平台
Alink 拥有丰富的批式算法和流式算法,能够帮助数据分析和应用开发人员能够从数据处理、特征工程、模型训练、预测,端到端地完成整个流程。Alink 提供的功能算法模块中,每一个模块都包含流式和批式算法。比如线性回归,包含批式线性回归训练,流式线性回归预测和批式线性回归预测。另外,Alink 算法覆盖分类、回归、聚类、评估、统计分析、特征工程、异常检测、文本、在线学习、关联分析等经典领域,是一个通用的机器学习算法平台。
- 算法性能
我们从下图中可以看出在回归算法中,Alink 算法性能最高优于 Spark 1.38 倍;分类算法中 Alink 大多数算法性能优于 Spark,最高优于 2.52 倍;聚类算法 Alink 算法性能最高优于 Spark 1.85 倍;协同过滤 Alink 算法性能最高优于 Spark 2.26 倍。
Flink VS Spark 算法性能
- 更友好的交互式体验
我们提供两种用户使用界面:web 和 PyAlink。Web 界面提供拖拽的方式创建试验,通过对每一个组件进行配置完成整个试验的参数配置。在各个算法节点旁,我们用闪烁的小灯泡? 表示“运行中”的状态,用对勾✅表示“运行完成”的状态。一般情况下,只有批式(batch)组件才有可能运行结束。基于各个组件的运行状态,可以十分方便地判断当前实验运行到了什么程度。
同时为了满足脚本用户的需求,我们提供了 PyAlink on notebook,用户可以通过 PyAlink 的 python 包使用 Alink。PyAlink 支持单机运行,也支持集群提交。并且打通 Operator(Alink 算子) 和 DataFrame 的接口,从而使得 Alink 整个算法流程无缝融入 python。PyAlink 也提供使用 Python 函数来调用 UDF 或者 UDTF。
阿里云机器学习 PAI 是覆盖人工智能全链路的产品家族,自上线以来,受到广大 AI 开发者的喜爱,经过千锤百炼,证明不仅适合个人和团队研发,也支持大规模算法竞赛和教育培训。本次重磅发布的 PAIDSW2.0 和商业版 Alink 致力成为最懂用户的轻量化 AI 服务,包含数据处理、建模、训练、模型优化、在线预测等多种产品版块,为用户提供一站式体验服务。
发布会传送门
产品详情www.aliyun.com