DSW面向AI研发的集成开发平台

60次阅读

共计 1560 个字符,预计需要花费 4 分钟才能阅读完成。

发布会传送门 产品详情 云原生技术,注重用户体验,提升研发效率 环境搭建是算法研发过程中的重要一环,这里除了硬件选型外,软件环境的安装配置,后续升级往往会耗费不少时间。DSW 借助阿里云 ECS,Docker 和 Kubernetes 等云原生技术,能够在 2,3 分钟内帮用户完成环境搭建。用户可以根据算法需要和成本考虑,选择阿里云 ECS 提供的包括 CPU 和异构计算 GPU 在内的所有资源规格。不仅支持预付费,还支持后付费。DSW 还配置了 10 多种适用于不同 AI 场景的典型软件环境配置,包括 Tensorflow 和 PyTorch 等主流训练框架的不同版本组合,供用户选择。作为高度开放的开发环境,DSW 开放 sudo 权限给用户、支持任意第三方库安装。为了满足不同水平层次和开发习惯的算法用户,结合可视化,交互式编程和命令行输入,DSW 提供了 3 种编程入口:WebIde 适用于工程化要求比较高的项目;JupyterLab 适用于快速 POC 试验;Terminal 入口可用于快速执行 Shell 命令,运行程序和简单的编辑等。

DSW 还开发和预装了各种 JupyterLab 和 WebIDE 插件,比如广受深度学习开发者喜爱的可视化工具 Tensorboard,用户在 DSW 内通过 Launcher,Commands 打开,甚至还可以使用 %tensorboard 魔法命令直接在 Notebook 中开启等多种方式使用 Tensorboard。不仅支持本地文件,还可以打开存放在 OSS,ODPS 里的训练日志。针对算法同学使用 Python 比较多的特点,DSW 的 WebIDE 内安装了 Python 插件,可以直接在浏览器内在线调试,单步跟踪程序运行。用户还可以根据需要,自主安装需要的任意插件。DSW 支持多种数据源读写,包括 NAS,OSS,云盘和 MaxCompute,尤其是内置了 dswmagic 魔法命令可以让用户在 ipynb 文件中使用 SQL 语句读写 MaxCompute 表中数据,预置的 SQL 编辑器支持语法高亮、智能提示、自动补全等功能,还支持运行带变量替换功能的 Sql 脚本。查询结果自动以最友好的图形化展示。为了节省资源成本,用户可以利用停机不收费功能,在实例闲置不用时关机保存环境,需要时再一键快速恢复。此外,DSW 支持用户自定义镜像安装,可以基于之前保存或定制的环境创建实例。DSW 在公有云上支持了多次百队以上规模的天池大赛,在阿里集团内同样也承接着比赛,经过千锤百炼,证明不仅适合个人和团队研发,也支持大规模算法竞赛和教育培训。安全性和稳定性是用户比较关心的问题,DSW 使用的计算,存储和网络资源,完全是使用用户自己的账号购买,并部署到用户自己的 vpc 内部,可以方便与用户其他数据打通。用户间完全隔离,还具备非常好的安全性。基于阿里云 ECS 和容器服务,稳定性有保障。集成 PAI 的各能力组件,加速业务落地 身为 PAI 这个大家庭的一员,DSW 除了完成单机开发训练功能之外,还内置部分 PAI 的基础能力。比如用户可以直接在实例内利用 PAI 视觉类算法包 EasyVision 进行图像分类训练评估、预测;通过自动调参 AutoML 进行算法超参数自动调优;用户甚至能够无感知的享受 PAI 编译优化算法组件 TAO 提供的训练过程中的算子优化。最后,DSW 还提供了供算法直接读取 MaxCompute 表数据的 CommonIO 组件,支持 TableRecordDataSet,TableReader,TableWriter 等标准接口,方便训练程序直接提交到 PAI 的分布式训练集群。可以预见,在不久的将来,会有更多的 PAI 算法包内置进 DSW 基础镜像内。DSW 也会依赖 PAI SDK,围绕数据读取,加工,模型训练,模型管理以及在线服务等 AI 研发生产流程的关键环节,为用户提供像 Pipeline 搭建,调度和管理之类的一条龙服务。

正文完
 0