分布式计算

关于分布式计算:全链路数据治理实操演练营互联网金融制造等行业都适用

简介：全链路数据治理-全域数据集成训练营已上线！大数据开发治理平台DataWorks推出多个大数据训练营（继续更新中），全域数据集成训练营可实现多种数据源、多种网络环境下的离线同步与实时同步。参营还可支付定制无线充、定制折扇！\>>点击此处立刻报名<<云原生一体化数仓是阿里云整合自研大数据产品MaxCompute、DataWorks、Hologres和实时计算Flink版推出的一站式大数据处理平台，具备流批一体、实时离线一体、湖仓一体、全链路数据治理四大外围能力，能够满足企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理的需要，基于精简的架构，撑持全域数据分析需要和决策。 DataWorks作为云原生一体化数仓中对立的大数据开发治理平台，从2009年起一直积淀阿里巴巴大数据建设方法论，服务阿里巴巴数据中台建设。通过智能数据建模、全域数据集成、高效数据生产、被动数据管理、全面数据安全、疾速数据服务六大全链路数据治理的能力，DataWorks助力数万名政务、金融、批发、互联网、能源、制作等客户数字化降级。本次全链路数据治理训练营是阿里云开发者社区与DataWorks产研团队独特打造的产品实操课程，通过产品能力介绍、操作实际等形式，让开发者们疾速上手数据仓库开发与治理。第一期全域数据集成向开发者介绍通过DataWorks数据集成在多表>>多表、多表>>单表、单表>>单表等场景下，进行实时或离线同步的技术选型与外围能力，并以MaxCompute与Hologres引擎为例，演示云上数据同步操作步骤最佳实际。 \>\>\>\>本期训练营课程安顿** \>\>\>\>参营处分** 实现所有打卡即可取得结营证书、还有机会取得无线充电器及定制扇子一把~ 欢送大家报名： https://developer.aliyun.com/trainingcamp/d16256d9603f48d487d7ae5e0512ccf1或>>点击此处<< 后续系列电子书更新请关注DataWorks官网或阿里云开发者社区： https://www.aliyun.com/product/bigdata/ide 版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于分布式计算:全链路数据治理实操演练营互联网金融制造等行业都适用

简介：全链路数据治理-全域数据集成训练营已上线！大数据开发治理平台DataWorks推出多个大数据训练营（继续更新中），全域数据集成训练营可实现多种数据源、多种网络环境下的离线同步与实时同步。参营还可支付定制无线充、定制折扇！\>>点击此处立刻报名<<云原生一体化数仓是阿里云整合自研大数据产品MaxCompute、DataWorks、Hologres和实时计算Flink版推出的一站式大数据处理平台，具备流批一体、实时离线一体、湖仓一体、全链路数据治理四大外围能力，能够满足企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理的需要，基于精简的架构，撑持全域数据分析需要和决策。 DataWorks作为云原生一体化数仓中对立的大数据开发治理平台，从2009年起一直积淀阿里巴巴大数据建设方法论，服务阿里巴巴数据中台建设。通过智能数据建模、全域数据集成、高效数据生产、被动数据管理、全面数据安全、疾速数据服务六大全链路数据治理的能力，DataWorks助力数万名政务、金融、批发、互联网、能源、制作等客户数字化降级。本次全链路数据治理训练营是阿里云开发者社区与DataWorks产研团队独特打造的产品实操课程，通过产品能力介绍、操作实际等形式，让开发者们疾速上手数据仓库开发与治理。第一期全域数据集成向开发者介绍通过DataWorks数据集成在多表>>多表、多表>>单表、单表>>单表等场景下，进行实时或离线同步的技术选型与外围能力，并以MaxCompute与Hologres引擎为例，演示云上数据同步操作步骤最佳实际。 \>\>\>\>本期训练营课程安顿** \>\>\>\>参营处分** 实现所有打卡即可取得结营证书、还有机会取得无线充电器及定制扇子一把~ 欢送大家报名： https://developer.aliyun.com/trainingcamp/d16256d9603f48d487d7ae5e0512ccf1或>>点击此处<< 后续系列电子书更新请关注DataWorks官网或阿里云开发者社区： https://www.aliyun.com/product/bigdata/ide 版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于分布式计算:阿里开源-支持10万亿模型的自研分布式训练框架EPLEasy-Parallel-Library

作者：王林、飒洋导读最近阿里云机器学习PAI平台和达摩院智能计算实验室一起公布“低碳版”巨模型M6-10T，模型参数曾经从万亿跃迁到10万亿，规模远超业界此前公布的万亿级模型，成为以后寰球最大的AI预训练模型。同时做到了业内极致的低碳高效，应用512 GPU在10天内即训练出具备可用程度的10万亿模型。相比之前公布的大模型GPT-3，M6实现等同参数规模，能耗仅为其1%。 M6模型训练应用的正是阿里云机器学习PAI平台自研的分布式训练框架EPL(Easy Parallel Library，原名whale)。EPL通过对不同并行化策略进行对立形象、封装，在一套分布式训练框架中反对多种并行策略，并进行显存、计算、通信等全方位的优化，来提供易用、高效的分布式训练框架。 EPL背地的技术框架是如何设计的？作为开发者咱们能够怎么应用EPL？将来有哪些布局？明天一起来深刻理解。 EPL是什么EPL(Easy Parallel Library)是阿里最近开源的，对立多种并行策略的、灵便易用的自研分布式深度学习训练框架。 1.我的项目背景随着近些年深度学习的火爆，模型的参数规模也增长迅速，OpenAI数据显示： 2012年以前，模型计算耗时每2年增长一倍，和摩尔定律保持一致；2012年后，模型计算耗时每3.4个月翻一倍，远超硬件倒退速度；特地最近一年模型参数规模飞速增长，谷歌、英伟达、阿里、智源研究院都公布了万亿参数模型，有大厂也公布了百亿、千亿参数模型。随着模型参数规模增大，模型成果也在逐步提高，但同时也为训练框架带来更大的挑战。以后曾经有一些分布式训练框架，例如：Horovod、Tensorflow Estimator、PyTorch DDP等反对数据并行，Gpipe、PipeDream、PipeMare等反对流水并行，Mesh Tensorflow、FlexFlow、OneFlow、MindSpore等反对算子拆分，但当咱们要训练一个超大规模的模型时会面临一些挑战： * 如何简洁易用：接入门槛高：用户实现模型分布式版本难度大、老本高，须要有领域专家教训能力实现高效的分布式并行策略；最优策略难：随着钻研人员设计出越来越灵便的模型，以及越来越多的并行减速办法，如果没有主动并行策略摸索反对，用户很难找到最适宜本身的并行策略；迁徙代价大：不同模型适宜不同的混合并行策略，但切换并行策略时可能须要切换不同的框架，迁徙老本高； * 如何进步性价比：业界训练万亿规模模型须要的资源：英伟达 3072 A100、谷歌 2048 TPU v3，资源老本十分高；如何降本增效，组合应用各种技术和办法来缩小须要的资源，进步训练的速度；为了应答以后分布式训练的挑战，咱们研发了分布式训练框架EPL，将不同并行化策略进行对立形象、封装，在一套分布式训练框架中反对多种并行策略。EPL同时提供简洁易用的接口，用户只需增加几行annotation即可实现并行策略的配置，模型代码不须要改变。在用户无感的状况下，EPL通过进行各种显存、计算、通信优化，打造高效的分布式训练框架。 2.次要个性多种并行策略对立：在一套分布式训练框架中反对多种并行策略（数据/流水/算子/专家并行）和其各种组合、嵌套应用；接口灵便易用：用户只需增加几行代码就能够应用EPL丰盛的分布式并行策略，模型代码无需批改；主动并行策略摸索：算子拆分时主动摸索拆分策略，流水并行时主动摸索模型切分策略；分布式性能更优：提供了多维度的显存优化、计算优化，同时联合模型构造和网络拓扑进行调度和通信优化，提供高效的分布式训练；3.开源地址EPL(Easy Parallel Library)的开源地址是：https://github.com/alibaba/Ea... 咱们同时提供了model zoo，欢送大家试用：https://github.com/alibaba/Fa... EPL次要技术特点EPL通过丰盛并行化策略，简略易用的接口，多维度的显存优化技术，和优化的计算通信减速技术，让每一个算法工程师都能轻松训练分布式大模型工作。丰盛的并行化策略：EPL提供了多种并行化策略及其组合策略，蕴含数据并行，流水并行，算子拆分并行及并行策略的组合嵌套。丰盛的策略抉择使得不同的模型构造都能找到最适宜本人的分布式训练形式。易用性：用户的模型编程接口和训练接口均基于TensorFlow，用户只需在已有的单机单卡模型上做简略的标记即可实现不同的分布式策略。EPL设计了两种简略的策略接口(replicate/split)来表白分布式策略及混合并行。分布式策略标记的形式让用户无需学习新的模型编程接口，仅需几行代码即可实现和转换分布式策略，极大升高了分布式框架的应用门槛。显存优化：EPL提供了多维度的显存优化技术，蕴含主动重算技术(Gradient Checkpoint)，ZeRO数据并行显存优化技术，CPU Offload技术等，帮忙用户用更少的资源训练更大的模型。通信优化技术：EPL深度优化了分布式通信库，包含硬件拓扑感知，通信线程池，梯度分组交融，混合精度通信、梯度压缩等技术。1.技术架构EPL框架如下图所示，次要分为以下几个模块：接口层：用户的模型编程接口基于TensorFlow，同时EPL提供了易用的并行化策略表白接口，让用户能够组合应用各种混合并行策略；两头表白层：将用户模型和并行策略转成化外部表白，通过TaskGraph、VirtualDevices和策略形象来表白各种并行策略；并行化引擎层：基于两头表白，EPL会对计算图做策略摸索，进行显存/计算/通信优化，并主动生成分布式计算图。Runtime执行引擎：将分布式执行图转成TFGraph，再调用TF 的Runtime来执行； 2.并行化策略表白EPL通过strategy annotation的形式来划分模型为多个TaskGraph，并在此基础上进行并行化。 EPL有两类strategy：replicate 和 split。通过这两种并行化接口，能够表白出各种不同的并行化策略，例如：数据并行: 上面这个例子是一个数据并行的例子，每个模型正本用一张卡来计算。如果用户申请了8张卡，就是一个并行度为8的数据并行任务。流水并行：在上面的例子里，模型被切分成2个 TaskGraph, "stage0"和"stage1"，用户能够通过配置pipeline.num_micro_batch参数来设定pipeline的micro batch数量。在这个例子里，"stage_0"和"stage_1"组成一个模型正本，共须要2张GPU卡。如果用户申请了8张卡，EPL会主动在pipeline外嵌套一层并行度为4的数据并行（4个pipeline正本并行执行）。算子拆分并行：在以下例子中，EPL会对split scope下的模型定义做拆分，并搁置在不同的GPU卡上做并行计算。同时EPL反对对上述并行策略进行组合和嵌套，来组成各种混合并行策略，更多示例能够参考开源代码的文档和示例。 3.显存优化当模型增长，GPU的显存经常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术，极致优化了训练显存消化。重算 Recomputation (Gradient Checkpoint)：失常的DNN前向过程中会生成activation，这部分activation会在后向过程中用于梯度的计算。因而在梯度生成之前，前向的activation会始终存留在显存中。activation大小和模型构造以及batch size相干，通常占比都十分高。Gradient Checkpoint (GC) 通过保留前向流传过程中的局部activation，在反向流传中重算被开释的activation，用工夫换空间。GC中比拟重要的一部分是如何抉择适合的checkpoint点，在节俭显存，保障性能的同时，又不会影响收敛性。EPL提供了主动GC性能，让用户能够一键开启GC优化性能。ZeRO：在数据并行的场景下，每个卡上会寄存一个模型正本，optimizer state等，这些信息在每张卡上都是一样，存在很大的冗余量。当模型变大，很容易超出单卡的显存限度。在分布式场景下，咱们能够通过相似DeepSpeed ZeRO的思路，将optimizer state和gradient分片存在不同的卡上，从而缩小单卡的persistent memory占用。显存优化的AMP(Auto Mixed Precision)：在惯例的AMP里，须要保护一个FP16的weight buffer，对于参数量比拟大的模型，也是不小的开销。EPL提供了一个显存优化的AMP版本，FP16只有在用的时候才cast，从而节约显存。Offload: Offload将训练的存储空间从显存扩大到内存甚至磁盘，能够用无限的资源来训练大模型。同时，EPL反对各种显存优化技术的组合应用，达到显存的极致优化。咱们在T5模型上开启GC+ZeRO+显存优化的AMP技术，在性能放弃不变的状况下，显存升高2.6倍。 ...

关于分布式计算:DataWorks功能实践速览

简介：DataWorks性能实际系列，帮忙您解析业务实现过程中的痛点，进步业务性能应用效率！往期回顾：DataWorks 性能实际速览01期——数据同步解决方案性能举荐：独享数据集成资源组如上期数据同步解决方案介绍，数据集成的批数据同步工作运行时，须要占用肯定的计算资源，这些资源即资源组，通常先从数据起源所在的机器抽取数据至资源组所在的机器，再推送至指标数据源所在的机器。而进行数据同步时，能够依据理论状况布局应用哪种数据集成资源组，资源组布局的关键点包含连通性和性能两方面。以下就从数据集成资源组的类型与性能、网络连通性两方面，为您介绍数据集成资源组的详情： Part1：数据集成资源组的类型与性能比照DataWorks数据集成反对多种不同资源组：独享数据集成资源组：购买后可独占应用的资源组。在工作高并发执行且无奈错峰运行，须要独享的资源组来保障数据疾速、稳固地传输时，您能够抉择独享资源组。自定义数据集成资源组：如果您有充裕的服务器资源，也可将此局部资源作为DataWorks中工作运行的资源组应用，DataWorks反对自定义资源组。以上两种数据集成资源组在利用上的能力比照如下表所示： 类别独享资源组自定义资源组机器资源归属由DataWorks保护，是本人的租户独享应用的计算资源。由您本人保护，是属于您的IDC机器。网络反对VPC、公网和任意网络下的阿里云产品。反对VPC、公网和任意网络下的阿里云产品。免费形式依据机器的规格，包年包月计费。DataWorks版本按月应用免费。反对的数据源全副数据源全副数据源安全性高依据您本身机器所处的环境决定工作执行的效率指工作是否可能分到足够的计算资源，是否以最高性能运行。高依据您本身机器所处的环境决定可靠性指工作是否可能按时启动。执行工作时，网络资源是否被其它租户占用，导致工作不能按时产出后果。高依据您本身机器所处的环境决定实用场景大量、重要的生产级别的工作。应用自定义资源组的场景如下：<ul><li>如果您本身已有计算资源，能够对接阿里云重复使用，无需从新购买。</li><li>须要同步的数据源全副在IDC内。</li></ul>举荐指数★★★★★★十分建议您应用独享数据集成资源组来运行数据集成工作。独享数据集成资源组的购买后，您须要实现网络配置和工作空间绑定，后续即可抉择与数据源的网络连通计划进行连通配置了。在此之前，独享数据集成资源组的购买与根底配置的操作详情请参见新增和应用独享数据集成资源组。 ### Part2：数据集成资源组的网络连通计划进行数据同步时，须要依据数据库所在网络环境，通过对应的网络解决方案，实现对应类型资源组与数据库的网络连通。连通计划概览如下。以下为您重点介绍独享数据集成资源组的网络连通计划详情，其余资源组类型的网络连通计划可进入帮忙核心查看。 #### 场景1：数据源具备拜访公网的能力如果数据源具备公网拜访能力的话，那么数据源与资源组之间能够间接通过公网互访。 #### 场景2：数据源在VPC网络中，且VPC和DataWorks在同一个地区如果数据源在VPC网络中，且VPC和DataWorks在同一个地区，那能够将独享数据集成资源组绑定数据源所在VPC。同时须要关注，资源组与DataWorks是否在同一个可用区中，如果不在同一个可用区中，还须要手动增加一下路由，保障资源组与数据源之间网络是连通的。增加路由的操作详情可参见增加路由。 #### 场景3：数据源在VPC网络中，且VPC和DataWorks在不同的地区如果数据源在VPC网络中，且VPC和DataWorks在不同的地区中，那您须要为独享数据集成资源组绑定一个VPC，而后通过高速通道、VPN或其余网络连通产品连通资源组绑定的VPC与数据源所在的VPC。常见的网络连通产品包含：* 云企业网应用场景示例，请参见云企业网。* 高速通道应用场景示例，请参见高速通道。* VPN网关应用场景示例，请参见VPN网关。此外，您仍旧须要手动增加一下路由，保障网络连通性。增加路由的操作详情可参见增加路由。 #### 场景4：数据源在IDC内如果数据源在IDC内，与场景3：数据源在VPC中且与DataWorks不同地区的场景相似，您须要为独享数据集成资源组绑定一个VPC，而后通过高速通道、VPN或其余网络连通产品连通资源组绑定的VPC与数据源所在的VPC。常见的网络连通产品包含：* 云企业网应用场景示例，请参见云企业网。* 高速通道应用场景示例，请参见高速通道。* VPN网关应用场景示例，请参见VPN网关。此外，您仍旧须要手动增加一下路由，保障网络连通性。增加路由的操作详情可参见增加路由。 #### 场景5：数据源在经典网络如果数据源在经典网络内，则此场景下，不反对数据源与DataWorks资源组网络连通，建议您将数据源迁徙至VPC网络中。PS：阿里云经典网络已不举荐应用，建议您迁徙数据源至VPC。 ### Part3：注意事项——白名单的影响保障资源组与数据源之间网络连通后，您还需保障资源组与数据源之间不会因为白名单的限度而无奈进行数据拜访，例如，局部数据源设置白名单后会不容许白名单外的IP拜访，您须要将资源组的IP增加至数据源的白名单中。应用不同类型的数据集成资源组时，须要增加到数据源白名单中的IP地址不统一，详情可进入帮忙核心查看，以下为您示例，应用独享数据集成资源组时，须要获取并增加到数据源白名单中的IP地址。* 交换机网段：* 独享资源组的EIP地址： ## 场景实际理解了独享数据集成资源组后，您能够参考以下文档进行实操实际。* 新增和应用独享数据集成资源组* 同步数据至MaxCompute> 版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于分布式计算:外部工具连接SaaS模式云数据仓库MaxCompute实战商业BI分析工具篇

简介：MaxCompute 是面向剖析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供疾速、全托管的在线数据仓库服务，打消了传统数据平台在资源扩展性和弹性方面的限度，最小化用户运维投入，帮忙企业和大数据开发者经济并高效的剖析解决海量数据。2021阿里巴巴大数据技术公开课第一季将在7月21日开讲，本季直播将率领大数据开发者走进SaaS模式云数据仓库MaxCompute 生态，通过三次主题分享为开发者介绍SaaS模式云原生数据仓库 MaxCompute 生态建设详情以及商业和开源BI剖析工具、开源数据库管理工具、开源ETL工具的接入实战。如果您是MaxCompute 产品开发者或者打算应用云数据仓库、湖仓一体计划和产品，欢送扫描本文下方二维码，退出钉群观看直播，与更多开发者独特探讨数据仓库、湖仓一体等技术。「第一讲」内部工具连贯SaaS模式云数仓MaxCompute — 商业BI剖析工具篇分享人：木弈阿里云智能产品经理直播工夫：2021年7月21日 17:00-17:30直播简介：本次直播将介绍SaaS模式云数据仓库MaxCompute的产品整体生态，包含内部BI剖析工具、数据库管理工具、ETL工具以及MaxCompute本身凋谢生态、阿里云产品解决方案生态和数据利用生态。重点会介绍MaxComput反对的QuickBI、Tableau、FineBI、FineReport、Yonghong Desktop、商业BI剖析工具，同时进行局部连贯示例演示。直播回放>>浏览文字版>>「第二讲」内部工具连贯SaaS模式云数仓MaxCompute — 开源BI剖析工具篇 & 数据库管理工具篇分享人：木弈阿里云智能产品经理直播工夫：2021年7月28日 17:00-17:30直播简介：本次直播将次要分享MaxCompute查问减速性能、与开源BI剖析工具Davinci、Superset连贯示例、以及数据库管理工具DBeaver、DataGrip、SQL Workbench/J的局部连贯演示。「第三讲」内部工具连贯SaaS模式云数仓MaxCompute—ETL工具篇分享人：龙青云阿里云智能技术支持经理直播工夫：2021年8月4日 17:00-17:30直播简介：本次直播将介绍MaxCompute反对的三款开源ETL工具Kettle、Airflow、Azkaban以及连贯示例。版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。