阿里云 ODPS 系列产品以 MaxCompute、DataWorks、Hologres 为外围,致力于解决用户多元化数据的计算需要问题,实现存储、调度、元数据管理上的一体化架构交融,撑持交通、金融、科研、等多场景数据的高效解决,是目前国内最早自研、利用最为宽泛的一体化大数据平台。
DataWorks 新重点能力介绍
- 新产品 -DataWorks 加强剖析
- 新产品 -DataWorks 智能数据建模个人版
- 新性能 -DataWorks 反对 EMR on ACK(Spark)
- 新性能 -DataWorks 数据集成入湖
- 新性能 -DataWorks 数据治理核心反对 EMR
新产品
新产品 – DataWorks 加强剖析
DataWorks 与 DataV-Card 单干推出的 AI 加强剖析产品,一站式实现从数据查问、剖析、可视化、共享的残缺链路。1 分钟即可造成数据报告,帮忙互联网、金融、政务等各个行业客户表白数据观点,讲好数据故事。
利用场景:
- 简化程序,降低成本:以往数据分析工作流中,从数据仓库取数查问、到数据可视化、数据共享,须要要横跨多个产品,以致用户应用步骤繁琐,产品学习老本高。
- 海量数据查问:基于 MaxCompute 等计算引擎弱小的剖析计算能力,DataWorks 可间接针对海量数仓数据进行 SQL 取数查问,剖析后果同时在 DataWorks 加强剖析中进行可视化,造成数据「报告」并进行后果共享,极大进步了企业数据分析的效率。
性能个性:
- 数据查问:基于 MaxCompute 等具备弱小剖析计算能力计算引擎,反对用户面向海量数仓数据进行 SQL 取数查问,具备谋求极致简便、轻量化等特点。
- 数据卡片:卡片内置常见图表,词云等组件。其作为数据运行后果的可视化资产,反对用户将观点备注至数据卡片中,造成专属数据可视化知识库,具备个性化,长久化等特点。
- 数据报告:由多个数据卡片组成的数据可视化报告能够调整卡片程序,筛选适合的报告主题。报告链接适配不同的展现需要,反对各行业用户表白本身数据观点,讲好数据故事,具备灵活性,多样化等特点。
产品 demo 演示 – DataWorks 加强剖析
以公共数据集为例,浏览数仓数据进行 SQL 取数查问——开启 DataWorks 加强剖析,对于查问数据后果通过图表,主题等调整,保留为可视化的数据卡片——卡片备注本身数据灵感,筛选数据卡片搭建数据报告,造成专属集体知识库——数据报告一键分享。
点击观看 < 加强剖析 >:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/428094…
新产品 – DataWorks 智能数据建模个人版
DataWorks 智能数据建模产品,从数仓布局、数据规范、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让数据仓库的建设向规范化,可继续倒退方向演进。产品内置批发电子商务数据仓库行业模型模板,集体能够一键导入模板,DataWorks 智能数据建模个人版 6 个月 60 元,开明后能够收费获取批发模型模板,并依照文档进行学习操作。
利用场景:
- 找数用数:解决业务指标呈现“同名不同义,同义不同名”,业务找数难,找到的数不会不敢用,从而导致业务无奈通过数据决策工作等用户痛点,并且解决数据异样,无奈疾速定位等业务问题。
- 降低成本:数仓建模启动初期工作量微小,人力老本高;线下建模效率低,短少适合的工具;模型设计与数据研发、数据查找、数据生产工作脱节等痛点针对性解决。
性能个性:
- 与企业版性能统一:数仓分层 / 维度建模 / 数据指标等性能与企业版性能均无区别,仅限主账号应用,为用户集体学习建模提供服务。
- 内置收费行业模型模版:提供收费批发电子商务模型模板,数仓建模实践与实际联合,为用户集体学习数仓建模提供便当,晋升学习效率。
- 与数据开发流程集成:一站式模型设计与数据开发,多种建模形式,为用户集体疾速实现多引擎模型物化与模型架构图绘制,主动生成 ETL 代码。
产品 demo 演示 – 基于批发电商模板实操流程
登录阿里云官网关上 DataWorks 智能数据建模寻找行业模型模板——载入模板,查看数仓分层查看数据域,查看数据集市和主题域——在维度建模中能够看到从模板导入的模型。也可抉择创立模型,抑或通过代码模式来批改模型——将模型与数据开发买通,通过模型物化的物理表能够主动生成模型对应的 ETL 代码。
点击观看 < 智能集体数据建模 >:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/428093…
新性能
新性能 – DataWorks 反对 EMR on ACK(Spark)
存量已适配 EMR on ECS(DataLake/Custom)以及开源
利用场景:
集群切换或者双跑能够进行工作的无缝迁徙:如果用户之前用的是 ECS 集群,想切换成 ACK 集群,或者两种集群同时运行,Spark 工作都能够平滑的运行在这两种集群之上。
大数据的开发调度、剖析和治理:只须要开明一个 DataWorks,就能够造成这个大数据的全家桶的生态。数据集成模块能够实现数据入户、数据开发和调度、数据分析和治理等等,一应俱全,能够实现须要多个开源组件能力实现的产品性能,来助力企业的数仓团队实现研发的提效和体验的晋升。
性能个性:
DataWorks 适配 EMR on ACK(Spark)具备以下个性
- 节省成本:
依据 ACK 容器服务弹性能力按需灵便调整计算资源,若之前已保有 ACK 服务撑持在线服务和利用,那么本次就无需为大数据引擎独自购买 ACK;
EMR Spark 集群部署在 ACK 容器服务中,在创立 EMR 集群间接抉择曾经有的 ACK,实现大数据服务和在线应用程序共享集群资源;
ACK 容器服务自身具备良好弹性扩大能力,无论是程度、定时还是垂直伸缩,都可能通过丰盛的弹性扩容计划来充沛应答计算高峰期,整体达到资源正当利用、节省成本的成果。
- 简化开发,稳固调度:
专一 Spark 原生开发模式,无需关怀底层集群差别;
反对多种调度周期,提供超大规模稳固调度,每日能够撑持千万量级的实力调度,并提供丰盛的工作运维伎俩帮忙用户及时处理工作执行异样,并发送相应监控告警;
基于 ECS Spot 抢占式实例进行调度适配与优化,本次 DataWorks 适配 Spark 集群,依据 ACK 抢占式实例做了专门的调度优化。
- 事先查看,预先治理:
DataWorks 数据治理核心提供丰盛查看项,融入大数据开发流程,并且涵盖研发、存储、计算等多个方面的治理倡议,造成了可量化的衰弱分指标,能够帮忙企业在整个大数据过程中进行继续治理优化。
DataWorks 相比开源大数据组件劣势
DataWorks 作为阿里云一站式开发和治理平台,是一款云上全托管产品,能够即开即用,无需像开源一样通过后期产品部署、环境部署等繁琐的流程。DataWorks 相比开源具备以下几点劣势:
数据集成(DataX / Sqoop):
- 基于 DataX 构建离线同步链路
- 基于 Flink 构建实时同步链路
- 封装多样化数据同步解决方案:提供多样化数据同步解决方案,笼罩整库同步、一次性全量同步、周期性增量同步等场景
- 数据通道丰盛,配置链路简略,网络计划齐备:在各种数据类型之间构建数据同步通道,让数据工具不再简单和繁琐。
开发与调度(DolphinScheduler / Airflow):
- 丰盛的原子工作类型:DataWorks 面向各种计算引擎提供多样化的工作类型
- 智能 Web IDE + 可视化工作流编排:开发者能够通过可视化拖拽形式疾速构建工作运行工作流,通过智能 Web IDE 高效编写工作代码
- 细粒度调度打算:对工作配置灵便的调度打算,无论是调度频率、重跑策略、简单场景的依赖关系等等,都提供了十分欠缺和粗疏的性能;
- 全局运维大屏 & 单任务运维详情:工作上线当前,还能够通过运维大屏和运维伎俩来监控和解决运行的状况。
- 智能基线及时捕获生产链路的异样
- 数据品质性能—严格监控管制脏数据净化上游
数据治理(Atalas 等):
- 全面元数据纳管(技术 / 业务 / 操作元数据等)
- 支持系统主动解析 / 用户自助上报数据血统
- 数据目录增强数据管理 / 晋升找数效率
- 提供衰弱重量化体系、多维评估治理功效
- 敏感数据无效辨认与爱护等这一系列丰盛产品性能和生态来造成组合拳的成果
新性能 – DataWorks 数据集成入湖
离线及实时同步数据至 OSS/Hive
利用场景:
运维层面:解决 flink/spark streaming/kafka 等运维优化调优,湖文件的治理:compaction,清理历史文件,清理过期分区,整个作业的施行性和高吞吐保障,开发 / 调试 / 部署 / 运维全生命周期等等都须要用户治理,运维难度大的痛点。
学习老本:升高数据库 binlog 多样性解析须要专业知识储备,工作运维治理,flink、spark、kafka 等技术引擎用户学习老本。
性能个性:
DataWorks 数据集成入湖 OSS 具备以下个性
- MySQL 整库同步至 Hive:反对实例模式、全量数据与增量过滤,增量过滤靠增量条件拉取增量,增量条件做出 MySQL 的 VR 条件过滤数据,其数据能够设置同步周期,用户也能够依照需要拉取数据。
- 上手简略:全白屏向导化操作,反对用户直观入湖同步配置。
- 元数据主动买通:与阿里云 DLF 深度买通交融,数据能够在入湖同步时主动注入 DLF 中,无需用户人为干涉。
- 实时同步:反对数据实时同步至 OSS 湖中,实现秒级提早,并且反对用户同步过程中进行数据处理。
DataWorks 入湖 OSS 能力反对的链路个性
MySQL 实时入湖 OSS:
反对 MySQL 数据增量实时入湖,秒级提早
反对 MySQL 历史存量数据离线入湖,能够管制同步速率,防止影响源端业务
反对 MySQL 实例级别配置工作,同时同步一个实例下多库多表
反对依照正则感知 MySQL 端的库表变动,将减少的库表主动退出 OSS 湖端
反对 OSS 湖端主动建设元数据表
反对对接阿里云 DLF,入湖元数据主动导入,实时可查
反对自定义 OSS 湖端存储门路
反对 OSS 湖端分区按日期自定义赋值
Kafka 实时入湖 OSS:
反对 Kafka 数据增量实时入湖,秒级提早
反对数据两头进行简略的数据处理,包含数据过滤、脱敏、字符串替换等
反对字段级别赋值操作
反对 kafka 非结构化的 JSON 数据,能够依据同步过程中实时的数据,进行动静减少字段
反对 OSS 湖端主动建设元数据表
反对对接阿里云 DLF,入湖元数据主动导入,实时可查
反对自定义 OSS 湖端存储门路
产品 demo 演示 – MySQL 入湖 OSS
DataWorks 控制台新建工作,输出工作名称,抉择起源和去向,——demo 演示中抉择 MySQL 到 OSS, 抉择整个入湖,抉择 mysql 数据源,资源组,OSS 数据源,而后进行联通测试。——测试完后,能够进入整个工作配置中,在工作配置中选取的起源须要同步表,抉择外在存储门路,能够主动勾选是否同步到 DIF 中——确定之后建设一个 OSS 的分区。演示 demo 中按工夫分区,配置运行中高级参数——点击实现配置整个工作配置实现
点击观看 < 数据入湖 >:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/427486…
新性能 – DataWorks 数据治理核心反对 EMR
湖仓一体数据治理能力评估与优化
利用场景:
面向数据体量高速增长背景下,所须要实现的各类增效降本的治理场景,用户可通过 DataWorks 数据治理核心,面向存储、计算维度进行治理,零碎提供数据计算工作优化、数据存储优化等治理性能,可帮忙用户继续剖析和优化数据存储及加工计算成本。
性能个性:
DataWorks 数据治理核心 on EMR 具备以下个性
- 综合型治理衰弱分评估:基于阿里云 E -MapReduce 及 DLF 连接,造成掂量全局、团队及集体的数据治理衰弱体系,让用户以对立的规范来明确数据治理的现状与须要达成的治理指标。
- 多维度治理问题发现:综合性的治理衰弱零碎笼罩研发、存储、平安、品质等多治理维度,并提供各维度下内置治理项规定,让用户继续发现同步工作、调度工作、数据表的各类问题并解决。
- 主动式治理问题拦挡:深度买通 DataWorks 数据开发链路,在开发的工作提交、公布环节,被动帮忙用户发现潜在数据治理问题,及时进行问题预防,实现数据治理与数据开发流程的交融。
产品 demo 演示 – 基于 EMR 进行数据老本优化场景实操
通过 DataWorks 控制台进入数据治理核心,理解总体治理衰弱分数及各维度衰弱状况——通过治理核心应用剖析查看数据链路对于各类资源的总体耗费及数据调度工作的资源明细,在资源的明细里能针对 EMR 各类型工作去进行一个筛选,来查看具体资源耗费状况。——重点关注有大量资源异动耗费的工作,切换知识库查看零碎以后反对的数据治理项,发现对应治理问题——定位问题进行事先查看,配置管理抉择到对应工作空间,一键开启对应智力查看项——对于查看无奈通过,拦挡工作的提交,点击操作查看具体查看不合乎治理标准内容,从而进行修复。
点击观看 < 数据治理 emr>:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/427483…
- 支付 DataWorks 收费试用:https://free.aliyun.com/?pipCode=dide
- 支付 Hologres5000CU 时收费试用:https://free.aliyun.com/?pipCode=hologram
- 支付 MaxCompute5000CU 时收费应用:https://free.aliyun.com/?pipCode=odps
点击立刻收费试用云产品 开启云上实际之旅!
原文链接
本文为阿里云原创内容,未经容许不得转载。