关于大数据:袋鼠云产品功能更新报告05期|应有尽优数栈一大波功能优化升级

6次阅读

共计 6101 个字符,预计需要花费 16 分钟才能阅读完成。

这段时间,咱们对产品自身以及客户反馈的一些问题进行了继续的更新和优化,包含对离线平台数据同步性能的更新,数据资产平台血统问题的优化等,力求满足不同行业用户的更多需要,为用户带来极致的产品应用体验。

以下为袋鼠云产品性能更新报告第五期内容,更多摸索,请持续浏览。

离线开发平台

1. 反对工作流参数

背景:很多业务场景下一个工作流中须要有一些能失效于整个工作流的参数,对立配置其下所有子节点通用。

新增性能阐明:工作流父工作中反对创立工作流层级参数,工作流参数在工作流范畴内失效。工作流下子节点反对通过 ${参数名称} 的形式来援用该工作流参数。

2. 反对我的项目级参数

背景:

目前离线已反对的参数类型有以下几种:

• 全局参数 - 作用于整个数栈平台

• 自定义参数 - 作用于单个离线工作 / 工作流子节点

• 工作上下游参数 - 作用于引入此参数的上游工作

• 工作流参数 - 作用于单个工作流工作

减少的我的项目级参数,作用于以后我的项目之内的所有工作,既不影响别的我的项目的工作,也可实现我的项目内某些业务配置批量批改的成果。

新增性能阐明:反对在我的项目的「项目管理 -> 我的项目参数」中配置我的项目参数,配置实现后,该我的项目下的工作都能够进行援用。在工作中能够通过 ${参数名称} 的形式援用我的项目参数。

3. 绑定的我的项目反对解绑

背景:以后我的项目绑定为非可逆操作,一个我的项目一旦和另一个我的项目产生绑定后无奈解绑也不反对删除,但局部曾经绑定的我的项目因业务起因可能须要换指标我的项目绑定,或者不再应用须要删除。

新增性能阐明:可在测试项目的「我的项目设置 - 根本信息」中操作解绑生产我的项目,此操作不可逆。解除生产测试项目绑定后,数据源映射、资源组映射、公布至指标我的项目性能会受到影响,回退至绑定前状态,可按失常逻辑删除。

4. 补数据反对对各类型参数进行一次性赋值

背景:补数据时可能会存在须要对参数值进行长期替换的状况,例如跑历史日期的数据时,补数据的工夫参数范畴须要变更。

新增性能阐明:在「运维核心 - 周期工作治理 - 工作补数据」中进行补数据参数从新赋值操作,补数据理论跑工作的参数值会被补数据时从新赋值的参数值替换。

5. 长期运行可查看运行历史

背景:周期工作、手动工作提交到调度运行时,都会产生实例,记录运行状态和运行日志等信息。然而周期工作、长期查问和手动工作在长期运行时不存在运行记录,用户无奈查看历史长期运行的运行状态和运行日志等信息,导致一些重要的操作无奈追踪。

新增性能阐明:在数据开发页面最左侧功能模块列表中,新增了「运行历史」性能。在「运行历史」中,可查看历史近 30 天(可自定义)长期运行的 SQL、日志等信息。

6. 告警承受人反对填写其余参数

背景:局部客户心愿一些非数栈用户(比方合作方)也能收到工作的告警信息,而目前平台反对选的告警接管人范畴为以后我的项目下的用户。冀望离线侧告警配置时能灵便增加一些自定义值:能够是手机号、邮箱、用户名等信息,客户通过自定义告警通道中上传的 jar 包自定义解析获取值的内容,再通过本人的零碎给解析出的联系人发送告警。

新增性能阐明:在创立告警规定时,反对填写内部联系人信息,通过英文逗号宰割。(自定义告警通道中上传的 jar 须要反对解析)

7. 数据同步的读写并行度反对离开设置

背景:因为数据同步源端与指标端的数据库存在数据库自身性能等因素的影响,读和写的速率往往是不统一的,例如读的速率是 5M/s,写的速率只有 2M/s,读和写对立用一个并行度管制理论不能达到同步速率的最大优化,反而可能带来问题。

新增性能阐明:在数据同步的通道管制中原“作业并发数”改为“读取并发数”和“写入并发数”,两个参数独自配置互不影响,用户可灵便调整让同步效率最大化,并发数调整范畴下限改为 100。

8. 脏数据容忍条数反对按我的项目设置默认值

新增性能阐明

背景:同步工作中的脏数据默认容忍条数本来固定是 100,局部客户理论承受的容忍度是 0,导致每配置一个同步工作就须要改一下脏数据容忍条数的设置值,应用不便。

新增性能阐明:在离线「项目管理 -> 我的项目设置 -> 操作设置」中,反对设置数据同步工作脏数据默认容忍条数和脏数据默认容忍比例。配置实现后,新建数据同步工作在通道管制模块会展现默认值。

9. 数据同步读取 hive 表时可抉择读取多个分区的数据

背景:数据同步读取 hive 表时目前仅反对抉择一个分区读取,局部客户场景下须要把多个分区的数据读取进去写入指标表。

新增性能阐明:读 hive 表时候区能够用 and 作为连接符筛选多个分区进行数据读取。

10. 工作运行超时中断

背景:目前所有工作一旦开始运行,无论运行多久平台都不会主动杀死,导致局部异样工作运行工夫长,占用大量资源。

新增性能阐明:所有工作在调度属性处减少了超时工夫的配置项,默认不限度,可抉择定义超时工夫,运行超时后平台会主动将其杀死。

11. 表治理的表查看交互优化

背景:点击表治理中某张表的字段、分区等详细信息的区域较小,不不便查看。

新增性能阐明:对该区域可手动进行拉高。

12.hive 数据同步的分区反对抉择范畴

当 hive 类数据源作为数据同步的起源时,分区反对辨认逻辑运算符“>”“=”“<”“and”,例如“pt>=202211150016 and pt<=202211200016”,即代表读取范畴在此之间的所有分区。

13.FTP 大文件拆分反对自定义解析文件的拆分

在用户解析形式抉择自定义解析形式时,反对用户上传自定义 jar 包对 FTP 中的文件进行切割拆分同步。

14. 版本比照性能优化

· 历史版本反对查看近 50 条版本记录

· 版本比照性能交互调整

• 反对历史版本间比照

15. 整库同步写 hive 时反对对分区表指定分区名称

当整库同步选中 hive 类的数据同步指标时,能够指定分区字段的名称。

16. 离线反对配置指标工作作为上游依赖

目前离线曾经反对的跨产品工作依赖包含:品质工作(关联)、标签工作,加上指标工作后整个数栈的所有离线工作就可实现互相的依赖了。

17. 脏数据管理概览图显示具体工夫

18. 通过右键快捷键可查看工作日志

19. 工作执行进度优化

执行进度前展现期待时长。

20. 其余优化项

· vertica 反对向导模式数据同步

· 工作下线后,反对查看工作实例

· RDB 工作反对在工作间及工作流里的参数传递

· 数据同步工作在创立公布包时被选中时反对关联到表:数据同步工作指标端一键生成的指标表,反对关联至公布包中

· SQL 语句反对:Desc database、Show database、Create database、Drop database、Show tables、Create table、Desc table、Alter table、Drop table、Creat function

· 表联想性能优化:spark sql、hive sql、gp sql 编写 SQL 代码时,反对表联想性能,联想范畴:离线对接和创立 schema 下的表

· 删除工作、资源等内容时,提醒内容名称

实时开发平台

1.【数据还原】反对一体化工作

背景:一个工作即可实现存量数据的同步,并无缝连接增量日志的采集还原,在数据同步畛域实现批流一体,罕用于须要做实时备份的数据迁徙场景。

比方在金融畛域,业务库出于稳定性思考,无奈间接面向各种下层利用提供数据查问服务。这时候就能够将业务数据实时迁徙至内部数据库,由内部数据库再对立对外提供数据撑持。

新增性能阐明:反对存量数据同步 + 增量日志还原的一体化工作,反对 MySQL—>MySQL/Oracle,在创立实时采集工作时,开启【数据还原】,还原范畴抉择【全量 + 增量数据】。

2.【数据还原】反对采集 Kafka 数据还原至上游

背景:当用户对 Kafka 数据没有实时加工的需要,只心愿能将 kafka 音讯还原至上游数据库对外提供数据服务时,能够通过实时采集配置化的形式,批量残缺此类采集还原工作,不须要一个个的保护 FlinkSQL 工作。

新增性能阐明:反对将 Kafka(OGG 格局)数据,采集还原至上游 MySQL/Hyperbase/Kafka 表,在创立实时采集工作时,源表批量抉择 Kafka Topic,指标表批量抉择 MySQL 表,再实现表映射、字段映射。

3. 工作热更新

背景:目前对于编辑批改实时工作的场景,操作比拟繁琐。须要在【数据开发】页面实现编辑后,先到【工作运维】处进行工作,而后回到【数据开发】页面提交批改后的工作,最初再回到【工作运维】页面向 YARN 提交工作。

新增性能阐明:以后更新后,反对批改「环境参数」、「工作设置」后,在数据开发页面提交工作后,工作运维处主动执行「进行 - 提交 - 续跑」操作。

4. 数据源

新增 ArgoDB、Vastbase、HUAWEI ES 作为 FlinkSQL 的维表 / 后果表,均反对向导模式。

5.【表治理】合并原有的 Hive Catalog 和 Iceberg Catalog

背景:这两类 Catalog,理论都是依赖 Hive Metastore 做元数据存储,Iceberg Catalog 只须要在 Hive Catalog 根底上,开启额定的一些配置项即可,所以将这两类 Catalog 做了合并。

体验优化阐明:创立 Hive Catalog,能够抉择是否开启 Iceberg 表映射,如果开启了,在这个 Catalog 下创立 Flink Table 时,只反对映射 Iceberg 表。

6.【工作运维】优化工作进行时的状态阐明

背景:在保留 Savepoint 并进行工作时,因为 Savepoint 文件可能会比拟大,保留工夫须要比拟久,然而状态始终显示「进行中」,用户无奈感知进行流程。并且如果保留失败了,工作仍然会始终显示「进行中」,工作状态不符合实际状况。

体验优化阐明:在保留 Savepoint 并进行工作时,「进行中」状态会显示以后持续时间,以及保留失败的重试次数。当最终保留失败时(代表工作进行失败),此时工作会主动复原至「运行中」状态。

7.【启停策略】创立启停策略时,反对强制进行配置项

背景:目前创立的启停策略,默认都是执行保留 savepoint 的逻辑。然而当保留失败时,工作不容许主动做出抉择帮用户抛弃 savepoint 进行强制进行,所以咱们将这个的选择权,放给了用户。

体验优化阐明:创立启停策略,有个强制进行的开关。

8. 血统解析

反对过滤链路节点类型,反对全屏查看,反对搜寻,工作节点反对查看状态。

9. 零碎函数

更新内置的零碎函数,同步 Flink 官网内容。

10. 其余优化项

· 数据还原:开启数据还原的实时采集工作,反对生成 Checkpoint 并续跑

· UI5.0:更新 UI5.0 前端款式

数据资产平台

1.【血统问题】冗余血统移除

背景:以后现状当存在血缘关系时,会生成两条血缘关系,此问题须要解决,否则全链路会产生十分多的冗余血统。

体验优化阐明:只展现一条血统。

2.【血统问题】关键字反对

· 当表产生 delete、drop、trancate 数据清空时,表与表之间、表与工作之间的血缘关系删除

· 当工作下线、删除时,表与表之间血统仍旧存在,表与工作之间的血缘关系删除

3.【血统问题】重合数据源

背景:标签指标对接的是 trino 引擎,离线对接的是 sparkthrift,如果不解决唯一性问题,无奈串联全链路血统。

体验优化阐明:不同链路间的血统不相互影响,然而汇总成同一链路展现。

4.【血统问题】数据源唯一性辨别

· 不同的引擎读取同一张控制台的 hive 表(如 sparkthrift、trino)

· 数据源核心建设的不同的数据源,其实是同一个数据库

5.【全链路血统】表→指标

数据资产平台已初步实现数栈外部全链路血缘关系的买通,包含表、实时工作、离线工作、API、指标、标签。

表→指标:

• 依据指标平台的【指标的生成】记录【表→指标】之间的血缘关系

• 指标的生成包含【向导模式】、【脚本模式】

• 指标平台如果有变动,比方删除、下线了某个指标,资产平台须要更新血统视图

• 反对指标的字段血统解析

6.【全链路血统】表→标签

· 依据标签平台的【标签的生成】记录【表→标签】之间的血缘关系

· 标签通过实体和关系模型创立,实体中须要关联主表和辅表,关系模型中有事实表和维表,并且关系模型可存储为理论的物理表,因而血统链路包含数据表、标签

· 标签平台如果有变动,比方删除、下线了某个标签,资产平台须要更新血统视图

· 反对标签的字段血统解析

7.【全链路血统】实时工作

· 工作类型有两种:实时采集工作和 FlinkSQL 工作,FlinkSQL 工作存在字段血缘关系

· 反对 kafka 侧的血缘关系展现

8. 血统展现优化

· 右上角筛选项:优化为多选菜单,表、离线工作、实时工作、API、标签、指标(默认选中全副维度,以后进入的维度选中且不可勾销)

• 字段血统:不展现右上角的筛选项

• 逆向血统全局提醒:

a. 进入血缘关系页面,进行全局提醒:“进入血统每个节点都可右击查看该节点的全链路血统,存在逆向可开展节点时倡议右击查看~”

b. 右击查看以后节点的血统会更残缺

9.DatasourceX:【存储】、【表行数】逻辑优化

背景:间接从 metastore 读取是不精确的,之前 flinkx 是反对通过脚本更新存储和表行数,flinkx 升成 datasourcex 之后,相干 analyze 逻辑没有带过去。

体验优化阐明:datasourcex 优化了对局部数据源的【存储】、【表行数】的脚本统计,包含 hive1.x、2.x、3.x(cdp/apache)、sparkthrift、impala、inceptor。

10.DatasourceX:【存储大小】【文件数量】更新逻辑优化

背景:数据治理新增了 meta 数据源的文件数量,又因为文件数量这个属性是 datasourcex 反对,一般的数据源也须要新增这个属性。

体验优化阐明:datasourcex 对局部数据源的【存储大小】【文件数量】的脚本统计,数据治理完结后,更新【存储大小】【文件数量】逻辑。

11. 前端页面降级

体验优化阐明

• 资产盘点

• 元数据标签页面

• 元模型治理

• 分区优化

指标治理平台

1.【demo 封装】demo 性能优化

· 数据模型反对 catalog 抉择,catalog 默认采纳 DT_demo 租户下指标绑定的 trino 数据源对应的 catalog,schema 信息默认为 dt_demo。

·「项目管理」模块展现,反对查看我的项目配置信息,反对设置 API 数据源,但不反对失常我的项目中可编辑的其余性能的批改,以保障 demo 我的项目的失常应用。

《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实际白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想理解或征询更多无关袋鼠云大数据产品、行业解决方案、客户案例的敌人,浏览袋鼠云官网:https://www.dtstack.com/?src=szsf

同时,欢送对大数据开源我的项目有趣味的同学退出「袋鼠云开源框架钉钉技术 qun」,交换最新开源技术信息,qun 号码:30537511,我的项目地址:https://github.com/DTStack

正文完
 0