关于数据:智能数据构建与管理平台Dataphin的前世今生缘起

52次阅读

共计 2356 个字符,预计需要花费 6 分钟才能阅读完成。

简介:阿里巴巴提出的 OneData 方法论帮忙企业捋清了数据全生命周期的治理思路,更将其植入到产品 Dataphin(智能数据构建与治理)中,通过阿里云为企业提供服务。

Dataphin 智能数据构建与治理平台

面向各行各业大数据建设、治理及利用诉求,一站式提供从数据接入到数据生产全链路的智能数据构建与治理的大数据能力,包含产品、技术和方法论等,助力打造规范对立、死记硬背、资产化、服务化、闭环自优化的智能数据体系,以驱动翻新。
Dataphin 产品中转:https://www.aliyun.com/produc…

艰难是最好的教练

阿里巴巴从 2008 年开始建设自有的大数据体系,致力于构建好数据服务多样的业务。一路上,经验了各种各样的艰难。

技术陷在长期取数不可知:阿里外部已经通过建设专门的“长期取数需要管理系统”,给每个业务线调配长期取数的工夫额度,每次还没到月底, 额度曾经为零,业务同学追着数据技术同学加班取数的状况时有发生 …… 为了扭转这一场面,专门建设了“业务人员 SQL 技能培训”,心愿用这样的形式让业务人员本人把握长期取数技能,美其名曰“赋能”。而这背地的实质是:资源。

数据口径定义有差异:已经就因为数据口径差别,差点造成商家损失。商家在后盾看到的数据预测,显示能够达到流动报名要求,于是提前备货,筹备大干一场,然而最终报名却没有通过,起因是小二侧的数据口径与商家侧的数据口径不统一,小二零碎评估商家的数据未达标,导致不通过。尽管最终通过协调解决了问题。但这背地的实质是:规范。

加班做报表,汇报还被骂加班取数是常态,通常取数破费 2 - 3 小时,而之后的核查差别则要花费微小精力,动辄 1 - 2 天;最初的汇报环节,也会因为一些口径差别及数据品质问题造成难堪,甚至会呈现谬误数据导致决策失误的状况。这背地的实质是:品质。

除了上述这几个典型的场景,阿里巴巴也曾因业务增长而呈现数据量暴发增长,对数据不治理不治理,意味着数据的存储和计算成本一直攀升。老本,也是大数据畛域面临的艰难之一。

摸索中前行,实战中积淀带着克服困难的信心,阿里巴巴开始了 B2B 业务数据建设、电商业务数据建设、阿里系业务数据建设。过程中,边摸索、边积淀、边前行,通过更体系化的数据建设晋升数据品质,升高数据重构的危险,晋升数据服务的效率。经验近十年的打磨,基于实战,阿里巴巴积淀了 OneData 大数据建设的方法论(OneModel+OneID+OneService)。OneModel 通过对数据体系化架构、数据元素标准定义、数据指标结构化拆解,对数据进行对立的构建及治理;OneID 通过建设实体对象、对象相干的行为数据及标签构建办法,对企业的外围商业因素进行资产化;对数据资产进行对立的主题式数据单元构建,配置构建数据 API 并提供 API 服务,以晋升数据资产生产的便捷性,晋升数据资产价值。

克服痛点 发明当先的大数据能力

随着寰球数字化过程的减速,企业面临着更加严厉的市场竞争,而数智化转型所遇到的窘境也曾是阿里巴巴最后之痛。于是,阿里云数据中台应运而生,与各行各业的企业在数据畛域发展了单干,解决企业凸显的数据问题:

●数据规范问题:烟囱式开发及部分业务服务撑持,导致指标同名不同口径问题频发;历史上不同业务零碎逐渐迭代上线,雷同对象属性编码不统一等问题突出;

●数据品质问题:反复建设导致工作链简短、工作繁多,计算资源缓和,数据时效性不好;口径梳理定义的文档积淀到开发代码实现之间存在脱节,数据准确性保障危险高;

●需要响应问题:烟囱式开发周期长、效率低,面向利用的服务化有余,导致业务响应速度慢,业务不称心的同时技术又感觉没有积淀与成长;既懂业务又懂数据的人才有余,需要了解到开发实现波及大量沟通,服务效率较差;

●老本资源问题:烟囱式开发的反复建设节约技术资源;上线难下线更难,源零碎或业务变更不能及时反映到数据上,加之数据不规范,研发保护难上加难的同时,大量无用计算和存储造成资源节约。

阿里巴巴提出的 OneData 方法论帮忙企业捋清了数据全生命周期的治理思路,更将其植入到产品 Dataphin(智能数据构建与治理)中,通过阿里云为企业提供服务。Dataphin 除了大数据处理全链路波及到的数据集成、开发、公布、调度、运维能力,同时提供了数据标准定义、逻辑模型定义、代码自动化生成、数据主题式服务能力,高效地实现好数据的构建。

Dataphin 产品外围模块

Dataphin 自 2018 年问世以来,已倒退出了饱满的大图,到目前为止经验了多轮大版本升级,产品外围的能力模块清晰浮现。

1、环境适配

最底层为 Dataphin 的环境适配能力。Dataphin 反对不同的云环境,为不同规模以及不同部署要求的客户提供不同的抉择,包含公共云多租户、公共云 VPC、专有云企业版及麻利版,以及本地 IDC 部署。

2、引擎反对

在云环境之上,依据不同的云环境能够反对不同的计算引擎。离线的计算引擎包含阿里云 MaxCompute,Hadoop 生态引擎包含阿里云 E -MapReduce、CDH5、CDH6、以及行将反对的 FusionInsight、CDP 等。实时计算引擎反对阿里云 Blink 和 Flinkvvp。开源版本的 Flink 也行将反对。

3、数据构建

基于不同的云环境和计算引擎,Dataphin 提供了大数据处理全链路波及的数据集成、开发、公布、调度、运维能力,提供了数据标准定义、逻辑模型定义、代码自动化生成、主题是查问的数据构建能力。

4、资产

Dataphin 提供了配套的资产地图、资产血统、资产品质治理和监控、资源老本治理和提效的资产治理能力,并提供了配置化的资产服务研发和治理能力,可将数据资产疾速服务业务、反哺业务。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0