关于大数据:数据有了如何构建数据资产

本文由百度智能云大数据资深产品经理——崔宝宏在百度开发者沙龙线上分享的演讲内容整顿而成。本次分享模仿企业面临的实在场景，介绍如何利用百度大数据产品帮忙企业构建数据资产。

本次分享从以下四个环节开展：

场景介绍
架构设计
数据开发
利用开发

01场景介绍

为了让大家更好的理解这些产品的利用，首先模仿一个企业应用场景demo：
有一家中型的零售商，客户和销售数据扩散在不同零碎中。心愿通过一个我的项目买通并实现标准化、集中化的治理。治理好了之后同时心愿能把数据实现价值施展，为高层提供多维度的销售报表，维度包含：客户、产品、地区和工夫。度量包含：销售额和净利润。

企业在技术层面上有如下需要：

原始数据存储于MySQL数据库或者其余的文件中。
为了爱护原始生态系统的稳定性，不必查问源数据间接拜访生产主库。
最大解决TB级数据，须要2小时实现数据全链路解决。
报表查问秒级响应。

业务需要剖析

业务解读：

数据买通及标准化，通常依照数仓/数据集市形式实现数据治理。
高层应用多维报表须要思考页面成果以及需要高效响应，客户高层的需要除了罕用的货色之外还须要疾速的响应需要。

技术解读:

TB级别在大数据畛域属于数据量中等规模，针对大数据处理从TB到PB的数据增量的过程当中，须要思考底层将来的扩展性。
大数据量报表秒级响应依赖高性能剖析型数据库。

设计方案：

依靠多行业实践经验方法论进行构建，实现数据资产治理的集中化、标准化、稳固、历史资产爱护
为保障大规模数据处理的性能、稳定性、扩展性，应用分布式大数据根底平台BMR
为进步数据治理效率，升高数据资产构建过程门槛,应用一站式大数据开发治理平台EDAP
为保障TB级明细数据多维数据查问性能，应用MPP数据库Doris
为减速报表开发效率以及可视化渲染成果，应用可视化报表开发平台sugar Bl

02架构设计

技术架构与数据架构

基于这个业务需要，首先就要进行架构设计。技术架构其中分了三层：

最底层有存算引擎，包含托管大数据平台BMR和数据仓库Doris。
开发平台是面向开发者进步开发效率的工具——数据湖治理与剖析EasyDAP。
面向高管驾驶舱报表的Sugar BI。

这就是产品层面的技术架构。

右侧是数据架构，数据要从原始的生产零碎外面数据库拿进去，所以数据架构的源数据在MySQL或者文件里。
在构建数仓的过程中要进行大规模的ETL解决，一部分要进行基于数仓的实时查问，所以应用了BMR外面的Hive以及Doris这两款存储引擎来实现数据的存储和数据的加工。
最上层生成的报表有UI层面的页面数据。
整体的数据架构也是分三层：源数据、仓内数据、页面数据。

数仓构建

技术架构之外，还须要进行数仓构建。
数仓构建的外围就是数据要以一种标准化、规范化、统一化的模式把数据管理起来。
这里引入主体域的概念：什么数据应该存在哪个主题下，具体到不同的业务外面应该怎么划分主题。
划分计划是：实体、事件和形容，能够主观的把日常生活中各种各样的业务用这三个关系表达出来。
举例一个业务场景，比方某人去超市购物，商品或者人就是一个实体，在购物的过程中比方刷卡这是事件，所谓事件就是什么工夫什么地点什么人做了什么事，它是一条事务性的记录，它在做这些事件的过程当中有这样一些定语相干的对他进行形容。
回到构建的场景外面来，这是一家中型的零售商在进行产品的售卖，实体有客户实体、产品实体和合同实体。事件是在购买产品的过程当中有征询、购买和投诉，依照这样的分类形式就把主题域划分分明了。

数据模型分层架构

把模型划分好了之后须要对ETL中数据进行分层。
右边是最通用的分层形式：从ODS层，到DWD层，再到DWA层，最初到ADS应用层，这也是市面上支流的厂商提供的数据分层的构造。咱们认为这样的分层形式尽管通用，然而不够细化，对于一些精细化的数据管理应该是依照7层的数据流架构，这样可能涵盖所有的加工过程。
在数据流架构之中，SRC是元数据层。ODS是贴源层，贴源层和SRC实际上就是实现数据上的解耦，数据层面是一个镜像级的拷贝，目标是实现对所有生产型业务零碎的备份。
DWD是规范明细层，从数据粒度上讲是相似的，从数据的定义上是实现了统一化。
DWA是将数据进行加工汇总。DMA寄存个性化的应用。之后将不同指标的计算形式拆分成两层比方报表层和剖析层以及最外层的展现层，在构建当中能够灵便的抉择须要哪一层。

03数据开发

开发程序

开发过程当中，须要进行大规模数据的存储和计算，所以须要一款大数据引擎BMR，建数仓的外围是BMR外面的Hive，基于Hive数据在应用层须要做多维的秒级的实时响应查问，所以须要一款高性能的剖析型数据库Doris，开发过程中应用EasyDAP，报表制作应用Sugar BI。

为什么要用BMR?

有十分丰盛的组件，不仅是能够实现结构化的数仓，还能够反对实现数据湖的搭建。
高性价比的产品，能够应用更小的资源进行更大规模数据的解决，用更少的存储来存更大量级的数据，等同规模下老本会越来越低。
能够高效运维，整个平台就是页面是全托管的应用形式，不须要在底层写命令来做运维监控，所有的货色都能通过控制台来实现。
十分安全可靠，有各种各样的平安认证，有行列级别的数据权限，在数据的加密脱敏方面有固定的组件撑持，用户的所有操作都能够通过审计。

Hive库表创立

进行BMR的集群构建和库表的创立，须要把Hive表建设起来。在建Hive表的过程当中，须要把Hive表的集群搭建起来，其中有这么几个步骤：

第一步是集群创立，过程当中要抉择一些必要的组件比方Hive、Spark。选好之后须要进行队列的治理，可能最大力度保障外围工作疾速跑完，所有的队列创立好了之后，在理论运行过程中是须要去检测有没有一些运行中呈现的服务异样，或者服务异样之后的报警性能。
第二步要进行Hive库表的创立，建设一些数据库如ODS库、DWD库和DWA库，建表过程当中，每一层的库都遵循建表的标准。

Doris产品个性

Doris产品其实是高性能的MPP数仓，它的个性有以上几点。

Doris建库建表

在Doris上须要建设好DMA，建库的过程只须要creat_database 命令，而后通过可视化的页面就实现了，建完库之后须要把DMA外面的表创立好，建表标准与DWA和DWD统一，都是依照主题域而后特定的业务实体来表白。
在这个建表的过程当中能够指定哪些表是维度，所谓维度就是说能够用来做聚合，把聚合的字段定义好之后，那么在这张表的写入过程当中，程序就会默认帮你把底层多维穿插的分组数据在指标层面做了分组和统计，当咱们去查问这两个维度下对应的指标数据的时候，这曾经不是一个实时计算的过程而只是一个实时查问的过程，所以它能实现数据的疾速响应。
最初建完表之后要把数据疾速导入，Doris和支流的Hadoop生态是兼容的，Hive建完仓之后，数据其实是放在HDFS中，所以只须要把HDFS导入就能够了。

EasyDAP产品个性

用这些根底的引擎构建完之后，在开发的过程中是须要把ETL工作流通过一款产品来实现，这款产品就是EasyDAP。

能做数据集成、数据凋谢、数据分析和数据服务。它的个性就是能够把Doris的Hive当作数据源引入进来，把BMR的计算引擎当作计算资源引入进来。
提供了一个低门槛的开发方式，在开发的过程当中不须要写代码，通过利落组件就能够实现。
十分安全可靠，在这个平台内所有的操作都是通过审计日志的，表的拜访也都是有受权的。
十分凋谢兼容，除了可能对接百度的Doris、Hadoop，还可能对接市面上其余厂商开源的Hadoop生态。

数据源配置

在EasyDAP进行数据开发的过程当中，第一步就是要把原始数据引入到数仓外面，在平台上创立一个计算资源，而后再把源MySQL的JDBC配置好，把指标的Hive JDBC配置好，就能够实现一些根底的操作。从权限上来讲，这些操作都应该是管理员来操作的，开发人员进来之后只须要进行开发就行，由管理人员来进行这些根底的配置。

数据开发阶段

把以上根底配置好之后就进入数据开发阶段。首先创立开发我的项目，而后绑定我的项目须要应用的资源，最初须要把开发人员进行受权治理。

编写数据集作业，数据写入Hive ODS库表中

把根底的治理相干的工作做完之后，就是理论开发人员进入平台进行ETL开发。图中的例子里想要把MySQL外面的数据集成到Hive里，第一步就是要把MySQL外面的原始数据放入到Hive的ODS层。
举例说明：MySQL外面有两个库，一个是CRM库，一个是MARKET库，CRM库外面有一种表是客户根本信息（CUST_INFO），MARKET库外面也有一种表是客户明细信息（CUST_DETAIL），同时MARKET库外面还有合同信息（CONTRACT_INFO）。在Hive外面的话就是依照Hive的命名标准，原始库名+原始零碎名+原始表名。
加工的过程当中，能够有几种加工模式，第一个用可视化开发工具，第二用脚本开发。

线上监控以及告警解决

配置调动实际上就是来执行异样告警，失败重做，以及日常的日志排查，同时也反对手工的执行。

Hive仓内开发

把原始数据库里的数据写入到Hive的ODS层后，须要在Hive外面做仓内开发，也就是要把数据从ODS层写入DWD层写入DWA层，因为Hive反对丰盛的数据生态，所以应用HQL来实现。
右边这张图，ODS中有三张表，在加工进入DWD中是要把两个客户的根本信息做对立，写入到DWD的客户主题下的信息表，而后销售合同外面的合同信息在主题域外面认为是一个订单，所以在事件主题上面有一个订单表。
加工好了之后就要做汇总层，其中包含天级、月级、季级和年级。

写入Doris

到了DWA之后，下一步要写入Doris，在DWA和DMA外面其实只是做数据的转储，指标是为了响应实时的数据查问。只须要将数据源抉择Hive，将数据指标抉择Doris，而后把图配好之后，就能够把数据生成了，也能够应用底层脚本的形式，应用Doris的命令也能够把Hive外面的数据写入Doris外面。

以上是老师的全副分享内容，有问题欢送在评论区提出。

往期举荐
🔗
可视化神器背地的神秘
6000字，详解数据仓库明星产品背地的技术神秘
3个步骤，4大平台，搞定大规模数据处理

关于大数据:数据有了如何构建数据资产

01场景介绍

业务需要剖析

02架构设计

技术架构与数据架构

数仓构建

数据模型分层架构

03数据开发

开发程序

为什么要用BMR?

Hive库表创立

Doris产品个性

Doris建库建表

EasyDAP产品个性

数据源配置

数据开发阶段

编写数据集作业，数据写入Hive ODS库表中

线上监控以及告警解决

Hive仓内开发

写入Doris

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:数据有了如何构建数据资产

01场景介绍

业务需要剖析

02架构设计

技术架构与数据架构

数仓构建

数据模型分层架构

03数据开发

开发程序

为什么要用BMR?

Hive库表创立

Doris产品个性

Doris建库建表

EasyDAP产品个性

数据源配置

数据开发阶段

编写数据集作业，数据写入Hive ODS库表中

线上监控以及告警解决

Hive仓内开发

写入Doris

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复