关于大数据:数据系统架构3数据仓库设计

4次阅读

共计 2519 个字符,预计需要花费 7 分钟才能阅读完成。

3. 数据仓库设计

数据仓库是为了让人人都能够低成本的应用数据,依照肯定规范打造的全量数据资料的汇合。

指标

  • 数据仓库设计的指标,就是把过来曾经产生的非结构化的日志数据转成结构化的数据与后端关系型的数据库里的数据资源进行无效的整合和存储;
  • 数据依照特定的逻辑生成不同层级的数据表,以供业务剖析人员低成本的应用数据;
  • 良好的数仓设计能够保障逻辑的复用、节约计算资源、保证数据品质,升高数据分析老本,进步数据应用效率与价值。

开发准则

  • 防止烟囱式数据开发,优先依据主题域设计对应的数据仓库表
  • 统计数据严禁从底层数据表间接统计
  • 对立库、表、SQL 标准
  • 数仓地图、逻辑文档的积淀与推广,造成共识

数仓设计

数据仓库与传统的关系型数据库,因为利用场景与实现技术的差别,数据仓库在设计的时候大多数都是违反关系型数据库三范式进行设计的开发的。

分层

ODS:数据起源层,次要蕴含业务数据库快照数据(rawdb)、埋点数据(rawdata)、其余业务等数据。

TMP:长期层,数据处理的辅助解决层,服务于 DW、DM 层,次要是一些两头后果长期存储的数据, 包含:计算工作的两头后果数据、ODS 层轻度综合和汇总统计的数据等,定期清理。

DIM:维度数据层,次要蕴含一些字典表、维度数据。实例:品类字典表、城市字典表、终端类型表

DW:data warehouse,存储通过规范规范化解决(即数据荡涤)后的经营数据,是根底事实数据明细层。实例:后端日志明细表、前端埋点日志明细表、mysql 各业务数据通过 ETL 解决后的表。

DM:data market(也叫 DWS:data warehouse service),数据主题层或者宽表层,按部门按专题进行划分,反对 OLAP 剖析、数据散发等,其信息次要来源于 DW 或 TMP 层汇总数据。实例:新激活用户业务剖析表、日活用户业务剖析表、历史激活用户业务剖析表、用户行为轨迹表、红包业务表、交易品类起源多维表、商业广告多维分析报表

ADS:application database service, 利用数据层, 面向具体利用的表,要创立在这层,可导入 hbase 或 mysql 等应用。实例:按天、小时、5 分钟粒度计算汇总的后果存入 mysql、hbase 的报表

模型

  • 星型模型:外围是一个事实表及多个非正规化形容的维度表组成。
  • 雪花模型:是星型模型的扩大,不同的是维度表被规范化,进一步合成到附加表中
  • 大星座模型:由多个事实表组合,维表是公共的,能够被多个事实表共享。星座模型是数据仓库最常应用的模型。

数据仓库标准

库标准

数据库命名(集群名_公司名_数据分层_部门)

表标准

ODS

  • raw_业务数据库表名(保持一致)_更新形式(如果增量同步加“_inc”, 全量“_full”)_工夫粒度
  • log_前端 / 后端日志_更新形式(如果增量同步加“_inc”, 全量“_full”)_工夫粒度

TMP

  • tmp_数据层类型(dw|dm)_{业务过程形容}

DIM

  • dim_维度类型(cate|city|channel|group)

DW

  • 日志:dw_log_{业务主题域}_{业务过程形容}_更新形式_工夫粒度
  • 业务数据库:dw_数据库类型(mysql|hbase|wtable|redis)_{业务主题域}_{业务过程形容}_更新形式_工夫粒度
  • 多数据源:dw_{业务主题域}_{业务过程形容}_更新形式_工夫粒度

DM

  • dm_{数据主题域}_{业务过程形容}_更新形式_工夫粒度

ADS

  • ads_{业务过程形容}_更新形式_工夫粒度

数据主题域

  • 交易:trade
  • 支出:income
  • 推送:push
  • 流量:traffic
  • 营销:market
  • 服务:service
  • 商业广告:biz
  • 渠道:channel
  • 地址:address
  • 财务:finance
  • 风控:spam
  • 竞品:compete
  • ……

更新形式 命名标准:

  • 增量:inc
  • 全量:full
  • ……

分区表表名工夫粒度 命名标准:

  • 小时(hour):1h
  • 天(day):1d
  • 周(week):1w
  • 月(month):1m
  • 季度(quarter):1q
  • 年(year):1y
  •  ……

分区字段: 日期分区对立命名为:dt,格局:yyyy-MM-dd or yyyy-MM or yyyy
非分区表表名工夫粒度前面加:对立为”_0p”

字段

字段命名标准:seller_id、buyer_id、first_from、order_source、xxx_date、xxx_time

日期字段:< 业务主体 >_date
工夫字段:< 业务主体 >_time
属性字段:属性本身英文单词; 如:status
id 字段:< 标识主体 >_id;
标识字段:is_< 标识主体 >; 如:is_true
指标字段:工夫周期 + 修饰词 + 原子指标
计次字段:< 计数主体 >_pv; 如:visit_pv
排重计数字段:< 计数主体 >_uv; 如:visit_uv
价格字段:< 业务主体 >_price; 如:pay_price
起源字段:< 业务主体 >_source; 如:order_source
比例字段:< 业务主体 >_rate; 如:gmv_yoy_rate

元数据管理

1. 形容哪些数据在数据仓库中;
2. 定义要进入数据仓库中的数据和从数据仓库中产生的数据;
3. 记录依据业务事件产生而随之进行的数据抽取工作工夫安顿;
4. 记录并检测零碎数据一致性的要求和执行状况;
5. 掂量数据品质。

脉络地图

在收集整理了各种日志、业务零碎数据之后,咱们创立了本人的数据仓库,依据数据仓库的元信息等等,咱们应该生成一个数据仓库外围脉络地图,以供其余人员荡涤明了的把握数据仓库的外围表逻辑与构造。当开发一个数据统计需要时,咱们能够疾速的定位到本人所需应用的表并清晰明了表中数据的逻辑,做到表可用、表敢用、大大降低数据仓库应用沟通老本。

实时数仓

随着技术的倒退,大数据处理一直的朝着 SQL 化,批流合一的方向倒退。咱们解决数据的速度越来越快,与之对应的就是咱们能够带来更快的数据产出,投入到对应的剖析场景当中,晋升数据时效性充沛挖掘数据价值。实时数仓能够为咱们带来以下几个有点:

  • 整体晋升数据时效性与价值
  • 接入各类实时剖析查问引擎提供实时剖析能力,比方 druid
  • 正当平滑的利用计算资源,无需在凌晨大量离线工作启动,造成资源应用顶峰、工作沉积期待。
正文完
 0