共计 1758 个字符,预计需要花费 5 分钟才能阅读完成。
摘要:正值 618 大促,小张遇到了一个棘手的问题,需要在一周内将公司近 1 年电商部门的营收和线下门店经营数据进行联合分析。
这将产生哪些数据难题呢?
- 数据孤岛:电商部门的数据存在数仓 A、门店经营收入数据存在数仓 B,如何便捷的进行多仓联合分析?
- PB 级数据量:多电商平台 + 全国线下门店每天将产生 TB 级数据量,年数据量高达 PB 级!
他在第一时间联系了集团 CTO,希望将各部门数据在一天内导出给他。
这时候,CTO 犯难了:
公司现有的资源池可自如应对 TB 级数据量,而小张要的数据量粗略估计达到了 PB 级,大大超出了公司现有资源池承受范围,只能以时间为代价导出;而为了不常见场景扩大公司资源池,整体的成本太高。
面对小张遇到的棘手问题,云湖湖推荐了一款华为云大数据查询分析神器——数据湖探索 (DLI) 服务;一个 DLI 即可撬动 EB 级数据量联合查询,每 CU 仅需 0.35 元 / 小时(1CU=1Core4G Mem),1CU 包月仅需 150 元。
数据湖探索 (DLI) 服务 2.0 是完全兼容 Apache Spark 和 Apache Flink 生态的 Serverless 大数据计算分析服务,用户仅需使用标准 SQL 或程序即可查询分析各类异构数据源。
DLI 是如何解决小张问题的呢?
DLI 服务架构——Serverless
DLI 是无服务器化的大数据查询分析服务它的优势在于:
(1)按量计费:真正的按使用量 (扫描量 /CU 时) 计费, 不运行作业时 0 费用。
(2)自动扩缩容:根据业务负载,对计算资源进行预估和自动扩缩容。
DLI Serverless 架构就可轻松解决小张成本、资源不足和临时性业务需求的问题。
1、DLI 核心引擎——Spark+Flink
Spark 是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。DLI 在开源 Spark 基础上进行了大量的性能优化与服务化改造,不仅兼容 Apache Spark 生态和接口,性能较开源提升了 2.5 倍,在小时级即可实现 EB 级数据查询分析。同时,DLI 也提供用于实时处理的 Flink 引擎。
2、DLI 王牌功能——跨源分析
DLI 支持云上多种云服务、自建数据库以及线下数据库,可直接实现多数据源跨库分析,构建企业的统一视图。
小张将线下数仓 A 与数仓 B 同时接入 DLI,就可直接在 DLI 上进行联合查询。避免了两仓数据迁移再重新建仓进行联合查询的过程,轻松搞定跨库查询。
数据湖探索 (DLI) 服务的其他优势
- 纯 SQL 操作:提供标准 SQL 接口,用户仅需使用 SQL 便可实现海量数据查询分析。
- 存算分离:存储和计算解耦,分开申请和计费,降低成本的同时,提高了资源利用率。
- 企业级多租户:支持计算资源按租户隔离,数据权限控制到队列、作业,帮助企业实现部门间数据共享和权限管理
- 免运维、高可用:用户无需感知底层运维、升级、跨 AZ 高可用,跨 AZ 双活。
数据湖探索 (DLI) 服务的应用场景
1. 数据库分析 +DLI 2.0:一键建仓 保留数据库的易用体验
痛点:
(1)数据库多无法做全量分析
(2)数据库复杂关系无法查询
(3)影响在线其他数据业务
解决方案:
仅使用标准 SQL 即可完成大数据查询分析
2. 精准营销 +DLI 2.0:电商智能推荐 跨库跨源海量数据秒级查询
痛点:
(1)数据源太多怎么联合分析
(2)智能推荐需要短时间内实现
解决方案:
DLI 跨源能力,轻松打破数据孤岛。现已支持 10 类数据源和线下自建数据。
3. 日志分析 +DLI 2.0:公司必备场景 按量计费成本更低
痛点:
(1)日志分析时间跨度大
(2)资源空闲大利用率低
解决方案:
DLI 按量计费,单 CU 每小时仅需 0.35 元。
4. 实时风控 +DLI 2.0:金融、运维等实时场景 减少风险事件发生
痛点:
(1)数据刷新不及时,风险事件频繁发生
(2)需要深入了解 Flink 后台架构进行实时数据分析
解决方案:
风控系统对实时性要求很高,DLI 采用高性能计算资源,单 CPU 每秒吞吐 1 千~2 万条消息。
Serverless 大数据服务是一种面向未来的形态。随着逐个攻破当前存在的问题,它在大数据分析所占的比重一定会逐年增加。真正把大数据分析变成跟水和电一样随取随用,每个企业都能用得起的工具。华为云数据湖探索 (DLI) 服务能够助力企业轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值。
了解更多内容,可登入华为云数据湖探索 (DLI) 服务官
点击关注,第一时间了解华为云新鲜技术~