乐趣区

关于大数据:火山引擎-DataLeap数据秒级生产揭秘电商实时数仓最佳实践

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群

一年一度的「三八大促」刚刚落下帷幕,各大电商平台纷纷推出补贴、营销等玩法,力求推动持续增长。

而电商平台持续增长,离不开数据驱动,特地是实时性数据的采集、治理、监测和剖析。

例如,主播如何实时获取直播带货数据?经营如何监控促销流动流量?商家如何监控大促期间交易额以及货品库存变动?本篇文章将带你走进某电商实时数仓团队,揭秘电商场景下实时数仓教训。

实时数仓建设为电商场景精细化经营提速

“对于传统离线数仓,时效性根本为 T+1,最快也为小时级,而业务方心愿‘所见即所得’,以满足精细化经营和实时经营决策的诉求”,某电商实时数仓团队这样介绍。

除此之外,从传统离线数仓到实时数仓,也面临着不少技术难题。实时数仓依靠的流计算技术、Flink 等数据引擎技术仍然在不断完善中。在数据治理层面,实时数仓依赖的组件也十分多,从计算引擎 Flink,数据存储 MQ、在线存储 Abase、Redis、服务查问 ClickHouse,各种存储及组件都在治理范畴内导致实时数仓的建设和管理工作异样简单。

为了解决以上问题,电商实时数仓团队引入火山引擎 DataLeap 实现对数据工作托管,笼罩代码编写、调试、自测、上线以及运维等开发阶段。一方面升高了开发成本,以往流表的 DDL 须要自定义编写,DataLeap 数据地图能力使用户能够罢黜 DDL 的编写,把精力专一在业务逻辑;另一方面,在数据测试环节,DataLeap 也反对构建测试用例,使得测试逻辑更加便捷。

电商实时数仓需要对接流程图

通过准确到秒级的数据精准、疾速采集,撑持了海量电商的实时性需要,满足电商生态上下游在实时监控、实时剖析、实时营销等方面的诉求。

  • 对于商家,能够实时监测直播带货数据成果,以此调整货品上架及促销策略;
  • 对于经营人员,实时监控促销流动成果,更好进行人 - 货运营,辅以相干策略晋升 GMV;
  • 对于用户,实时获取价格变动信息、购买信息、物流信息,取得更好购物体验和售后反对。

火山引擎 DataLeap 赋能电商场景数据标签建设

电商体系不仅波及的数据量级大,数据品种更是庞杂,包含销售、库存、广告、财务等多种类型。构建数据标签体系可能迷信地组织电商数据,无效萃取和精炼数据服务,并对数据分类进行反向优化。

如何能力构建一套无效的业务标签体系?

  • 首先,从业务视角对数据进行梳理,并将各渠道、各类型的数据进行采集和汇聚,从中提炼出标签元素,大抵由以下几个局部组成:利用场景、模型分层、主题域,每个标签由若干枚举值组成。
  • 其次,依据工作的行为元素给工作打上相应的“标签”,这也是标签建设的难点。通过人工打标无疑须要巨额工作量,同时也存在人工操作误差。电商实时团队基于火山引擎引擎 DataLeap 打造了一套数据血统利用平台,在数据溯源的过程中找到工作与工作之间的分割,上游节点工作标签将主动继承给上游工作,由此实现疾速、精确标记工作。
  • 最初,引入火山引擎 DataLeap 数据开发能力实现工作标签高效治理。电商实时团队通过 OpenAPI 接口疾速接入标签治理能力,对已上线工作进行疾速标记,实现工作分类。

火山引擎 DataLeap 工作标签治理随着数字化转型提速,每一家企业都迫切希望可能变得更加高效,更加麻利,以便可能做出更理智的决策,提供更优质的服务,这也对数据处理的实效性有了更高的要求。

实时数仓作用在业务经营的诸多典型场景中,如实时报表、实时大屏、经营监控、实时营销、实时风控等。将来火山引擎 DataLeap 也将积淀更多高效、易用、便捷反对实时数仓场景的工具和能力。

点击跳转 大数据研发治理套件 DataLeap 理解更多

退出移动版