关于大数据:从13天到0天延时揭秘幸福里离线SLA保障最佳实践

26次阅读

共计 3223 个字符,预计需要花费 9 分钟才能阅读完成。

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群

“幸福里”是抖音团体旗下集内容、社区、工具于一体的房产媒体综合信息平台,致力于提供多样化房产资讯、定制找房需要。随着幸福里业务倒退,为了满足业务对于数据应用、指标观测等需要,团队疾速落地了数仓建设。但因为晚期“先建后治”,导致现阶段数据治理难题频发。

其中,异样突出的是离线数仓 SLA 提早大,高达 13 天。对于须要实时看到数据状况的经纪人、用户等人来说,延时可能会影响到数据价值的产出。

在抖音团体外部广泛应用“0987”高质量服务评估体系,即从多个维度综合论证数据中台的价值,位列第一的“0”,指的是数据中台必须保障数据稳固,实现 SLA 故障清零。而对于幸福里团队来说,SLA 高延时显然曾经成为数据治理中未解决的外围问题。

基于此背景,幸福里团队通过引入火山引擎大数据研发治理套件 DataLeap,综合推动离线数仓的 SLA 治理,将离线数仓 SLA 从 13 天升高为 0 天。本文将从策略制订、工作摸排收集、标准确定,宣贯推动等方向还原我的项目推动过程,冀望为更多企业带来 SLA 治理思考和解决方案。

业务痛点

据相干业务同学介绍,幸福里团队与其余面临 SLA 治理难题大同小异,次要蕴含以下两个方面:

第一,随着楼盘、房源、经纪人、营销等数据一直增长,在数据工作开发场景中,业务多样化、数据量大、数据工作简单等问题,导致数据工作链路依赖简单、链路长、依赖多,具体体现在:

  • 幸福里离线数仓数据源包含中台型数据,这类数据没有 SLA 保障。
  • 幸福里离线数仓数据源还包含业务 DA 以及算法类数据。以算法类数据为例,数据自身在算法团队本身队列当中,因为无奈别离出业务须要的重要数据,队列工作可能产生提早、时效性不强,另外还存在工作交接或权限到期等问题,导致这些数据无奈失去无效保障。
  • 幸福里离线数仓 SLA 链路长。相干业务人员提到,“外部最长的链路上游包含 800 多张表,这里的上游仅局限在幸福里业务外部,还不包含中台”。由此可见,上游工作数之多,且可能波及逾越多个团队沟通,要最终达成约定 SLA,老本将十分高。

第二,数据建设主导方变更,业务状态转变,导致历史包袱重、存量工作优化工作量大,这与幸福里离线数据建设历程强关联。
在幸福里数仓 1.0 阶段,数据仓库由业务方 DA 与 RD 自建,未有明确的数仓标准,数据模型较凌乱。2021 年 3 月份,幸福里业务过程及业务状态产生转变,业务主体由流量转为交易,为了满足业务高速倒退需要,数据建设以疾速落地、指标精确产出为次要指标,历史遗留问题治理较少。
随着业务倒退逐步稳固,数仓建设进入 2.0 阶段。因为数仓中大量线上数据和重要指标仍然应用 1.0 阶段的老表,导致指标口径不对立,同时也存在历史表数据无人保护的问题,导致时效性差。另外,幸福里数仓也面临存量工作优化的问题。有些存量工作运行工夫长、资源占用重大,团队亟需排查这部分问题。

解决方案

为了解决 SLA 延时问题,幸福里团队引入了火山引擎大数据研发治理套件 DataLeap,通过 DataLeap 的三大能力,造成一套连贯、可复用的治理计划,最终造成 SLA 保障全链路高效治理。具体来看:

  • 通过数据治理能力,解决工作上游承诺并签订保障 SLA 的问题。数据治理平台反对工作负责人申报工作,并疾速拉起上游实现 SLA 签订承诺,从而保障链路稳定性,这也是幸福里团队应用的外围性能。
  • 通过数据研发能力,解决 SLA 工作的基线监控问题。在工作多,依赖关系简单的状况下,很难查找到重要工作的所有上游工作并进行监控。如果监控所有工作,又会产生很多无用报警,导致有用报警被疏忽。因而,幸福里团队通过应用 DataLeap 的数据研发能力,将上游节点作为保障工作退出基线,造成须要监控的工作链路。
  • 通过数据品质监控能力,解决 Hive 表监控问题。针对某些卡点工作进行表监控,一方面保障 SLA 及时性,另一方面保障整体工作准确性。
  • 下文三个步骤,带你还原幸福里离线数仓治理我的项目全过程!

第一步:圈定 SLA 保障外围工作

幸福里团队首先依据业务需要,圈定出须要被 SLA 保障的外围工作,具体包含以下三类:

  • 线上外围工作,即间接展现给 B 端经纪人或 C 端用户的数据。
  • 治理驾驶舱数据,包含日报、周报、月报等。
  • 重点业务外围看板。例如,2022 年幸福里重点业务在福州,因而对须要对福州数据提供优先保障,确保当地经纪人、店长等业务角色能精确、疾速获取数据,以便制订相应推广策略。

第二步:制订全局保障计划

幸福里团队通过引入 DataLeap 数据治理平台,推动对外围工作的 SLA 治理工作。对于工作运行中的异样数据或突发事变,基于配置基线监控的运维能力,增强报警能力,另外通过数据品质监控平台实现外围维表及外围指标表监控,以提供更加稳固的数据服务。

在 SLA 治理环节,存在外围工作 SLA 保障有余,有产生线上业务事变的隐患问题。除此之外,SLA 工作运维报警能力有余或者 SLA 签订工夫不合理等,有 SLA 提早隐患,造成破线事变。

对于新增 SLA 工作,数据治理平台【SLA 保障】->【SLA 治理】页面,点击【发动申报】,以申报单签订的模式达成 SLA 协定,在申报签订环节中,各个环节的变动将通过告诉模块传递信息给相应负责人,实时告诉升高信息交换老本,减速了 SLA 的达成。

火山引擎 DataLeap 数据治理平台 SLA 申报页面

幸福里团队工作签订 SLA 步骤

在基线报警环节,据相干业务人员介绍,只有 34% 的外围工作配置了基线监控,导致有产生线上业务事变的隐患,同时有效报警较多,造成有效起夜、运维压力较大。

火山引擎 DataLeap 反对圈选外围工作,并依据工作近 30 天产出体现,依据近 30 天 75 分位产出工夫,产出工夫稳定方差、链路最长工作均匀时长、上游工作总数、业务冀望产出工夫等作为输出数据,产出正当基线预期产出工夫及预警 buffer 配置基线,还反对校准基线监控范畴。

幸福里团队基线报警治理思路

幸福里平台有一个关系到经纪人外围利益的“幸福分”指标。当经纪人实现相应工作时,幸福分值减少。但当维表中数据缺失,在前台反映的后果则是“幸福分”不更新,对经纪人造成困扰。另外,据业务同学介绍,之前还呈现过这样的案例:小李在数据库中的外围维度是“经纪人”,但在维表中,可能测试数据误导入或反复数据导入,导致小李对应到多个门店或对应到谬误房源。

为了解决以上问题,幸福里团队在 Hive 表监控环节,引入了火山引擎 DataLeap 数据品质监控能力。对于业务外围关注的线上工作、治理驾驶舱数据以及重点业务外围看板等数据,通过数据品质监控平台实现数据稳定监控、异样报警,防止因为数据品质导致的数据失信、决策失误等事变。

数据品质整体策略

第三步:量化 SLA 成果并复盘

在 DataLeap 数据治理平台中,SLA 大盘展板反对提供当日 SLA 整体统计信息、SLA 提早趋势剖析信息、SLA 等级散布明细、工作衰弱度明细、团队 SLA 达成信息统计等丰盛信息,是很多团队数据治理指标重要参照起源。

幸福里我的项目中的外围数据指标如 SLA 工作数量、报警数、起夜率等都体现在大盘展板中,量化我的项目推动成果,为危险判断、后续措施提供数据反对。

最终成果

自 2022 年 6 月 -12 月,幸福里离线 SLA 保障曾经实现 SLA 事变天数 0、SLA 提早天数为 0,实现“0987”高质量服务评估体系指标。除此之外,线上外围工作基线覆盖率达到 97.4%(较我的项目启动前晋升 63%)、电话报警量较我的项目启动前升高 28.4%,大大降低运维老本,保证数据稳定性。

火山引擎 DataLeap 不仅解决了离线 SLA 保障的当务之急,更为幸福里团队造成了一套规范流程和标准。在事先,应用申报流程,标准 SLA 签订;在事中,欠缺报警及时性和准确性,升高误报率;在预先,及时跟踪报警状况,欠缺问题复盘及监控机制,积淀公共解决方案,推动幸福里 SLA 治理衰弱、可继续倒退。

数据品质施行过程

点击跳转大数据研发治理套件 DataLeap 理解更多

正文完
 0