关于大数据:火山引擎-DataLeap3-个关键步骤复制字节跳动一站式数据治理经验

30次阅读

共计 5563 个字符,预计需要花费 14 分钟才能阅读完成。

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,并进入官网交换群

DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮忙用户疾速实现数据集成、开发、运维、治理、资产、平安等全套数据中台建设,升高工作老本和数据保护老本、开掘数据价值、为企业决策提供数据撑持。

本篇文章次要围绕火山引擎 DataLeap 一站式数据治理实际开展分享,从数据治理思路、平台建设以及能力降级三个步骤登程,带你全面复制字节跳动数据治理教训。

▌时机与挑战

数据治理存在落地艰难的问题,体现在:
首先,治理效益与业务影响存在矛盾。数据治理须要对业务零碎、生产流程革新,由此对业务造成影响。

第二,治理波及的组织和治理难度大。数据治理波及的角色多、范围广、链路长,且治理指标对齐、治理和跟进难度大。

第三,标准“人”的动作难度大。数据治理要依附人来推动和执行,人员能力参差不齐,组织文化、指标也存在不对齐的状况。

第四,不足适配性强、全局视角且灵便的数据治理工具。

上面联合字节的特点,介绍数据治理工作的时机和挑战。

  • 字节文化
    首先,字节业务多、倒退快、麻利迭代,要求能疾速响应业务需要;
    第二,OKR 文化使得每个人都能够参加制订数据治理布局和策略,并且被动寻找实现门路;
    第三,为谋求高效治理,没有设立对立的数据治理委员会,而是由各部门依据各自的业务状况进行治理。
  • 业务第一
    字节业务规模大,且强调数据驱动,导致数据品质对业务的影响十分大。
    综上所述,数据治理在字节是挑战时机与并存的工作。

▌3 个关键步骤,复制字节跳动数据治理教训

步骤一:翻新数据治理思路——分布式数据自治

什么是分布式自治?

针对上述问题,综合思考治理收益、业务影响、执行效率,火山引擎 DataLeap 提出了分布式数据自治的思路。首先,在业务影响方面,为保障影响小,治理工作依照业务单元进行。一个业务单元可能是一个小团队或者小我的项目。

第二,积淀各业务线治理教训,晋升治理效率。

  • 通过产品辅助业务自驱,实现规则化、策略化、自动化治理。
  • 通过低门槛、算法举荐等平台能力,升高治理门槛。
  • 反对灵便的治理形式,如管理者视角,自上而下布局性治理;如一线执行者视角,自下而上推动治理。

第三,适配性强,产品建设笼罩治理全链路。

  • 产品能力笼罩稳定性、品质、平安、老本、报警等多场景。
  • 各模块能够独立应用、按需组合。
  • 产品提供残缺的开发能力,反对业务依据本身特点和倒退阶段自行接入。

与集中式治理的区别

与传统集中式治理相比,分布式治理有很多劣势。

  • 集中式治理:要求制订制度,并进行大范畴组织推广;要求划分权责,定期抽查考核;建设周期长,适配能力弱,且组织投入多。
  • 分布式自治:业务影响小;周期短,见效快;效率高,节俭人力;便于算清业务收益,降低成本。

步骤二:构建一站式平台,引入数据治理双门路

一站式数据治理平台架构

DataLeap 一站式数据解决方案,次要划分为三层。

  • 第一层 视图层
    从资产视角、管理者视角、实施者视角纵览数据治理的状况。
  • 第二层 计划层
    针对治理过程,提出了双门路。
  • 门路一【被动布局】布局式流程
    次要解决的问题是确定指标后,如何推动执行的问题。被动布局门路还反对治理指标拆解成治理规定进行诊断,并依据诊断后果,执行治理。最初,通过收益统计、改良打算等进行总结复盘。
  • 门路二【零碎发现】响应式流程
    先由零碎发现问题,再通过告警等模式告诉资产责任人,并进行解决。最初通过根因剖析等实现总结。
  • 第三层 工具层
    工具层次要为视图层、计划层提供齐备的治理工具,笼罩品质、平安、老本、稳定性、报警与起夜等场景。工具层还通过买通根底服务,赋能被动布局和零碎发现两条治理门路。

实用于业务驱动的布局式流程

接下来为大家介绍布局式门路的具体建设过程。

特点:资产清晰,规定丰盛,动线残缺,收益精确。
思路:

  • 制订指标,包含衰弱分指标,以及升高存储、计算资源等。
  • 依据指标制订治理计划,明确治理域、圈选治理规定。
  • 制定方案后,由零碎主动查问存储、计算等问题的明细,通过剖析后,通过音讯催办等形式,将问题下发到责任人,推动数据治理。
  • 零碎主动对治理成果进行采集,反馈指标达成状况,并对一段时间内的治理后果进行验收和统计。

以上是布局式流程的主线思路。
上面介绍如何实现布局式门路的次要实现伎俩。

资产清晰

DataLeap 次要从治理全景和衰弱分两个方面对资产进行形容。
第一,治理全景。从各个维度,通过明细、统计量,对团队或集体资产的具体情况进行形容。如各个表占了多少存储空间,计算资源应用状况,工作报警率、起夜率,数据及时性和品质等。
第二,衰弱分。次要依据治理的垂直方向划分为存储衰弱分、计算衰弱分、品质衰弱分三个层级。在第一层的维度下,第二层细化问题大类,如存储方面,包含:有效存储、异样存储等;品质方面,包含:及时性、报警、元信息配置标准等。第三层则将具体问题通过标签定义,如有效存储波及 TTL 不合理、热度方面信息 (xx 天无查问) 等。综上,次要通过衰弱度和治理全景将资产清晰地表述进去,再通过元数据仓库进行底层数据建设。

规定丰盛

目前平台具备了齐备的治理规定,涵盖存储、计算、品质、报警 4 大维度,50 多个规定。

其中包含全局规定,如:生命周期永恒、近 7 天产出为空、暴力扫描工作等;也包含一些自定义的规定,如生命周期 xxxt 天,近 xxx 天产出为空等。同时还兼具开掘类规定,包含基于统计信息进行聚合后造成的规定,以及基于资产(包含库、表等)相似性发现问题的规定。

DataLeap 治理规定次要通过以下流程建设起来。

  • 首先,通过底层与平台根底组件买通,实现数据收集,造成数据仓库的根底层;
  • 其次,基于根底层对数据资产进行画像形容,进一步造成特色域,做特色开掘和关联剖析;再将利用数据放到数据服务中,对外提供灵便的数据查问能力。
  • 最初,通过最上层的规定引擎,将数据和规定进行联动,利用于规定建设。

动线残缺

明确出问题的资产后,如何尽快实现治理,缩小和业务的抵触,对于提高效率至关重要。

基于治理平台的能力,联合各个垂直场景,DataLeap 建设欠缺的治理动线。大抵的思路如下:

  • 工作治理方面,与工作开发、工作运维平台买通,反对工作敞开、调整、调参,链路优化等;
  • 库表标准方面,和元数据平台联动,实现表治理、库治理、资产移交、属性批改等;
  • 生命周期方面,通过治理平台将底层存储(包含 hdfs、hive 等组件)买通,造成闭环式治理;
  • 在数据品质方面,波及 sla 及时性,离线、实时数据监控等,通过与品质规定平台强联动,相互注销数据,进行 sla 签订以及强跳转交互等。

残缺的动线能使用户在平台中,以低操作老本实现一站式闭环治理。

收益精确

实现治理后,如何判断治理收益?

目前 DataLeap 建设了基于事件核心的底层框架。通过定义数据的生产模型,由音讯通道来定时收集各个平台操作的音讯;同时,通过定义事件 SDK, 兼容 API 的形式,来灵便对接上游不同平台。

通过音讯订阅和生产的形式,数据治理平台和研发平台、元数据平台、品质平台等实现对接,将治理事件接入事件核心,并将事件核心的离线数据 dump 到数据仓库,进行离线加工,同时咱们也会将最新事件,注入在线元数据服务中,及时实现治理收益计算。

技术架构

在技术架构层面,遵循以下准则:对立数据查问、规定灵便组合、操作解耦、治理收益精确。

  • 平台后端负责散发和转换治理逻辑,包含查数、设置指标、衰弱分展现与透出,治理操作等;
  • 依据获取的音讯后,后端平台进行具体事件拆分。举个例子,在看板类查数的局部,需要将对立发送到查问服务实现底层存储做适配,通过点查、list、聚合类查问,并在解析后选取不同的底层存储。
  • 规定引擎服务可与数据查问服务联动。通过数据查问服务获取数据,再通过规定定义成标签,并形象成服务。该服务能够对外提供对资产标签形容,并成为通用能力。
  • 数据治理具体实施被对立形象成后盾模块,包含设置音讯、设置 ddl、进行删除等。由该模块下发到组件层进行操作,再通过事件收集服务,并返回数据查问服务,实现治理收益汇总。

实用于教训积淀的响应式流程

特点:预先治理、问题总结、教训积淀。

  • 思路:首先,接到报警和音讯,包含 sla 破线、数据品质报警、计算工作报警等;
  • 其次,零碎将上述音讯汇总,并展现在治理平台中。数据开发人员通过治理平台进行音讯检索、问题归因,并实现根因打标,把问题具体定位到组件、平台等颗粒度;
  • 再次,通过公司组织形式找到组件侧对接人,或通过组织会议将问题提交给相干责任方,推动对方实现保障;
  • 最初,列出零碎中的问题形容、改良打算,定义问题并剖析治理成果,并在问题解决后,推动计划分享、积淀和复用。

响应式治理架构与布局式治理大部分相似,最大区别在于音讯服务局部。作为根底能力,音讯服务将大数据平台相干产品中的音讯,接入对立服务中,成为所有报警音讯入口。并且音讯服务还能够做降级策略,如音讯聚合、音讯加急等。

** 步骤三:凋谢接入、智能化数据治理能力降级

凋谢接入

业务有各自倒退阶段以及不同治理指标。例如,新兴业务外围关注 sla 的能力;而成熟业务,则更器重规范性。如何防止一刀切,让不同业务需要都能通过同一个治理平台满足?凋谢能力很重要。也就是说,要构建数据治理生态,让业务能够自定义接入治理规定,并施行治理。

以后阶段,咱们将数据治理分为四个象限,横坐标为元数据(三方元数据、规范元数据),纵坐标为规定(表达式、算法包)。

  • 第一象限 & 第二象限:第一象限次要为定义规范元数据和对立表达式,通过规定引擎间接适配。如果业务方存在第三方元数据接入已定义规定,则如第二象限所示,接入的第三方元数据须要遵循接入规范,并通过规定引擎实现适配。
  • 第三象限 & 第四象限:如果规定局部要进行类似度计算,且不是表达式能够形容的规定,则被定义为算法包或逻辑单元。如第三象限 & 第四象限所示,要求定义输出、输入规范,通过调用包或插件形式,执行逻辑。

整体而言,将平台能力凋谢,让业务接入本身的规定和数据,根底是治理平台有欠缺的元数据格式和接入规范。业务方只需负责加工本身接入局部,实现配置和数据映射,通过表达式或算法包计算后,实现对立输入。目前,上图的凋谢接入能力正在开发当中,将来将对外提供服务。

智能化能力

接下来介绍智能化能力,该能力能够进一步升高治理老本,进步治理效率。代表性落地场景如下:

工作 SLA 签订举荐

  • 问题:在 SLA 签订中,工作上下游可能存在上千个节点,如何预计产出工夫?
  • 解决思路:目前次要通过血缘关系找到节点的要害门路,基于运行工夫进行权重调配,确保节点有绝对正当的 SLA buffer。在举荐签订环节,DataLeap 目前曾经申请专利,并在生产中产生肯定成果。第二期将基于运行失败概率分布状况来调整上游 buffer 压缩,上游 buffer 宽松的问题。

动静阈值监控

  • 问题:数据量失常散布,但短期异样化的状况。如流量日志在假期或流动日,呈现失常突增或突降的状况。
  • 解决思路:惯例的数据品质监控通常限定绝对值阈值,如历史 7 天稳定率等,容易造成假期或流动日误报警,给值班人员造成不必要的打搅。DataLeap 提出了动静阈值的思路:基于数据历史状况,演绎出不同散布状况,并提供不同的预测办法。例如,动静阈值预测整个表在某一天的量级状况,而后基于数据量级设置高低阈值,超出阈值再进行报警或音讯告诉。

数据分布:数据量枯燥不减,大部分为快照表或全量表;假期或流动日可能呈现数据量突增或突降,往往为日志类表时;数据量比较稳定,维度发生变化时,能反馈出肯定问题,往往是维度表。
预测办法:挪动平均法、指数平滑法、自回归法、同期检测法。

有类似工作辨认
问题:因为业务宏大、开发人员多、任务量大,在开发过程中,存在不晓得线上是否存在相似工作的问题,在跨团队状况下更显著,因而工作检测十分必要。

解决思路:DataLeap 的基本思路是将指标源代码和待检测源代码 sql 的 ast 序列化和向量化,对特征向量做余弦类似度计算,通过产品进行计算结果透出,再由业务实现标注,通过人工确认剖析,对工作进行合并或下线。

以上是 DataLeap 在智能化方面的一些摸索。

架构总结与将来瞻望

架构总结

最初总结一下,平台总体架构分为三层。

  • 产品层,从管理者视角和执行者视角做出辨别。在具体治理过程中,遵循双门路形式:
    布局式治理:指标制订、规定圈选、治理施行、收益统计、经验总结
    响应式治理:订阅音讯、发现问题、施行治理、注销问题、复盘总结
  • 服务层,也称为整体服务逻辑层,拆分了数据服务、工作执行、音讯服务、事件核心等不同模块,特地是接入服务模块,可能提供凋谢能力。
  • 数据组件层,作为根底建设层,包含元数据仓库建设、大数据组件适配等。

将来瞻望

将来瞻望次要包含三个局部。

  • 体验打磨
    在平台建设阶段,DataLeap 曾经建设比较完善的能力,并在外部无效利用。接下来,咱们会持续贯彻双门路的建设形式。在布局式门路上,使资产更清晰、规定更丰盛,进一步打磨动线,进步收益准确性。在响应式门路上,除了问题注销、归因外,后续将次要针对总结演绎、教训积淀进行建设,使字节外部治理教训更好地复用到其余业务方。
  • 凋谢能力
    分布式自治的理念,保障业务能够自定义指标,并对齐 SLA。后续,咱们将从三个方面继续凋谢能力:
    自定义指标,比方自定义衰弱分、自定义组织,使不同业务能够本身状况定义衰弱分的组织模式和形容。
    自定义计划,进一步打磨自定义规定的接入流程,并将规定能力凋谢,反对业务调用,并实现本身资产剖析。
    买通业务,以业务视角对待问题,针对业务问题和需要,欠缺平台建设。
  • 增强型数据治理
    目前 DataLeap 大部分都是统计类规定,正在建设开掘类规定。后续会在智能化模型建设方面,做更多预测剖析。

以上介绍的一站式数据治理能力和实际,目前大部分已通过火山引擎 DataLeap 对外提供服务,点击跳转大数据研发治理套件 DataLeap 理解更多

正文完
 0