关于数据:美团酒旅数据治理实践

60次阅读

共计 11168 个字符,预计需要花费 28 分钟才能阅读完成。

数据已成为很多公司的外围资产,而在数据开发的过程中会引入各种品质、效率、平安等方面的问题,而数据治理就是要一直打消引入的这些问题,保障数据精确、全面和残缺,为业务发明价值,同时严格管理数据的权限,防止数据泄露带来的业务危险。数据治理是数字时代很多公司一项十分重要的外围能力,本文介绍了美团酒旅平台在数据治理方面的实际。

一、背景

1. 为什么要做数据治理

随着挪动互联网的衰亡,线下商业活动逐步开始向线上化发展,数据的产生速度有了极大的晋升。越来越多的公司开始意识到数据的重要性,并将其打造成为公司的外围资产,从而驱动业务的倒退。在数据相干的畛域中,“数据治理”这个话题近两年尤为炽热,很多公司特地是大型互联网公司都在做一些数据治理的布局和动作。

为什么要做数据治理?因为在数据产生、采集、加工、存储、利用到销毁的全过程中,每个环节都可能会引入各种品质、效率或平安相干的问题。在公司晚期的倒退阶段,这些数据问题对公司倒退的影响并不是很大,公司对问题的容忍度绝对也比拟高。然而,随着业务的倒退,公司在利用数据资产发明价值的同时,对数据品质和稳定性要求也有所晋升。此外,当数据积攒得越来越多,公司对数据精细化经营水平的要求也随之进步,会逐步发现有很多问题须要治理。

同时,在数据开发的过程中也会一直引入一些问题,而数据治理就是要一直打消引入的这些问题,保障数据精确、全面和残缺,为业务发明价值,同时严格管理数据的权限,防止数据泄露带来的业务危险。因而,数据治理是数字时代很多公司一项十分重要的外围能力。

2. 须要治理哪些问题

数据治理是一项须要长期被关注的简单工程,这项工程通过建设一个满足企业需要的数据决策体系,在数据资产治理过程中行使权力、管控和决策等流动,并波及到组织、流程、管理制度和技术体系等多个方面。一般而言,数据治理的治理内容次要包含上面几个局部:

  • 品质问题:这是最重要的问题,很多公司的数据部门启动数据治理的大背景就是数据品质存在问题,比方数仓的及时性、准确性、规范性,以及数据利用指标的逻辑一致性问题等。
  • 老本问题:互联网行业数据收缩速度十分快,大型互联网公司在大数据基础设施上的老本投入占比十分高,而且随着数据量的减少,老本也将持续攀升。
  • 效率问题:在数据开发和数据管理过程中都会遇到一些影响效率的问题,很多时候是靠“自觉”地堆人力在做。
  • 平安问题:业务部门特地关注用户数据,一旦泄露,对业务的影响十分之大,甚至能左右整个业务的生死。
  • 规范问题:当公司业务部门比拟多的时候,各业务部门、开发团队的数据规范不统一,数据买通和整合过程中都会呈现很多问题。

3. 美团酒旅数据现状

2014 年,美团酒旅业务成为独立的业务部门,到 2018 年,酒旅平台曾经成为国内酒旅业务重要的在线预订平台之一。业务倒退速度较快,数据增长速度也很快。在 2017 到 2018 两年里,生产工作数以每年超过一倍的速度在增长,数据量以每年两倍多的速度在增长。如果不做治理的话,依据这种靠近指数级的数据增长趋势来预测,将来数据生产工作的复杂性及老本累赘都会变得十分之高。在 2019 年初,咱们面临着上面五种问题:

  • 数据品质问题重大:一是数据冗余重大,从数据工作增长的速度来看,新上线工作多,下线工作少,对数据表生命周期的管制较少;二是在数据建设过程中,很多应用层数据都属于“烟囱式”建设,很多指标口径没有对立的治理标准,数据一致性无奈进行保障,同名不同义、同义不同名的景象频发。
  • 数据老本增长过快:某些业务线大数据存储和计算资源的机器费用占比曾经超过了 35%,如果不加以控制,大数据成本费用只会变得越来越高。
  • 数据经营效率低下:数据应用和征询多,数据开发工程师须要破费大量工夫一对一解答业务用户的各种问题。然而这种形式对于用户来说,并没有晋升数据的易用性,无奈无效地积攒和积淀数据常识,还升高了研发人员的工作效率。
  • 数据安全不足管制:各业务线之间能够共用的数据比拟多,而且每个业务线没有对立的数据权限管控规范。
  • 开发标准规范缺失:晚期为疾速响应业务需要,研发人员通常采纳“烟囱式”的开发模式,因为不足相应的开发标准束缚,且数据工程师的工作思路和形式差异性都十分大,导致数据仓库内的反复数据多,规范性较差。当产生数据问题时,问题的排查难度也十分大,且耗时较长。

4. 治理指标

2019 年,美团酒旅数据团队开始被动启动数据治理工作,对数据生命周期全链路进行体系化数据治理,冀望保障数据的长期向好,解决数据各个链路的问题,并保持数据体系的长期稳固。具体的指标蕴含以下几个方面:

  1. 建设数据开发全链路的标准规范,进步数据品质,通过系统化伎俩治理指标口径,保障数据一致性。
  2. 管制大数据老本,防止大数据机器老本收缩对业务营收带来的影响,正当控制数据的生命周期,防止数据反复建设,缩小数据冗余,及时归档和清理冷数据。
  3. 治理数据的应用平安,建设欠缺的数据安全审批流程和应用标准,确保数据被正当地应用,防止因用户数据泄露带来的平安危险和商业损失。
  4. 进步数据工程师的开发和运维效率,缩小他们数据经营工夫的投入,进步数据经营的自动化和系统化水平。

二、数据治理实际

其实早在 2018 年以前,酒旅数据组就做过数据治理,过后只是从数仓建模、指标治理和利用上单点做了优化和流程标准。之后,基于下面提到的五个问题,咱们又做了一个体系化的数据治理工作。上面将介绍一下美团酒旅数据团队在数据治理各个方向上的具体实际。

1. 数据治理策略

数据治理计划须要笼罩数据生命周期的全链路,咱们把数据治理的内容划分为几大部分:组织、标准规范、技术、掂量指标。整体数据治理的实现门路是以标准化的标准和组织保障为前提,通过做技术体系整体保证数据治理策略的实现。同时,搭建数据治理的掂量体系,随时观测和监控数据治理的成果,保障数据治理长期向好的方向倒退。

2. 标准化和组织保障

咱们制订了一个全链路的数据规范,从数据采集、数仓开发、指标治理到数据生命周期治理,全链路建设规范,在标准化建设过程中联结组建了业务部门的数据管理委员会。

2.1 标准化

数据标准化包含三个方面:一是规范制订;二是规范执行;三是在规范制订和执行过程中的组织保障,比方怎么让规范能在数据技术部门、业务部门和相干商业剖析部门达成对立。

从规范制订上,咱们制订了一套笼罩数据生产到应用全链路的数据规范办法,从数据采集、数仓开发、指标治理到数据生命周期治理都建设了相应环节的标准化的研发标准,数据从接入到沦亡整个生命周期全副实现了标准化。

2.2 组织保障

依据美团数据管理扩散的现状,专门建设一个职能全面的治理组织去监督执行数据治理工作的老本有点太高,在推动和执行上,阻力也会比拟大。所以,在组织保障上,咱们建设了委员会机制,通过联结业务部门和技术部门中与数据最相干的团队成立了数据管理委员会,再通过委员会去推动相干各方去协同数据治理的相干工作。

业务部门的数据接口团队是数据产品组,数据技术体系是由数据开发组负责建设,所以咱们以这两个团队作为外围建设了业务数据管理委员会,并由这两个团队负责联结业务部门和技术部门的相干团队,一起实现数据治理各个环节工作和流程的保障。组织中各个团队的职责分工如下:

数据管理委员会 :负责数据治理策略、指标、流程和规范的制订,并推动所有相干团队达成认知统一。
业务数据产品组 :负责数据规范、需要对接流程、指标对立治理、数据安全管制以及业务方各部门的协调推动工作。
技术数据开发组:负责数据仓库、数据产品、数据品质、数据安全和数据工具的技术实现,以及技术团队各个部门的协调推动工作。

3. 技术零碎

数据治理波及的范畴十分广,须要合作的团队也很多,除了须要通过组织和流程来保障治理口头失常发展,咱们也思考通过技术系统化和自动化的形式进一步提效,让零碎代替人工。上面咱们将从数据品质、数据老本、数据安全和经营效率等几个方向,来逐个介绍技术实现计划。

3.1 数据品质

数据品质是影响数据价值最重要的因素,高质量的数据给带来精确的数据分析,谬误的数据会把业务疏导到谬误的方向。数据品质波及范畴较广,在数据链路的每一个环节都有可能呈现数据品质问题,酒旅业务现阶段的次要品质问题包含:

  • 数仓规范性差,数仓架构无对立的强制标准执行束缚,数仓历史冗余数据重大。
  • 应用层数据属于“烟囱式”建设,指标在多个工作中生产,无奈保证数据的一致性。
  • 数据上游利用的数据应用无奈把控,数据精确较差,接口稳定性无奈失去保障。
  • 业务方对多个数据产品的指标逻辑无对立的定义,各个产品中数据不能间接对标。

数据组的治理数据品质计划笼罩了数据生命周期的各个环节,上面将介绍一下整体的技术架构。

  • 对立数仓标准建模(One Model):通过对立数仓标准建模系统化保障数仓标准执行,做到业务数仓标准标准化,并及时监控和删除反复和过期的数据。
  • 对立指标逻辑治理(One Logic):通过业务内对立的指标定义和应用,并系统化治理指标逻辑,数据应用层的数据指标逻辑都从指标管理系统中获取,保障所有产品中的指标逻辑统一。
  • 对立数据服务(One Service):通过建设对立的数据服务接口层,解耦数据逻辑和接口服务,当数据逻辑发生变化后不影响接口数据准确性,同时监控接口的调用,把握数据的应用状况。
  • 对立用户产品入口(One Portal):分用户整合数据产品入口,使同一场景下数据逻辑和应用形式雷同,用户没有数据不统一的困惑。

3.1.1 对立数仓标准建模(One Model)

在业务倒退初期,数据团队集中精力在疾速建设数仓来反对业务,数仓建模标准疏于治理。随着业务的倒退,数仓中的数据急剧增多,数据产品和上游利用疾速减少,数据工程师和数据应用方也变得越来越多,数仓的问题日益突显。业务数据仓库从初期倒退到当初次要裸露了 3 方面的问题:

  • 数据规范性较差,不同工夫的数仓标准不同,数仓标准的执行审核须要较多的人力。
  • 数据不统一问题多,同一指标在多个 ETL 中生产,数据更新同步也不及时。
  • 历史数据冗余重大,数据存储形式较多,业务方查问不晓得该用哪个数据。

数据团队次要通过数仓规范化制订、数仓分层架构和数仓规范化零碎来解决上述问题,上面是咱们的具体解决方案。

制订规范 - 数仓标准

做好数仓规范化最根本的前提是要制订一系列标准化的标准,并推动组内同学执行。标准化的适用性、全面性和可执行性间接影响到标准的执行成果。数仓标准次要从 3 个方面制订数据标准化:

  • 数仓建模标准,数仓建设最根底的标准,包含分层、命名、码值、指标定义、分层依赖等维度。
  • 主数据管理标准,数仓各个主题的数据只有一份,团队共建复用,不能反复开发。
  • 数据应用标准,在查问数据时优先查问主题层,不再提供明细层和 ODS 层的查问拜访入口。

工具保障 - 数仓规范化开发零碎 -Dataman

在执行数据规范化的过程中,咱们发现团队中每个人对标准的了解不统一,很可能造成数据标准不对立,审核人在审核上线工作时须要思考标准的全副规定,审批须要投入的人力较多。在这样的流程下,数据规范性无奈从本源上进行管制,因而须要建设数据规范化的工具,通过零碎保障标准的一致性。数据组应用的数据层规范化工具 -Dataman,次要包含 3 个功能模块:标准化标准、配置化开发和规则化验证。

  • 标准化标准:制订业务数据仓库的标准规范并配置在零碎中,包含架构分层、字段治理、词根治理、公共维度和码值治理等,在 ETL 开发时通过对立的数仓标准开发,通过配置化实现数仓的命名、分层和码值,保障数仓长期的规范性。

  • 配置化开发:系统化保障工程师在开发 ETL 过程中恪守数仓标准,Dataman 能够用配置化的形式生成 XT 工作模板,模板中蕴含数据模型的根底信息,研发同学只须要在工作模板中开发数据生产逻辑。

  • 规则化验证:跟进数据仓库底层元数据和标准化配置信息,定期扫描数仓的规范性状况,判断出不合乎数仓标准的工作和高类似度的数据表。

3.1.2 对立指标逻辑治理(One Logic)

业务应用数据的第一步是搭建业务指标体系,业务的指标和策略的执行状况须要通过指标来剖析,指标体系的合理性和指标数据的品质间接影响到业务决策,指标的重要性显而易见。咱们通过系统化地治理数据指标,从本源上解决指标口径一致性问题,次要从以下 3 个方向动手:

  • 指标定义规范化
  • 指标治理系统化
  • 数据查问智能化

指标定义规范化

此处次要从指标的生成和治理上做好标准,确保业务同学和研发人员对指标体系治理的认知统一,确保指标的新建、更改和应用都依照标准执行。咱们通过上面 2 个方向来实现指标定义的标准对立。

  • 业务指标体系的规范化:咱们在业务线内对立了指标体系标准,指标分为原子指标、计算指标和复合指标,通过应用这 3 类指标反对业务的数据分析需要,业务将来新增指标也要依照这个规范分类。
  • 指标的治理规范化:咱们与商业剖析团队一起梳理业务指标逻辑规范和录入流程,通过制订指标的新增和变更标准 SOP,解决由指标治理流程引起的品质问题,使得指标定义、零碎录入、指标认证和应用各个环节都有严格的流程管控,经由业务侧数据产品经理、业务侧数据治数据管理员和数据工程师独特审批,确保标准规范的落地执行。

指标治理系统化

物理数据表治理:数据表治理的信息次要包含表的根底元数据信息、表类型(维表或事实表)、表的举荐度、形容信息和样例数据等。数据表治理次要是面向数据开发同学,通过保护数据表信息,为数据模型和指标治理提供数据根底反对。

数据模型治理:是对物理数据表的模型构建,通过一个物理模型能够查问到指标和相干的维度数据。数据模型能够是星型模型或宽表,星型模型中保护多个数据表的关联形式、关联字段、维度表蕴含字段和模型的 ER 图等信息。

指标治理:次要包含 2 局部的内容,指标的业务信息和技术信息。

  • 业务信息:为了保障业务的指标信息精确且对立,指标的业务信息须要数据产品经理与商业剖析团队探讨确定后录入,录入后须要指标所属数据主题的负责人审批后能力上线。
  • 技术信息:技术信息次要包含指标对应的物理模型以及指标的计算逻辑,技术信息的填写须要数据工程师配置。技术信息配置后会在零碎里生成技术元数据,指标管理系统通过技术元数据生成数据查问语句,提供给上游利用。

指标查问智能化

在指标管理系统中创立指标时,咱们系统化治理了指标与数仓物理模型的关联关系和取数逻辑,通过数据物理模型取得指标对应的字段和能够关联的维度,以此把指标解析为数据查问 SQL 语句,通过数据查问引擎执行生产的 SQL,智能化取得指标数据。

在查问解析过程中,经常出现指标绑定了多个底层数据表的状况,此时须要咱们手动的选一个物理模型作为指标生产的底层数据。但问题是,如果一个指标对应的模型太多,每次解析都须要手动指定,研发人员不确定抉择哪个模型的性能最好。另外,随着物理模型的增多,大量旧的指标配置的关联模型不是最优解,就须要手动优化更改。为了解决这个问题,指标管理系统减少了智能解析模块,在抉择智能模式查问时,零碎会依据指标治理模型的数据量、存储性能和查问次数等信息主动选取最优的物理模型。

3.1.3 对立数据服务(One Service)

数据仓库对外提供数据的需要越来越多,除了管理层、分析师和产品经营同学应用数据产品和报表外,数据还须要提供到各个业务零碎中应用。罕用的提供数据的形式次要包含同步数据表、提供 SQL 和为上游服务开发定制化 API 接口等形式,但存在以下几个方面的问题:

  • 数据一致性无奈保障,当数据指标逻辑更改时,业务零碎不能及时调整,导致不同业务零碎的数据不统一。
  • 数据同步到业务零碎后,咱们就无奈管控数据的应用形式,也不能监控到数据是否被其余上游应用的状况。
  • 数据开发效率比拟低,数据服务稳定性比拟差,数据工程师开发一个定制化 API 接口须要几天工夫,各个接口服务独自保护,服务稳定性也比拟差。

从 2018 年开始,数据 BP 核心与剖析零碎核心单干建设了对立数据 API 服务平台(Buffalo),通过开发可配置的数据接口服务平台实现数据对外的灵便提供,并实现对数据服务的上游应用及性能的可监控。对立的数据服务平台解决了几个比拟要害的问题:

  • 数据逻辑对立收口:数据服务接口和数据逻辑解耦,当数仓更改和数据指标逻辑变更后上游无感知。
  • 数据服务的更好管控:研发同学可能理解到数据被哪些上游应用、调用了多少次和数据服务是否稳固等信息。
  • 开发效率大幅晋升,服务稳定性大幅提高:通过对立服务平台能够在 1 小时内实现一个接口的配置化开发,与此同时,接口稳定性对立运维,服务稳定性有了很好的保障。

3.1.4 对立用户产品入口(One Portal)

如果不加管制,数据产品就会建设得越来越多。酒旅业务在 2018 年有超过 10 个数据相干产品的入口,用户很难疾速地找到本人想要查的数据产品和报表。不同产品面对的用户不一样,数据的应用场景和展现形式也各不相同,业务方在应用数据时不晓得从哪里能看到最全面的数据产品。

此外,也存在因为实用场景不一样,导致面向不同用户的数据逻辑不同的状况,比方某些业务同学查看的 GMV 不蕴含民宿数据,然而商业剖析团队要看的 GMV 是蕴含民宿数据的。为了可能让业务方可能在一个数据产品门户中找到更全面的数据,且这个产品门户中多个产品的数据逻辑是统一的,咱们将数据门户依照应用用户和利用场景划分为 3 类:

  • 决策分析应用“大圣”(美团外部的数据平台),面向管理者和商业剖析团队,所有业务管理者和商业剖析团队成员须要的数据都能够从大圣数据产品里查看。
  • 业务数据查问应用“天狼”(美团外部的数据平台),用户次要是销售,在天狼里能查看销售所需的各种数据。
  • 数据资产信息查问应用“大禹”(美团外部的数据平台),用户是研发人员和检索数据信息的业务方,在大禹数据门户里能够找到数据资产的信息,能更快地找到想要的数据,更全面地理解相干的元数据。

3.1.5 整体零碎架构

整体的技术架构分为三层,从对立数据建模到对立指标逻辑、对立数据服务和对立产品入口,整体保障了数据的品质,同时配合数据管理的组织保障体系和流程标准,将整体数据品质相干的架构搭建起来。

3.2 数据经营效率

数据工程师在日常工作中的次要工作包含两大部分:数据开发和数据经营。咱们在后面介绍了通过数据开发和指标治理相干的工具零碎建设,开发效率失去了大幅晋升。而数据经营是另一大类工作,他们的次要工夫投入在数据应用征询和数据问题答疑,大略占数据工程师日常工作 5%~10% 的工夫。

数据工程师日常投入到经营的人力多的次要起因是信息不对称和信息检索能力弱,数据团队建设了很多数据模型和数据产品,然而用户不晓得怎么疾速地找到和应用这些数据,问题次要体现在上面 3 个方面:

  • 找数难:所须要的数据有没有?在哪里能找到?
  • 看不懂:数据仓库是以数据表和报表等形式提供,数据的逻辑和含意不够清晰易懂。
  • 不会用:数据指标的查问逻辑是什么?多个表怎么关联应用?

3.2.1 计划思路

数据团队通过数据资产信息的系统化的形式建设易用的数据检索产品,帮忙用户更快捷、更不便地找到数据,并领导用户正确地应用数据,进步数据信息的易用性,以此缩小数据工程师的数据答疑和运维工夫。实现策略是通过用户的问题分类,通过数据信息系统化的形式分类解答 80% 的问题,最初大量的问题透传到研发人员再进行人工答疑。系统化形式次要分两层,数据应用智能和数据答疑机器人。

3.2.2 数据使用指南零碎

数据使用指南的定位是业务数据信息的常识白皮书,提供最新、最全、最精确的指标口径、我的项目指标体系、数据表用法等信息,以简洁、晦涩的操作反对数据指南中的内容及时更新,升高业务方的数据答疑和数据应用老本。

数据使用指南通过把业务场景和数据应用场景买通,从业务场景剖析到应用到的数据表、指标和数据产品买通,在零碎中可能疾速找到数据表、指标定义、数据查问 SQL、指标所在数据产品等信息,一站式解决数据查找、应用和剖析的全副场景。次要性能包含指标信息和数据表信息及应用。

  • 指标信息:包含业务分类指标和指标的详细信息,在指标详细信息页面能够查看指标定义、指标应用场景、指标统计维度、指标对应数据表、指标所在数据产品和指标的 SQL 查问示例等信息,把指标信息与数据表和数据产品关联,不便用户疾速依据指标信息查找到数据。
  • 数据表信息及应用形式:包含数据表的根底信息、表的应用举荐度、SQL 查问样例、数据更新工夫和数据就绪工夫等信息,帮忙使用者疾速定位须要的数据表和数据 SQL 的查问应用。

3.2.3 数据答疑机器人

用户在应用数据时,常常征询数据工程师一些问题,比方想找的数据在哪个表?指标怎么取?业务零碎的一个字段怎么在数仓外面取到?很多问题会被反复问到,每次解答都须要研发人员破费肯定的工夫,而通过 Wiki 的形式保护成果较差,于是咱们思考用自动化答疑的形式,把数据工程师在日常答疑过程中积攒问题和答案,通过肯定的规定匹配,当再次被问到时零碎能够主动地给出解答。

应用日常答疑中积攒的征询问题和答案作为根底答疑知识库,数据答疑机器人应用美团 AI 平台的摩西机器人搭建,配合问题答疑的策略,实现对历史已有问题和答案通过搜寻匹配后发送给用户,具体实现形式如下:

3.3 数据老本

大数据的次要老本形成有 3 大部分,计算资源、存储资源和日志采集资源,其中计算资源和存储占总成本超过 90%,咱们的数据老本治理次要是针对大数据计算和存储这两个局部。

大数据老本优化计划

  • 计算资源

    • 有效工作清理,通过工作生产进去数据的应用状况判断是否为有效工作,通过下线有效工作,缩小工作执行应用的计算资源。
    • 超长工作优化,通过工作的计算资源应用数据能够发现,某几个大工作在执行时会占用大部分的计算资源,导致其余工作执行工夫变长,或者占用配置外的弹性计算资源,导致计算成本减少。数据组会统计和监控每天工作的执行状况,发现执行工夫长(超过 2 个小时)或者占用资源多的工作会及时进行优化。
    • 扩散利用计算资源,数仓的夜间批处理工作应用计算资源的理论个别都集中在晚上 2 点到上午 10 点前,这就导致在一天中只有三分之一的资源被充分利用,而且这段时间内通常资源都是不够用的,须要应用平台提供的配置外弹性资源。而其余时间段的计算资源闲置,对资源有较大的节约。为了把全天的资源都无效地利用起来,咱们会把一些对就绪工夫不敏感的工作(比方算法开掘、用户标签、数据回刷等)放到 10 点之后,把配置的计算资源充分利用起来。
    • 租户拆分和整合对立治理,进步资源池总量和资源总体的使用率。
  • 存储资源

    • 数仓架构优化和重构:通过对立数仓建模标准,把类似或雷同模型进行整合和去重,确保每个主题数据只保留一份。
    • 数据存储压缩:在数据仓库建设初期,很多 Hive 表的存储格局是 txt,通过压缩为 ORC 格局能够缩小大量的存储空间。
    • 冷数据处理:把数据分为冷、热两大类数据,通过每天对全副数仓表扫描辨认出冷数据,发给数据负责人及时处理。
    • 数据生命周期管制:依照数仓分层的利用场景配置数据的生命周期,明细数仓层保留的全副历史数据,主题层保留 5 年数据,应用层保留 1~3 年数据。通过数据生命周期管制,极大地缩小了数据存储老本。
  • 日志采集资源

    • 下线冷数据的上游日志数据收集工作,数据收集费用次要来自两类数据,业务零碎数据库的 Log 同步和后盾日志数据收集,通过对收集数据的应用状况监控,及时下线上游无利用的数据收集工作。

3.4 数据安全

数据资产对业务来说既是价值,也是危险。数据安全作为业务部门“事关生死”的外围工作,在技术架构上会从数据产生到数据利用各个环节进行管制,保障数据利用事先有管制、事中有监控和预先有审计。数据安全管制从业务零碎开始对用户高敏感数据加密,在数仓进行分级和脱敏,在应用层做密文数据权限和密钥权限的双重保障,管控用户相干的高敏感数据,依照三层系统控制加五个应用准则实现如下:

4. 掂量指标

业务部门在业务倒退高级就会建设指标体系,并应用数据指标对各个业务过程做精细化的剖析,掂量业务指标的达成状况和口头的执行水平。数据治理也须要一套成熟稳固的掂量指标体系,对数据体系做到长期、稳固和可量化的掂量。咱们通过制订体系化的数据掂量指标体系,来及时监测数据治理过程中哪些局部做的好,哪些局部还有问题。

4.1 掂量指标建设

为了可能不重不漏地把指标都建设起来,咱们从 2 个方面进行思考:

  • 技术分类,依照数据团队关注的问题和指标,把数据治理的指标体系分成品质、老本、平安、易用性和效率这 5 大类。
  • 数据流环节,别离从数据的采集、生产、存储、指标治理、利用和销毁等环节监控关注的指标。

4.2 掂量指标保障数据治理

依据 PDCA 准则,将数据治理作为日常的经营我的项目做起来,底层依赖数据指标体系进行监控,之上从发现问题到提出优化计划,而后跟进解决,再到日常监控,形成一个残缺的循环。

5. 治理成果总结

数据治理笼罩了数据生命周期全链路,通过围绕数据从产生到价值沦亡全副生命周期,建设数据治理组织、制订治理掂量体系和建设治理技术零碎来达到数据治理指标。通过体系化的数据治理,数据系统的治理、老本、平安和经营效率都有了比拟大的改善。

  • 数据品质:技术架构优化后,通过标准化标准和零碎保障数据的准确性,并在治理过程中革除和整合了历史冗余数据,数据品质问题有很大的改善。2019 年数据生产工作的增长率比 2018 年缩小了 60% 左右。
  • 数据老本:通过数据老本优化后,在反对 2019 年酒旅业务高速增长的同时,大数据的单均成本费用升高了 40% 左右。
  • 数据安全:通过业务零碎数据加密和数据仓库数据脱敏,双重保障高敏感数据平安,防止数据泄露。通过数据安全标准和数据敏感性的宣导,增强业务同学的数据安全意识,业务没有重大数据安全问题的产生。
  • 经营效率:经营工具化缩小了研发同学超过 60% 的日常答疑工夫,极大地缩小了研发同学工作被打搅的次数,进步了开发效率。

三、将来布局

数据治理分为三个大阶段:被动治理、被动治理、主动治理。

  • 第一阶段咱们做的是 被动治理,也就是阶段性治理,确少兼顾思考,次要是基于单个问题的治理,而且治理之后过一段时间可能还要做反复治理。这个阶段更多是人治,一个我的项目成立,协调几个人依照我的项目制实现,没有体系布局,也没有组织保障。
  • 第二阶段是 被动治理,有长期的统筹规划,能笼罩到数据生命周期的各个链路,在治理过程中把一些伎俩和教训流程化、标准化、系统化,长期解决一些数据问题,让数据治理长期可控。
  • 第三阶段是 主动治理,也是智能治理,在长期布局和数据生命周期各环节链路确定好之后,把曾经有的教训、流程和规范做成策略。一旦呈现问题,主动监控,通过一些系统化的形式解决。主动治理的第一步还是治理计划的落地和策略化,这十分依赖于元数据,把数据治理各个过程中的一些教训技术都积淀起来。做完策略积淀之后做自动化,把策略用工具的形式实现,当零碎发现数据有问题时,主动就去解决。

目前,美团酒旅业务数据治理处在第二阶段和第三阶段之间,尽管有整体治理打算、技术架构和组织保障,但仍须要投入肯定的人力去做。将来,数据治理会持续朝着智能化的方向进行摸索,真正把自动化治理工作做得更好。

四、作者简介

  • 建舒,2015 年退出美团,数据迷信与平台部数据工程师。
  • 王磊,2017 年退出美团,数据迷信与平台部数据工程师。
  • 罗茜,2017 年退出美团,数据迷信与平台部数据产品经理。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。

正文完
 0