关于后端:构建数据中台的组织架构

51次阅读

共计 8660 个字符,预计需要花费 22 分钟才能阅读完成。

简介:驰名治理巨匠钱德勒总结过一个黄金定律:策略决定组织,而组织决定成败。一、中台是一种企业架构 1.TOGAF 企业架构规范 TOGAF 是一套企业架构规范。企业架构是指整个公司或企业的软件和其余技术的整体观点和办法。企业架构又细分为业务架构、利用架构、数据架构、技术架构几个方向。其中业务架构的定义是“定义业务策略和组织,要害业务流程及治理和规范”。因为数据中台其实就是组织为了更好的让数据服务业务而构建的一种企业架构,这个架构天然也会包含业务架构和其中的组织架构。定义组织架构要有明确的业务策略,中台就是目前最具备前瞻性的企业 IT 策略。驰名治理巨匠钱德勒总结过一个黄金定律:策略决定组织,而组织决定成败。2. 架构愿景与驱动因素集体认为数据中台架构的愿景是“减速数据驱动业务”。●业务需要驱动在这个大数据暴发的时代,业务部门曾经不满足于现有数据对业务的撑持的能力,心愿从数据侧取得更多、更大的驱动力。●组织规模驱动当一个组织足够大,部门分化,组织外部的各种零碎林立,就会遇到同一数据多源存储应用、数据获取不便、口径难以对立的问题。因为业务零碎在设计之初就是为了满足某个业务域的性能需要,不足对管理决策反对的设计,所以,不足对立的数据平台的组织很难取得全局统一的数据为管理决策做撑持,从组织外部不同部门获取的数据总是不足可信、互相抵触。当组织规模足够大,就须要组件一个对立的数据平台来构建组织外部对立的业务数据视图,进而驱动数据为综合业务管理决策服务的能力。●经济效益驱动咱们会为每一个小的团队都配置财务、人事这些职能角色么?数据决策和剖析是每个业务零碎建设到肯定阶段都要做的性能,要不要从其余业务零碎获取数据,要不要构建本人的数据集市,这些都是反复的职能。部门本人竖烟囱,不仅仅是组织外部数据不对立的问题,还带来了资源的大量节约。这种状况,会导致各个小团队因为人员没有专业分工,开发人员既要做业务零碎性能开发,又要做数据开发,导致团队的业余度和能力受到限制。还会因为各个小团队之间业务割裂,无奈达到相应规模应有的规模效应。二、构建对立数据平台 1. 不同阶段的性能需要计算机系统的呈现最根本的诉求是代替或者帮助人类进行的重复性的工作,包含计算、记录、管制等。咱们从数据库角度来看,这些需要都是操作型的,传统的关系型数据库就是为了解决这类需要而构建的。零碎一旦运行起来,就会进入下一个阶段,改良。零碎性能的改良须要对业务过程数据进行剖析,并通过剖析后果进行零碎性能改良。另外一方面,零碎都是须要人去参加和治理的。大型组织和企业都是由多个不同业务性能的零碎组成的简单零碎。如何经营与运行这些零碎、治理相干的负责部门、人员,通过经营剖析与绩效考核做出管理决策和调整组织的倒退,这些简单的零碎,须要对数据进行剖析。下面提到的这些阶段别离是:生产零碎代替人力、零碎改良、经营管理系统构建、治理改良。能够看到越是高阶,对数据分析的需要就越高。2. 数据仓库与数据集市对于数据仓库,数据仓库之父比尔·恩门(Bill Inmon)在 1991 年出版的“Building the Data Warehouse”(《建设数据仓库》)一书中所提出的定义被宽泛承受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、绝对稳固的(Non-Volatile)、反映历史变动(Time Variant)的数据汇合,用于反对管理决策。数据仓库是一个过程而不是一个我的项目;数据仓库是一个环境,而不是一件产品。数据仓库提供用户用于决策反对的以后和历史数据,这些数据在传统的操作型数据库中很难或不能失去。数据仓库技术是为了无效的把操作形数据集成到对立的环境中以提供决策型数据拜访,的各种技术和模块的总称。所做的一切都是为了让用户更快更不便查问所须要的信息,提供决策反对。最开始的剖析与决策需要是间接构建在业务零碎上的。刚毕业的时候,我在公司做呼叫核心业务的日常治理与剖析报表,都是间接在业务零碎的数据库上实现的。这里会遇到一些颇具挑战的问题。首当其冲的是性能问题,人对系统返回数据的极限忍受大略只有 3 - 5 秒,然而关系型数据库设计之初并不是决策分析服务的,所以,很多时候只有局部报表能满足这个需要,很多计算数据量大的统计报表响应工夫并不好,偶然还会遇到查问失败的状况。其次是对源零碎影响的问题,因为间接在源零碎上运行,报表的拜访需要是一次拜访很多行,如果长时间不能返回运行后果,可能会造成锁阻塞交易业务失败。最初是历史状态难以统计的问题,如果业务零碎没有对每次操作保留历史,一旦过了相应的统计时点,历史的状态就难以回溯,报表中常见的环比等需要是难以实现的。所以,业务零碎中的剖析型需要一旦变多,就不得不做出抉择:要不要把剖析型需要放在另外一个数据库实现。最简略的实现形式就是通过数据库同步工具把数据分析在备库实现,惯例的数据库厂商都提供实时备库的计划,还有很多中间件产品也能够做到。然而很快构造的问题就会凸现,业务零碎的数据模型是为了交易系统的模式(OLTP)设计的,在剖析型(OLAP)场景上会 体现出重大的性能瓶颈。要不要为剖析型需要独自创立数据模型?这样就呈现了数据集市的雏形。当一个组织的 IT 零碎十分多,部门级的数据集市就可能会须要多个业务零碎的数据。10 年左右我所在的公司是做银行对私 CRM 的,对私相干的贷款、贷款、理财、基金、信用卡等零碎都是不同的零碎。在没有对立的数据平台(数据仓库)的银行,这些数据都是须要咱们去各个系统去拿,有的话就间接从数据平台拿就能够了。如果不去构建数仓的公共模型、间接应用从业务零碎的数据,也就是应用数据仓库贴源层数据,会产生很多独立的数据集市。这些独立数据集市会各自获取本人须要的数据加工,如果各个集市拿到的数据有穿插,在最终的计算结果上就会呈现大家出的数据项的名字一样,然而数值不同的状况。因为不足对立,这个问题很难解决。如果管理方能承受略微有些差别的统计数据,这个问题倒是也过得去。然而如果有对立的数据仓库平台,这个问题就会迎刃而解。多个集市的公共数据对立计算、协调一致,构建一个公共数据层。这样组织(企业)的数据在数据仓库环境就能够领有一份惟一可信的版本,所有的数据都集中到了数据仓库环境,并基于独特的数据做剖析。在数据仓库环境,能够撑持组织(企业)做面向企业经营治理的各种场景的数据分析、决策反对。3. 构建数据管理组织如果只是在业务零碎的数据库上间接做数据分析,很多时候咱们只是要业务零碎的研发人员兼职(未进行业余职业分工,开发品质与效率难以保障)把本人设计的表构造的数据分析统计做了。所以,在这种状况下并没有所谓的数据管理组织。然而如果从业务零碎中剥离进去,构建了数据集市或者数据仓库,数据管理组织就会从业务零碎的 IT 组织中剥离进去。站在组织(企业)治理的对立视角,咱们并不倡议构建独立数据集市的 IT 架构,还是举荐构建基于数据仓库的 IT 架构和相应的治理组织。从对立的视角登程,咱们会把数据仓库(包含数据集成、数据公共层、数据集市),基于数据仓库的数据分析利用对立放到一个大的决策反对部门(团队)。这个团队要解决的问题就是数据分析,这个畛域传统的叫法有“商业智能剖析(Business Intelligence,简称:BI)”、“决策反对”。在这个组织中会分化为两类大的工作分工,平台和利用。平台就是着眼于数据集成、公共层构建、数据管理、数据服务,用来撑持利用集市的各种能力。利用就是原来从业务零碎中剥离进去的系统分析与改良、业务管理的剖析与改良,这些数据分析的能力。整个团队的指标都是服务业务部门的数据分析,从档次上来说一前一后,从角色上来说一主一“辅”,共同完成业务的数据分析需要。所以,从职能上能够把数据平台的组织分为三大块:平台治理团队、根底平台团队、数据利用团队。平台治理团队负责整体平台的架构治理职能、数据治理职能,治理数据平台与数据利用团队进行日常数据研发与保护工作。平台治理团队的下辖的需要治理组负责整个平台的业务需要的对立管控,确保数据平台组织和数据利用组织对业务需要的了解是统一的、工作的合成是认可的。平台治理团队下辖的架构治理组负责制订和保护整个平台的集成架构、分层架构、服务架构。平台治理团队下辖的数据治理组负责制订面向品质、平安的治理要求和标准规范,监督整个数据平台组织的治理能力的落地执行。平台治理团队下辖的运行保护组织负责对整个组织外部应用的各项资源管理,软件与数据库日常运维。根底平台团队是撑持数据利用团队的共性数据需要。数据利用组个别依照业务部门构建,会依据部门需要构建部门级的数据集市或者利用级的数据集市。根底平台团队所做的数据模型的建设工作,是面向数据利用中的公共的局部,例如原始数据的集成,明细粒度数据模型的设计,汇总粒度的数据模型设计。大体的划分准则是根底的集成和明细粒度数据,只有有一个利用应用,这个根底能力就要补充在根底平台组织的明细层模型。而汇总粒度的数据模型设计则须要 2 个以上的利用的共性需要,才会构建到根底平台汇总层模型。数据利用团队的人员管理权限在数据平台,然而服务的对象是理论的业务部门。业务部门就是数据利用组的甲方,而数据利用组则是业务需要的承建乙方。组织架构如下:

4. 构建数据管理流程数据管理流程是指数据平台组织外部从需要到研发交付中各个组织、人员之间的合作流程。●研发治理流程

上图是一个数据平台数据研发治理流程,从业务需要到数据开发都有哪些团队的什么角色的人员参加,不同的团队角色负责哪些模块。1. 业务部门提出需要。业务部门有专门与数据平台对接的角色,这个角色是业务部门中的 IT 人员,他们负责接管业务侧的业务需要转化为 IT 侧的需要。2. 平台治理团队的需要治理组会承受业务需要,并组织根底平台团队与数据利用团队来对业务需要进行评审和合成。这个过程会确定哪些需要能够在根底平台部门实现,要实现这些需要根底平台团队和数据利用团队都应该做哪些工作。这里的次要拆分准则就是公共、共享需要在根底平台团队实现和共性在数据利用团队实现。因为有的时候会做一些提前的设计,所以,这个公共的尺度次要由根底平台团队把握,由架构组和治理组定期参加评审。3. 进入设计与研发阶段,两个团队会通力配合,别离研发本人负责的局部,联合开发、测试、公布,并依照研发打算确保失常上线。4. 因为根底平台的公共层累积到肯定水平,就能够笼罩大部分的根底数据需要。所以,根底平台团队在需要评审过程完结后可能并没有理论要开发的工作,只须要做好以后公共层数据数据应用的业务反对、答疑解惑。●架构治理流程架构治理次要治理两个方面,第一技术架构,第二业务流程架构。其中技术架构包含数据集成架构、研发分层架构。数据集成架构确定了业务零碎与数据平台之间的数据集成工具与计划,离线集成采纳什么计划、实时集成采纳什么计划,在什么零碎和场景下应用什么计划。集成架构在两种状况下会有更新,第一新的系统集成需要,第二原有的集成计划不满足业务需要。在需要评审阶段,如果遇到下面两个问题,能够邀请架构组进入到需要阶段评估,把架构问题验证通过并造成计划后,再进入开发阶段。数据分层架构次要的目标是把数据研发工作分为贴源层、公共层、应用层这几个大的档次,原则上应用层只能从公共层获取数据、公共层的贴源层数据能够笼罩应用层的数据范畴,公共层的汇总层能够笼罩多个应用层的共性加工需要。分层架构在平台创立初期制订,前期也不须要调整。架构治理组次要的作用是在开发阶段、运维阶段调研发现有违反分层架构准则的问题,并提出相应的整改要求。架构组的治理流程次要是发现问题,并发动整改的需要流程。●数据治理流程数据品质次要分为集成品质、数据加工品质、线上服务质量三局部。治理流程次要是确保品质工作做到位、及时发现品质问题,并跟进问题的解决。品质工作检查点流程要在研发工作中嵌入,开发脚本后是否有做单元测试,测试的报表是否有主管的 review 确认。利用上线前有没有做利用的功能测试、数据验证测试,是否有主管的 review 确认。重要的业务,是否做了线上品质问题监测的工作。这些检查点,要能在日常工作中体现,并能够给品质团队按期审核。数据品质问题发现。通过源端数据品质监测、线上数据品质问题监测,及时发现问题。并通过治理流程,把问题派发到相应的责任组织进行改良。数据安全次要解决日常工作应用数据的平安流程。次要分为数据研发过程中的安全检查点及数据权限申请与审批流程。数据安全检查点要在研发工作中嵌入。根据最小可用准则,在研发阶段申请到的安全级别高的数据权限,在进入上线后固定工夫区间会被主动开释。每一类数据表和数据项,原始的数据安全分级在加工后要进行从新评定。数据权限申请与审批流程,确定了组织内哪些组织是数据的生产方和拥有者,拥有者最终审批决定数据内容的拜访权限。审批流程要能体现出相干的业务需要和性能需要的确须要相应的数据进行开发、业务剖析等场景,并能体现实际操作人员和其主管的审批责任。还有是否设定业余的评审角色对相应流程进行治理,数据分类分级的审批后果是否在组织外部定期回顾等。●运维治理流程运维治理是研发治理的延长,数据研发的意义不是研发过程而是数据自身,数据平台提供了数据的服务,保障服务的品质也是数据品质的一个方面。运维治理流程从平台根底技术组件、平台批量工作运行、平台提供的数据服务能力几个方面对平台进行运维保障。平台运维治理流程次要的目标是在发现问题后,保障整个组织能疾速的对对问题做出决策,找到第一责任人和问题兜底解决团队,确保问题疾速修复。并能在预先,对问题产生的起因进行剖析改良与问题追责。资源管理流程从整个平台资源布局与利用的角度,对新创建的数据利用、原有数据利用对数据平台的资源应用进行正当的扩容、缩容。在平台治理团队发现对资源应用不利的问题后(例如存储资源、计算性能),引入架构团队与研发团队,独特对问题进行解决。也能够由利用侧发动流程,引入运维与架构团队,帮助问题解决。三、减速数据服务业务 1. 数据中台还是后盾“数据中台还是数据后盾“,这是一个波及到实质的话题。从组织整体架构来看,IT 部门就是一个后盾反对部门,业务部门才是前台部门。从 IT 架构来看,业务和生产零碎才是一线人员的外围撑持,数据分析更多的是从事后剖析和事中研判的角度呈现,依然是一个偏后盾的角色。从治理和经营的角度来看,这部分工作次要依靠数据分析的后果进行辅助决策,所以对数据分析的依赖更高。即使是某个生产过程中的最细小的环节,在进行数据分析后都可能取得微小的业务改良价值。然而艰难的是如何能从数据中发掘出能改良业务、辅助决策的数据价值。在传统的数据仓库环境,数据部门始终被当作一个后盾部门。惯例的业务模式就是被动响应的模式,对业务部门的响应与业务需要之间的关系是通畅的。之前参加过的一个我的项目,一线人员提的需要,排打算都排到了 1 年当前。后盾部门能获取到的资源都是局促的,数据服务业务的能力也是局促的。所以,回过头来看数据中台,咱们是否转变思维,外围还是要把数据部门放到更重要的地位,加大对数据部门的投资。让数据部门对业务的撑持能力和规模更大,相比之前更加前置。让数据部门从一个纯老本部门的地位变成真正的价值部门的地位。值得关注的是,在近些年大数据风起云涌带来的微小的技术改革中,阿里提出的中台策略依靠这种改革看到了数据服务业务的更大的后劲,并衰亡了数据中台建设的大潮。2. 减速数据服务业务数据中台最外围的诉求,还是心愿减速利用数据服务业务。因为“数据服务业务”这个口号可能几十年前就有了,所以相比之前数据中台要做的就是让这个过程的速度更快,“减速数据服务业务”。如何减速呢?大数据技术给咱们带来了更多技术的可能,让数据服务业务的能力和范畴更加扩大。然而并不能解决速度问题,如果组织规模和能力不变,反而可能因为事件变多、技术变简单,变得更慢。所以,构建中台化的组织是十分重要的。从技术上补充大数据与算法剖析的人员能力,从组织上对数据团队进行分化裁减,让数据对业务撑持从以前的力不从心变成入不敷出才能够做到真正的减速。对数据中台的投资近些年变的越来越大,越来越多的组织尝试对本人的数据团队做出改革,引入相干的技术与我的项目。然而咱们是否从实质上对组织构造和模式做出扭转呢?咱们是否创立出了更加麻利的数据业务化、业务数据化的通路,来适应这个大改革的时代?对数据部门来说,咱们要怎么做调整工作办法和思维,能力减速数据服务业务?数据中台的核心思想其实曾经通知咱们,就是“服务化”。只有咱们把数据变成各种触手可得的服务,能力真正做到减速。服务化(数据即服务、信息即服务、剖析即服务)须要咱们把业务人员须要的不同档次的数据、信息、剖析都变成服务,用服务化的思维,服务化的流程去撑持业务。从之前的被动响应变成被动推送,从业务人员本人去发现问题提出改良需要,变成与一起为业务人员挖掘需要,变成业务人员的左右手。为此,咱们须要面向更好的服务业务去建设服务化的能力与利用,构建面向服务的组织。只有这样能力真正实现数据中台的业务指标。3. 构建服务化的组织服务化的组织的创立要以服务为指标构建,要发明一个数据部门的“客户服务团队”,这个团队能疾速响应业务部门对数据部门的服务需要,并在组织外部合成需要,对需要做出疾速的响应。所以,在组织架构的设计上,我把数据管理组从新定义为数据服务组,并在这个组织下新增数据服务经营(资产经营)组。

服务化的终点肯定是组织的管理层以服务化为指标去构建组织,所以要在治理组织内分化出数据服务治理职能。数据服务团队除了之前对数据平台和数据利用组织有协调和领导的作用,组内需要治理、架构治理、数据治理、运行保护等职能外,新增数据服务经营子团队(服务经营 & 资产经营)。这个团队与数据平台和数据利用一样,也是一个间接负责对接业务、解决业务问题的组织。这个组织通过梳理整个平台的数据资产,提供平台层面的数据资产服务门户,对整个平台的服务能力和服务质量进行监督管理。并通过资产门户间接面对一线业务人员和数据研发人员提供数据平台的数据和利用的咨询服务、即时剖析服务,收集平台侧零散的业务和技术需要,并从服务的角度评估平台的产品、团队的服务能力。4. 构建数据服务流程服务化的组织须要整合和重构原有的业务流程,通过服务化去缩小或者缩短业务与数据之间的间隔。下图是一个依靠数据门户的服务流程举例:

在数据中台的服务构建中,数据门户是十分重要的一环。门户会让数据团队与业务人员之间的技术和间隔的鸿沟隐没,构建出一个交互和共建的数据合作平台,通过对平台所有数据资产的梳理与服务以及问答等服务化的办法让原有的数据研发流程变短。所以,咱们的数据服务流程都要以资产门户为根底去构建。

上图是一个面向服务的数据研发组织阵型,每个数据团队都有不同的分工。然而咱们在传统的数据需要组织间接面对业务部门的根底上减少了数据服务组织。咱们以上面几个场景为例,来看服务化流程。1. 数据服务场景。通过数据资源目录找到相应的数据,申请权限;2. 数据报表需要;a 需要:定义报表,指标定义, 标签定义 b 开发:数据元定义,模型设计, 数据模型映射,算法定义;c 运维:品质问题反馈 3. 数据问答;a 找不到数据;数据服务组,指定到数据资源目录对应的表;b 对特定数据应用问题;数据服务组解答,如果是品质问题,转到品质治理;开发把品质问题转变为需要,需要组审核,进行开发;4. 数据安全;a 治理组,定义新增数据源的数据安全;b 数据组,数据变动后,批改数据安全的定义级别;c 治理组,审核通过后,定义最终确定后才会在数据资源目录凋谢;四、路线艰险而漫长从管理学角度,组织(Organization)即由若干个人或群体所组成的、有独特指标和肯定边界的社会实体。它蕴含三层意思:(1) 组织必须是以人为核心,把人、财、物正当配合为一体,并放弃绝对稳固而造成的一个社会实体。(2) 组织必须具备为本组织全体成员所认可并为之奋斗的独特指标。(3) 组织必须放弃一个明确的边界,以区别于其余组织和外部环境。上述三条,是组织存在的必要条件。数据中台的组构建是数据中台胜利的关键因素,并不是咱们购买了某一款中台产品或者做了一个相干征询就能达成中台的指标。我以个别的数据仓库我的项目为例,在做数据仓库我的项目的时候,咱们长用 3 -5- 7 这三个数字来掂量一个组织数据仓库平台的成熟度。即使是客户购买了行业当先的行业解决方案和产品,也须要 3 年能力达到根底,5- 7 年能力绝对成熟。而数据中台架构中又蕴含数据仓库的构建,波及的组织面更大、波及的工作范畴更大,即使咱们依然应用数据仓库的规范来掂量,咱们当初的数据中台我的项目大多还都处在打基础这个范畴内(阿里大概在 2018 年左右提出了数据中台架构)。在数据中台构建的路线上,咱们依然会遇到很多很多的未知和艰难,只有一直的排除这些艰难能力达到最终的指标,中台化的组织构建就是实现这个指标的利器。因为每个组织对中台的需要和指标都可能有差别,组织外部也各有不同,以上的内容思考更多是从一个行业参与者的集体角度,给相干的组织提供一些思考和参考的内容,思考有所欠缺的局部还请斧正。

 原文链接:https://click.aliyun.com/m/10… 本文为阿里云原创内容,未经容许不得转载。

正文完
 0