因为企业的业务零碎信息化的分阶段建设、以各自业务为导向等起因,每个业务都积攒本身的数据,造成肯定的数据孤岛。而数字化转型的一个外围就是以数据为抓手来买通各个不同的业务,以数据驱动辅助教训主导的流程来辅助业务,因而须要企业建成一个对立的、可共享的数据平台,推动建设外部业务的对立数据化,为企业治理和决策提供数据根底与剖析能力保障,帮忙企业落地数字化策略。建设企业对立的数据平台须要思考哪些问题?本文进行介绍。
— 企业级对立数据平台整体建设思路—
企业级数据平台指的是撑持企业的数字化业务翻新和经营的技术根底平台,提供数据驱动、精准决策的全方位技术撑持。
- 整体要求
从公司整体的数字化策略的视角来看,数据平台通过对立的数据整合、存储、计算和服务能力,能够突破企业外部壁垒,服务于企业内的不同业务部门和组织部门,将有形的业务流程自动化和数据化。为了达到既定的策略要求,企业数据平台须要实现几个必要的对立,次要包含:
- 对立整合企业内、内部各类业务零碎数据,尽量做到“应存尽存、能收则收、层级化治理”;
- 对立治理企业内外部数据资产,造成企业对立数据治理规范及标准,落实数据安全管控,将数据资产化和业务化,实现“数据既能管得住,也能立刻用”;
- 对立撑持企业以及各个组织部门、子公司等创新型利用和业务,提供包含实时计算、离线计算、机器学习等在内的多样化的计算能力,辅助按需提供的算力和数据资产,从而发现数据的业务价值,通过数据驱动来推动经营优化、翻新业务摸索、危险管制等新业务,推动企业数字化转型。
* 数据架构的设计
数据架构形容如何治理从收集到转换、散发和应用的数据。它为数据及其在数据存储系统中流动的形式设定了蓝图。它是数据处理操作和人工智能 (AI) 应用程序的根底。
数据架构的设计应该由业务需要驱动,数据架构师和数据工程师应用这些需要来定义相应的数据模型以及反对它的底层数据结构。这些设计通常有助于满足业务需要,例如报告或数据迷信打算。
随着物联网 (IoT) 等新兴技术的呈现,新的数据源不断涌现,良好的数据架构能够确保数据易于治理且具备利用价值,从而反对数据生命周期治理。更具体地说,它能够防止冗余数据存储,通过清理和反复数据删除来进步数据品质,并反对新的应用程序。古代数据架构还提供了跨域(例如部门或天文区域之间)集成数据的机制,突破了数据孤岛,因此打消了将所有数据存储在同一中央所带来的微小复杂性。
古代数据架构常常利用云平台来治理和解决数据。尽管它的老本更高,但它的计算可扩展性使重要数据处理工作可能疾速实现。存储可扩展性还有助于应答一直增长的数据量,并确保所有相干数据都可用,以进步训练 AI 应用程序的品质。
古代数据架构的七大特色:
- 云原生和反对云,让数据架构可能从云技术的弹性扩大和高可用性中受害。
- 弱小、可扩大且可移植的数据管道,将智能工作流、认知剖析和实时集成联合在一个框架中。
- 无缝数据集成,应用规范 API 接口连贯到原有应用程序。
- 实时数据反对,包含验证、分类、治理和治理。
- 解耦且可扩大,因而服务之间没有依赖关系,而且凋谢规范反对互操作性。
- 多租户反对能力
- 通过优化,在老本和简略性之间获得均衡。
— 企业级对立数据平台的五大能力要求—
起初,数据平台技术(国内约是 2010 年后)的定位是贮存原始格局数据的大数据平台,可包容结构化、半结构化、非结构化及二进制的数据。随着大数据技术的交融倒退,数据平台的边界一直扩大,外延也产生了变动,逐步形成了 5 大能力要求,如下图所示:
企业数据平台的 5 大外围能力要求次要包含:
- 数据多源异构:数据平台可能整合和集成多源异构的海量数据,反对结构化、半结构化、非结构化等各种数据模型,这样就可能保障即便前期业务有了新的需要,数据平台也可能即时的实现数据接入、整合和最终的服务,在技术上也可能撑持企业落地“应存尽存、能收则收”的数据策略。
- 数据对立的存储与治理:随着分布式存储技术的疾速倒退,提供对立的数据存储服务曾经成为业内的共识,在实现形式上能够是物理上的对立(所有数据通过物理复制到企业数据平台上)或逻辑上的对立(局部数据依然在其余数据存储中,但能够通过元数据管理、数据联邦等形式实现逻辑的存储管理)。基于对立的数据存储和治理能力,企业能力基本上解决了“数据孤岛”的买通,并且往上对接各种计算引擎和数据管理工具,从而为后续的数据资产化和服务化打好根底。
- 多范式计算:数据资源本身可能提供的价值无限,而海量数据通过多维度的碰撞、关联剖析或智能化学习后,暗藏在数据外面的离散价值就能够被发现和开掘进去,从而将数据变成有价值的资产。因为撑持业务的多样性,企业级数据平台须要反对多种计算引擎,满足不同数据计算剖析需要,反对离线计算、施行计算、图计算、机器学习等多种计算范式,让不同的开发者和分析师能够依照他们的技能畛域和业务领域来抉择适合的计算工具或引擎,让数据被真正的开发和利用起来。
- 数据服务多样化:后面提到的数据整合、存储和计算都属于根底的数据平台技术能力,而数据服务就是连接数据平台和业务之间的要害因素,或者说是数据平台为业务和组织生产的要害产品。企业的产品是企业实现经营性指标的外围交付形式,也是与用户建设黏性的要害介质;同样的类比也适宜于数据平台,因而作为数据平台产品的各种数据服务也是保证数据平台胜利的要害因素,要做到品质高、品类丰盛、平安合规和服务形式多样化,可撑持各种业务畛域。目前企业内次要的数据服务模式包含 SQL、API、数据指标、数据标签和数据模型等。
- 利用宽泛:目前各个行业的企业数据利用倒退热火朝天,如面向企业经营剖析的各类数据分析产品,面向政府治理的数据大屏、“衰弱码”等利用,以及面向消费者业务的数据决策类产品等,利用的翻新速度超过数据平台自身。掂量一个数据平台的胜利与否,其最次要的 KPI 指标应该也是“该数据平台撑持的胜利的数据利用的数量和业务成果”。数据平台和数据利用平台能够离开建设,也能够对立建设。在对立建设的模式下,企业数据平台除了给业务利用提供数据资源或数据资产外,还能够为数据利用提供资源调度和生命周期治理能力,这样不仅能够晋升利用的性能,还能够提供弹性伸缩、资源隔离等利用所需的根底撑持,从而能够让数据利用更加强壮和高效。
— 企业级对立数据平台的设计考量—
为了可能帮忙企业疾速的撑持业务的需要,更好的满足数字利用的开发和经营,企业数据平台应该是以 PaaS 平台来对内对外提供服务能力,而不再应该是面向运维和治理的 IaaS 形式。而在 PaaS 构建的过程中,为了可能适应将来企业的灵便、疾速变动的业务需要,企业数据平台须要听从如下的几个次要设计考量:
- 以数据为核心,业务导向
在总体的设计思路上,咱们应该从传统的以资源为核心,以运维便利性作为首要考量因素,转变为以数据为核心,以业务作为导向,将能够减速业务翻新速度的技术作为更优先的指标。数据、利用和智能是数字化的三大外围原料,咱们须要在一个 PaaS 平台上提供包含数据分析、利用开发和智能建模等在内的残缺的工具链,并凋谢给尽可能多的使用者来尝试翻新。
- 云原生
传统的虚拟化技术因为有很大的技术开销,启动和敞开速度慢,扩缩容能力弱,因而并不适宜包含微服务、分布式系统在内的新一代工作负载。容器技术无效解决了相干问题,能够进步数据中心的资源使用率的同时,可能给微服务提供更好的弹性和扩大能力。而通过技术创新,容器技术同样能够反对包含分布式数据库在内的简单业务零碎,同时还能够提供多租户、主动扩大、自动化冗余等能力,这对业务开发者来说进一步升高了运维的难度。因而,容器化技术是将来。
- 交融互通
约瑟夫. 熊彼特已经指出,翻新是生产因素的重组。重组可能次要做加法,做交融或者通用化;也可能是做减法,做拆散和专用化。交融带来通用和低成本,然而会有一些冗余;拆散的劣势是高性能和特定场景的能力,然而利用场景少、老本高。交融谋求公众普适,拆散面向业余群体。
数字化基础设施的用户是面向企业或组织内宽泛的利用开发者、数据建模人员、以及业务人员,所有处在业务一线的人员都是数据生态的重要人员。因而在设计数字化基础设施的时候,咱们须要充分考虑通用性和低成本,这样能力更好的服务于指标对象。
从技术的角度来剖析,利用可能会运行在私有云、公有云、边缘端等任何可能有计算能力的中央,而数据也会随着业务而积淀,因而咱们在设计的时候就须要思考利用的跨云能力、数据的互通互联、云端和边缘端协同等,从而回绝技术烟囱,缩小各种可能的孤岛问题。
- 层次化设计
在架构设计上,须要从传统的以利用驱动开发的形式造成的烟囱式技术栈,转变为谋求服务共享复用思路的层次化设计。
下图是企业数据平台的设计思路,做的一个概要的设计参考架构,它不仅蕴含了技术底层,还有数据业务核心层和业务服务层。
最上层是间接服务于业务的服务层,提供 App、web 等的之间拜访和交互能力;中间层是企业的数据业务核心,也是最外围的局部,它蕴含企业积淀的各种无效的业务服务和数据服务,业务依照 DDD 的准则进行服务划分,数据都做了无效的建模造成数据资产,这可能蕴含数据仓库、数据湖或者数据中台的建设;而最底层应该是云根底平台,提供包含大数据、AI、Kubernetes、容器、数据库、计算、网络、平安等在内的技术能力。
— 小结—
本文介绍了企业数字化转型的三层业务模式,给出了平台建设的整体思路,以及一些根底能力要求和建设上的考量。置信大家通过浏览本文,对企业数字化建设曾经有了根底概念。那么面对纷繁复杂的数据起源,多元化的数据结构,企业数据平台建设该从何处动手呢?哪个数据管理架构适宜本人的企业呢?下一篇将介绍数据仓库、数据集市、数据湖。