关于数据库:企业数据平台建设的基石构建统一的数据存算能力

2次阅读

共计 5039 个字符,预计需要花费 13 分钟才能阅读完成。

随着企业数字化水平的逐步提高,数字化业务对数据管理的需要也继续深入。依据企业自身所处的数字化水平不同,咱们将企业的数据平台的建设总结为五个阶段,本篇咱们对对立的数据存储与算力做介绍。

— 整体介绍 —

企业倒退的战略目标就是为了更好地为企业和社会发明价值,而从数据中发明价值也是发明价值的重要一个环节。数据平台的建设须要可能撑持起这个总体目标,同时联合企业本身状况实现一个可继续演进的技术架构。

互联网企业引领着数据时代,以 Google、Facebook、Amazon 为代表的企业曾经实现了从 IT 巨头到 DT 巨头的转变。这些公司借助其在大数据、云计算、人工智能的技术倒退劣势,疾速实现业务数据化、数据资产化和企业经营数据化,减速商业价值的转化,在引领技术风向的同时取得了微小的商业胜利。

具体到落地上,随着企业数字化水平的逐步提高,数字化业务对数据管理的需要也继续深入。此外,随着近年来数据因素市场的疾速倒退,局部有大量高价值数据资源的企业还能够将其数据产品化,并买通到其余企业的通道,从而通过数据流通发明价值。依据企业自身所处的数字化水平不同,咱们将企业的数据平台的建设总结为如下的五个阶段,如下图所示:

除了无形的零碎建设外,配套的数据组织和能力建设也是数据平台建设的十分要害的体系建设,包含分布式系统运维能力、数据整合、数据治理、数据迷信建模、数据产品开发与公布等能力,随着数据安全相干的法律法规的落地,企业甚至要求技术管理者有足够体系的法律常识并将其使用于数据产品的价值化发明过程中。

— 对立的数据存储与算力根底概述 —

企业启动业务数字化的策略后,首先须要解决的问题是如何标准、高效地收集各类业务过程依赖及产生的数据,其次是如何在迷信的框架内,由浅至深地逐渐加以开发和利用。这个时候企业外部很容易达成统一,须要布局一个对立的数据根底平台,可能将企业内散落在各地的数据会集起来,并提供对这些数据做进一步摸索的能力。在物理上,企业须要借助平台来撑持海量且持续增长的数据存储,并且提供数据分析和计算能力,打下这些根底后,数据团队就能够将企业内的数据继续地会集进来,为后续的数据化工作提供生产资料和生产工具。

随着大数据技术的疾速倒退以及企业摸索教训的积攒,在构建对立的数据存算根底能力的过程中,行业里逐步造成了一套欠缺的方法论体系,次要分为平台体系建设和技术能力体系建设。

在平台体系建设方面,个别采纳基于 Hadoop 体系的大数据平台或分布式数据库,来构建一个企业级数据湖,可能撑持企业外部的结构化、半结构化、非结构化数据的存储与剖析,此外为了可能撑持更多的实时性数字业务,个别在数据湖的建设过程中就会同步建设计算能力层,来反对实时计算、离线数据批处理计算以及高并发的在线剖析与查问类业务。

在这个阶段,企业的技术团队须要建设的技术能力次要包含数据整合能力、数据开发能力、平台运维与平安治理能力。数据整合指的是将企业外部的数据通过自动化的伎俩会集到数据湖中,并且会做一些技术上的数据开发工作(如不同数据库的类型转换,必要的数据补全等),让数据湖中能够积攒出可用的数据。数据整合的形式能够包含离线(如 T +1)、准实时(分钟级)与实时(秒级),相应的技术难度、可接入的数据库类型等也会不同,要求的撑持工具和技能也会有较大差别。平台运维和平安治理能力是为了保证数据湖的业务连续性和安全性,因为个别数据湖都采纳分布式架构的根底软件,与传统集中式数据库有较大的运维治理差别,因而企业相干团队须要建设起分布式系统的运维治理能力,包含高可用、集群扩缩容、监控告警、权限治理、全局审计等相干的运维畛域。

 — 数据存储与算力性能要求 —

数据存算根底层是整个数据平台层的根底,因而企业在设计上要充分考虑对可能的业务状态的性能撑持能力,以及架构上的可继续演进能力。

在性能的设计上,因为企业的业务会有各种类型数据生成,如经营治理类的文档数据、票据、合同数据,制作畛域的时序数据、影响数据,地位类的天文数据等,因而存储平台须要反对结构化数据和多种非构造数据的解决能力。在可解决的数据量级上,企业要充沛预估将来可能接入的数据量级,尤其是对一线业务单位可能生成的大量制作流程数据、监控治理数据等做好容量布局,因而根底平台对存储和计算的数据容量,须要有很强的扩展性,能够最高反对 PB 级数据存储。在数据整合层面,根底平台层须要反对对数据的高并发写入、搜寻、查问等,并且反对规范的 SQL 语言做开发,这样就能够很好地应用企业外部已有的数据工具。此外,根底平台须要反对对数据的高并发的事务操作,保证数据 ACID,从而具备撑持重要业务的技术根底,2019 年后多个开源我的项目开始反对分布式事务,也推动了新一次大数据技术的疾速倒退周期。在计算能力层面,须要可能对数据做批处理的碰撞剖析,以及实时的写入或计算。

除了根底平台能力层以外,配套的工具可能晋升数据团队的工作效率,减速他们的技术能力建设过程。因而,根底平台层须要提供比拟便捷的数据整合工具,可能将业务数据库对的底层数据库中的数据整合到数据平台中来,最好可能反对离线与实时的混合形式。随着国内信创产业的继续倒退,对国产数据库和平台的撑持也是必要条件之一。而对运维和平安治理团队来说,图形化的运维管理工具和平安管理工具也是必须的,前者能够让运维者不便做基于图形化页面来做平台内服务的配置管理、服务启停、存储扩缩容、计算弹性调整等运维操作,而后者能够让平安运维人员来设置正当的零碎拜访控制策略,配置数据库表的权限,以及对数据操作的审计操作等。

— 数据存储与算力架构要求 —

根底平台层的架构对将来平台可能撑持的业务能力至关重要,过来十多年来大数据技术疾速倒退,涌现了多种不同的技术架构和一些明星产品和技术,如最早的 Hadoop 技术体系,到前面流批一体、存算拆散、湖仓一体架构,以及最近涌现的云原生架构、多模型数据库架构等。这些技术社区的倒退都是从某些方面推动了根底平台架构的倒退,不过因为技术复杂度问题和普遍存在的技术宣传超过技术自身的问题,入门者比拟难有充沛的、主观感性的全面意识。为了解决这个问题,咱们对相干的技术架构须要做了一个形象和总结,并在第二章对不同的技术社区针对性的合成和阐述。

  • 业务撑持层

业务撑持层次要负责对数据平台下层数据利用的撑持,个别基于 SQL 或衍生 API 来提供开发能力,通过利用编排等形式提供数据利用的资源管理能力,同时配套提供平安治理和运维相干的性能撑持,因而业务撑持层次要的架构要求包含如下几点:

  1. 高并发、高吞吐
    数据利用广泛具备一些高并发或高吞吐的个性,如面向消费者的数据产品广泛有高并发的设计要求,而实时计算类利用的数据流转与读写,在设计上个别都会保障吞吐量高,因而业务撑持层就须要保障对外服务的高并发和高吞吐。落实到技术上,个别数据平台都有 SQL 编译器、连贯管理器等相干的模块,为利用提供并发的 JDBC/ODBC 连贯和数据拜访能力,这也就要求 SQL 编译器等模块有较高的性能。
  2. 高可用
    因为数据利用大多是计算密集或者 IO 密集的,对资源耗费较大,为了保障平台和利用的高可用,在架构上咱们须要保障整体软件栈的高可用性,即便在物理硬件呈现问题的状况下,服务可能失常运行。咱们能够通过分布式软件的高可用设计来保障平台软件层的高可用,再通过提供给应用层基于容器技术的利用编排技术来保障应用层的高可用。
  3. 链路平安管控
    数据链路平安是企业软件的根底要求,包含惯例的认证、受权和审计,还可能包含为了利用的功能性平安而采取的细粒度的安全策略管控,如数据利用依照白名单或黑名单来管制接入、提供数据拜访限流等措施。这要求所有的数据拜访接口和利用都能提供比较完善的数据安全架构设计。
  • 存储与计算层
    存储与计算层是根底平台的外围局部,也是最要害的能力因素,晚期企业在选型根底平台的时候会偏重这方面的性能与架构。随着计算与存储层技术的疾速倒退,各种新型架构的分布式存储和计算技术不断涌现,都在尝试去解决不同场景下的利用技术需要,不过往上形象起来,次要包含这几点:
  1. 分布式
    分布式技术是整个大数据技术的外围,也是新的计算规范范式。分布式存储、分布式计算等技术是撑持行业数字化的根底能力。
  2. 可扩展性
    因为企业数据平台是为了将来数十年的企业数据业务倒退而设计的根底层,因而平台肯定是随着业务继续演进的,平台无论是在横向、纵向的可扩展性方面,还是架构自身的可扩展性上,都须要可能做到较高的线性能力。横向的可扩展性指的是能够通过减少服务器数量来晋升解决能力,无论是存储平台还是计算引擎,都须要反对从 GB 到 PB 级别的数据能力。纵向的可扩展性指的是能够通过单台服务器的资源晋升来带动性能晋升。架构的可扩展性指的是将来有更强的新型计算和存储能力,平台上能够继续的减少新类型的存储与计算引擎,从而满足不停呈现的新业务的须要。
  3. 多数据模型反对
    企业外部的数据业务自身具备丰盛的多样性,撑持业务的数据类型也就具备多样性。譬如经营治理类的数据个别以结构化的数据为主,而财务类数据利用就波及大量的合同、票据等半结构化数据,生产制作类业务须要大量的时序数据类的能力撑持。因而企业级数据平台就须要对多模型数据有很好的撑持能力,包含存储、计算、查问和生命周期治理等能力。
  4. 实时计算与批处理混合
    晚期的数据业务次要是数据仓库和数据湖的建设,次要波及数据的离线计算。近几年实时类数据业务蓬勃发展,如工业制作类的故障检测、银行业的在线风控、智能营销等外围业务场景,因而对平台的实时计算也有很高的要求。因而,数据平台根底层须要反对离线计算和实时计算模式,为新业务场景做好技术根底。
  • 资源管理层
    资源管理层是保证数据平台内的所有软件、服务和下层的数据利用如何部署装置、运行、如何调度和生命周期如何治理,以及对不同的业务部门如何保障所有软件的稳定性、隔离性和安全性。晚期的数据平台在资源管理上,都采纳硬件服务器间接部署的形式,依赖架构师的布局来落实资源管理,因而无奈保障实时变动的业务的无效资源管理。到 2017 年行业内开始呈现基于云技术来解决,目前比拟风行的形式有两种,一种是基于容器云和 Kubernetes 技术来提供分布式数据库或数据平台的资源管理,另外一种形式就是基于私有云的基础设施来交付,次要取决于企业的业务交付的模式和面向的业务客户状况。无论采纳哪种交付形式,数据平台根底层的资源管理架构要求能够简略形象为上面这几个要害因素:
  1. 多租户能力
    多租户指的是一个平台内能够依照不同的业务部门或组织单位划分独立的资源单位,每个资源单位内部署和运行的软件应用不同的 CPU、内存、磁盘等资源,互相隔离,因而不会相互争抢硬件资源,从而保障不同部门利用的稳定性。此外因为各个部门的数据敏感性要求不一,数据长久化在不同的磁盘空间上,数据也有物理隔离性,因而能够为不同业务敏感度的数据提供不同的平安服务等级。
  2. 异构软硬件治理
    资源管理层的外围工作就是治理数据中心底层的软硬件资源,随着 AI 技术的倒退,大量新型减速设施如 GPU 成为数据中心的标配,此外摩尔定律继续推动半导体行业的倒退,一个数据中心会呈现多种资源配置的硬件资源,譬如局部服务器存储密度高,局部服务器的内存密度低等。因而,资源管理层须要可能对立无效的治理起这些异构的软硬件环境,可能依照业务的特点将利用下发到适合的服务器上运行,进步根底平台层的运行效率。
  3. 多种生命周期的数据工作治理
    从资源管理层的视角来看,数据工作分为短生命周期和长生命周期两种。短生命周期工作包含相似机器学习模型训练程序、数据 ETL 程序等,他们都是一次启动实现计算后就完结,个别生命周期都是几个小时以内甚至是秒级。长生命周期指的是 7 ×24 小时运行的数据利用,如对外服务的 AI 推理利用、挪动 APP 的数据后盾服务等。晚期的数据资源框架如 Apache YARN 都是针对短生命周期的工作的治理而设计的,不能反对长生命周期的工作。
  4. 国产软硬件生态反对国内企业须要可能基于国产信创相干技术来构建整体的生态,平台本身也须要满足国产化的相干要求,以后这是一个强架构要求,尤其是国计民生相干的行业,如金融、能源、交通、政府等。

— 小结—

本篇介绍了企业级数据平台建设的最根底层—数据存储与算力根底层,从性能要求和架构要求两方面分析了建设思路。那么实现了数据存储和算力根底平台建设和数据资源归集后,如何将有业务语义和业务价值的数据资源梳理出,并与业务衔接起来?下一篇数据资产化为你解读。

正文完
 0