共计 2536 个字符,预计需要花费 7 分钟才能阅读完成。
数据仓库倒退历程很久,随着云计算等技术倒退以及海量数据利用场景等呈现,对数据仓库提出全新要求,高性能、实时性、云原生等成为数据仓库倒退关键词,也因而演变出不同的数仓倒退门路。
在字节跳动十年倒退历程中,各类业务数据量收缩,一直挑战数据能力边界,也让字节跳动在数据链路优化解决、晋升剖析效率、数据仓库选型、数据引擎架构搭建等层面积攒丰盛教训。
IDC 2021 年报告数据显示,2021 年寰球大数据软件市场规模达预计可达 5414.2 亿人民币。“十三五”期间,我国大数据产业疾速起步,产业倒退获得显著功效,《“十四五”大数据产业倒退布局》更是提到:到 2025 年,我国大数据产业规模预计将冲破 3 万亿元。
越来越多企业正在摸索本身数字化转型,政务、金融等各行业也在一直进行数字化产业降级,对数据仓库的易用性、性能等提出了更高的要求。
本篇从业务需要和技术趋势两个层面,别离介绍新时代下数据仓库发展趋势。
业务需要:实时性、低成本、疾速上云
在企业级数据仓库场景中,须要交融来自多个业务零碎数据库的业务数据,比方交易记录,包含银行存取记录、用户订单记录等,大多数为千万至亿条规模;比方用户行为日志,往往是数据量最大的数据源,包含用户拜访日志、用户操作记录等,数据量通常是业务数据的数百倍。
随着大数据利用的深刻倒退,最外围的业务需要如下:
- 进步剖析的实时性
最近 10 年,以 hadoop 技术体系为代表的大数据平台大规模部署,大大小小的企业和政府部门都搭建了大数据平台和剖析利用,以隔天和小时级数据提早的利用失去了遍及;以 Flink 为代表的实时计算引擎解决了数据统计场景的时效性问题。
随着业务的倒退和技术的提高,业务部门不再满足于 T+1 的剖析需要和固化的实时统计,更冀望业务产生后秒级 / 分钟级提早即可看到统计后果;同时,性能上冀望实现交互性探查剖析数据,毫秒 / 秒级返回后果保持良好的用户体验。
在新的企业级数据架构中,有些曾经构建了大数据平台的企业,会应用云原生数据仓库构建实时数仓来满足有高时效性要求的业务,以此作为 Hadoop 平台的补充;有些数据量低于 1PB,且没有构建 Hadoop 等大数据平台的企业,则间接以云原生数据仓库构建轻量级数据仓库。
- 老本可控
大数据利用逐渐从互联网企业和政府部门,并深刻到工业企业。各行业都先后进行了业务数据的大集中、用户行为数据和 IOT 数据的宽泛采集存储,企业和政府单位的数据量更是以每年出现 30% 以上的增长速度。
在过来集中式架构的数据仓库计划中,建设老本与数据总量正相干,导致老本居高不下;采纳基于分布式架构的大数据计划中,因为存储计算耦合,为了满足存储空间收缩,须要洽购越来越多的服务器。实时的数据采集和存储更是导致数据量继续高速增长。
在新的云原生数据仓库计划中,既要解决数据和利用增长带来的扩展性问题,同时要解决老本问题,将数据存储和计算成本处于可控范畴。
- 反对业务上云
依据智库报告的钻研,目前业务上云曾经造成趋势,除游戏视频电商等泛互联网企业之外,在政务、金融、制造业等畛域,正在以公有云和混合云的形式继续上云,从而实现数据上云。
政务云和金融云是两大次要的行业云,平台建设程度较高,同时制造业、医疗卫生、交通等畛域的行业云也在减速改革和放慢建设行业云平台大规模建设和降级,实现数字化治理和经营。
制造业设施上云和云化革新可能实现制造业企业的数据互通和业务互联,撑持造成以数据驱动的智能化制作、实现供应链和上下游业务的网络化协同,以及实现对业务和设施的数字化治理等制造业倒退新模式,引领制造业数字化转型。
业务上云从而数据上云,也在推动数据处理平台的云原生降级。
技术趋势:数据仓库进入云原生时代
近年来,以 Snowflake 为代表的云原生数据仓库失去了客户的认同,市场上获得了微小的胜利。其外围性能和技术点是云原生的架构设计,利用 IAAS 的高可用和资源池化个性,通过存储计算拆散、多租户隔离、容器化技术,提供数据仓库的扩展性、稳定性、可维护性和易用性,整体上进步资源利用率。
国内上,除了 Snowflake 之外,谷歌的 BigQuery、AWS 的 RedShift、Azure 的 Synapse 都实现了云原生的架构降级,实现了存储计算拆散和多租户治理。Databricks、Fireblot 等新生的厂商及产品如雨后春笋一样涌现进去。
在国内,阿里云、华为云、腾讯云都推出了本人的云原生数据仓库产品;PingCap 的 TiDB、鼎石科技的 StarRocks 等独立产品也抉择了云原生路线。
OLAP 产品有如下几个技术趋势:
- 云原生的整体架构
基于公共云、公有云或混合云的架构设计,利用容器化和微服务等云原生技术,以此实现麻利开发、麻利运维,人造解决扩展性问题。
- 存储服务化
对数据存储层进行对立形象,灵便采纳 HDFS 块存储或 S3 等对象存储作为数据存储载体,最终实现存储服务化,便于解决存储扩展性、读写吞吐瓶颈问题、数据一致性问题,同时能大幅升高存储老本。此外,实现存储服务化后,对于产品的跨云兼容和多云部署带来不便。
- 计算资源池化
因为 OLAP 利用负载的稳定特点,特地在反对多租户的场景下,通过计算资源池化,依据实时负载进行计算资源对立调度治理,实现资源隔离的同时,又能反对资源共享和实时弹性扩缩。从而进步集群整体利用率。
- 反对混合负载
在企业级利用中,OLAP 场景能够细分为交互查问和批量计算,前者要求毫秒 / 秒级响应并反对高并发查问,后者能够承受分钟 / 小时级提早,但要求计算性能的稳定性和较好的 failover 机制。自适应反对多场景的混合负载是 OLAP 产品的外围能力。
- 其余
OLAP 平台中的计算资源、内存、网络带宽是最贵重的资源,系统资源利用率通常围绕这三个资源进行优化。很多产品开始在计算 Serverless 化、分布式缓存等方向进行摸索。
字节跳动外部有十分多剖析引擎,包含 ClickHouse、Druid、Elastic Search、Kylin 等,为什么答案是 ClickHouse,下篇将为您揭晓!
欢送点击理解 ByteHouse
基于开源 ClickHouse 的剖析型数据库,反对用户交互式剖析 PB 级别数据,通过多种自研表引擎,灵便反对各类数据分析和利用。
欢送关注 字节跳动数据平台 微信公众号,回复【1】进入官网交换群