关于数据仓库:数仓领域的未来趋势解读

更多技术交换、求职机会、试用福利，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群

IDC 2021年报告数据显示，2021年寰球大数据软件市场规模达预计可达5414.2亿人民币。“十三五”期间，我国大数据产业疾速起步，产业倒退获得显著功效，《“十四五”大数据产业倒退布局》更是提到：到2025年，我国大数据产业规模预计将冲破3万亿元。

越来越多企业正在摸索本身数字化转型，政务、金融等各行业也在一直进行数字化产业降级，对数据仓库的易用性、性能等提出了更高的要求。
本篇从业务需要和技术趋势两个层面，别离介绍新时代下数据仓库发展趋势。

业务需要：实时性、低成本、疾速上云

在企业级数据仓库场景中，须要交融来自多个业务零碎数据库的业务数据，比方交易记录，包含银行存取记录、用户订单记录等，大多数为千万至亿条规模；比方用户行为日志，往往是数据量最大的数据源，包含用户拜访日志、用户操作记录等，数据量通常是业务数据的数百倍。
随着大数据利用的深刻倒退，最外围的业务需要如下：

1）进步剖析的实时性

最近10年，以hadoop技术体系为代表的大数据平台大规模部署，大大小小的企业和政府部门都搭建了大数据平台和剖析利用，以隔天和小时级数据提早的利用失去了遍及；以Flink为代表的实时计算引擎解决了数据统计场景的时效性问题。

随着业务的倒退和技术的提高，业务部门不再满足于T+1的剖析需要和固化的实时统计，更冀望业务产生后秒级/分钟级提早即可看到统计后果；同时，性能上冀望实现交互性探查剖析数据，毫秒/秒级返回后果保持良好的用户体验。

在新的企业级数据架构中，有些曾经构建了大数据平台的企业，会应用云原生数据仓库构建实时数仓来满足有高时效性要求的业务，以此作为Hadoop平台的补充；有些数据量低于1PB，且没有构建Hadoop等大数据平台的企业，则间接以云原生数据仓库构建轻量级数据仓库。

2）老本可控

大数据利用逐渐从互联网企业和政府部门，并深刻到工业企业。各行业都先后进行了业务数据的大集中、用户行为数据和IOT数据的宽泛采集存储，企业和政府单位的数据量更是以每年出现30%以上的增长速度。

在过来集中式架构的数据仓库计划中，建设老本与数据总量正相干，导致老本居高不下；采纳基于分布式架构的大数据计划中，因为存储计算耦合，为了满足存储空间收缩，须要洽购越来越多的服务器。实时的数据采集和存储更是导致数据量继续高速增长。

在新的云原生数据仓库计划中，既要解决数据和利用增长带来的扩展性问题，同时要解决老本问题，将数据存储和计算成本处于可控范畴。

3）反对业务上云

依据智库报告的钻研，目前业务上云曾经造成趋势，除游戏视频电商等泛互联网企业之外，在政务、金融、制造业等畛域，正在以公有云和混合云的形式继续上云，从而实现数据上云。

政务云和金融云是两大次要的行业云，平台建设程度较高，同时制造业、医疗卫生、交通等畛域的行业云也在减速改革和放慢建设行业云平台大规模建设和降级，实现数字化治理和经营。

制造业设施上云和云化革新可能实现制造业企业的数据互通和业务互联，撑持造成以数据驱动的智能化制作、实现供应链和上下游业务的网络化协同，以及实现对业务和设施的数字化治理等制造业倒退新模式，引领制造业数字化转型。

业务上云从而数据上云，也在推动数据处理平台的云原生降级。

技术趋势：数据仓库进入云原生时代

近年来，以Snowflake为代表的云原生数据仓库失去了客户的认同，市场上获得了微小的胜利。其外围性能和技术点是云原生的架构设计，利用IAAS的高可用和资源池化个性，通过存储计算拆散、多租户隔离、容器化技术，提供数据仓库的扩展性、稳定性、可维护性和易用性，整体上进步资源利用率。
国内上，除了Snowflake之外，谷歌的BigQuery、AWS的RedShift、Azure的Synapse都实现了云原生的架构降级，实现了存储计算拆散和多租户治理。Databricks、Fireblot等新生的厂商及产品如雨后春笋一样涌现进去。
在国内，阿里云、华为云、腾讯云都推出了本人的云原生数据仓库产品；PingCap的TiDB、鼎石科技的StarRocks等独立产品也抉择了云原生路线。
OLAP产品有如下几个技术趋势：

1）云原生的整体架构

基于公共云、公有云或混合云的架构设计，利用容器化和微服务等云原生技术，以此实现麻利开发、麻利运维，人造解决扩展性问题。

2）存储服务化

对数据存储层进行对立形象，灵便采纳HDFS块存储或S3等对象存储作为数据存储载体，最终实现存储服务化，便于解决存储扩展性、读写吞吐瓶颈问题、数据一致性问题，同时能大幅升高存储老本。此外，实现存储服务化后，对于产品的跨云兼容和多云部署带来不便。

3）计算资源池化

因为OLAP利用负载的稳定特点，特地在反对多租户的场景下，通过计算资源池化，依据实时负载进行计算资源对立调度治理，实现资源隔离的同时，又能反对资源共享和实时弹性扩缩。从而进步集群整体利用率。

4）反对混合负载

在企业级利用中，OLAP场景能够细分为交互查问和批量计算，前者要求毫秒/秒级响应并反对高并发查问，后者能够承受分钟/小时级提早，但要求计算性能的稳定性和较好的failover机制。自适应反对多场景的混合负载是OLAP产品的外围能力。

5）其余

OLAP平台中的计算资源、内存、网络带宽是最贵重的资源，系统资源利用率通常围绕这三个资源进行优化。很多产品开始在计算Serverless化、分布式缓存等方向进行摸索。

点击理解火山引擎ByteHouse更多产品信息

关于数据仓库:数仓领域的未来趋势解读

业务需要：实时性、低成本、疾速上云

1）进步剖析的实时性

2）老本可控

3）反对业务上云

技术趋势：数据仓库进入云原生时代

1）云原生的整体架构

2）存储服务化

3）计算资源池化

4）反对混合负载

5）其余

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于数据仓库:数仓领域的未来趋势解读

业务需要：实时性、低成本、疾速上云

1）进步剖析的实时性

2）老本可控

3）反对业务上云

技术趋势：数据仓库进入云原生时代

1）云原生的整体架构

2）存储服务化

3）计算资源池化

4）反对混合负载

5）其余

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复