关于数据库:引领云数仓创新浪潮-HashData闪耀PostgreSQL中国技术大会

3月3日-3月5日，第12届PostgreSQL中国技术大会在杭州举办。本次大会以“冲破•进化•共赢——安全可靠，共建与时机”为主题，以线上+线上联合的形式，邀请了PG畛域泛滥行业大咖、学术精英及技术专家，独特探讨数据库将来的倒退动静、技术冲破、实际案例和生态单干等话题。

HashData作为国内当先的PG技术栈实践者和重要的社区贡献者，受邀加入本次大会。来自HashData的技术专家团队，为观众出现了云数仓发展趋势、向量化与并行化实际等精彩演讲。

在本次大会上，HashData云数仓凭借高性能、高可用、弹性伸缩、高性价比等诸多劣势，在泛滥数据库产品中怀才不遇，荣膺“第12届PostgreSQL中国技术大会数据库最佳产品奖”。

                      图：HashData联结创始人马涛

数据仓库云服务的再演进
弱小的性能、敌对的运维要求和丰盛的生态使得PostgreSQL广受欢迎。然而随着云计算的疾速衰亡，用户对基于云原生架构的数据仓库需要引领了行业新一代技术栈的倒退。

在《数据仓库云服务的再演进》的主题演讲中，HashData联结创始人马涛从DWaaS（数据仓库即服务）技术演进、架构降级等角度论述了云数仓将来技术发展趋势。

在马涛看来，与传统数仓相比，云数仓在搭建、应用、扩容、运维等老本方面有着显著的劣势，“传统数仓用户实现扩容或者迁徙，通常须要两三周的工夫”。在这样的背景下，DWaaS成为当下数仓畛域的热门话题。

马涛认为DWaaS应该具备配置和管理工作更简略、迅速的加载和应用数据、欠缺的生态系统、反对多元化数据的解决、强统一的数据管理机制、多种计算工作需要等个性。同时，还可能提供高可用零碎和数据保护零碎，按理论应用计费，满足用户对云计算弹性计费的预期。

基于过来服务泛滥大型企业客户所积攒的丰盛实践经验，HashData提出了云端架构2.0的概念。

与上一代云原生架构相比，HashData云端架构2.0在资源管理、查问优化、容器化服务等方面实现了全方位晋升。

马涛认为，容器化服务曾经成为私有云基础设施。数据库内核模块的容器化，可能充分发挥容器化技术的劣势，更快地创立和启动模块，从公司外部研发测试到客户环境，都将会产生微小的改革。

HashData云端架构2.0将以容器化技术为基石，为客户带来更好的应用体验。

在网关服务方面，HashData云端架构2.0兼容PostgreSQL二进制协定，无缝与libpq/PostgreSQL JDBC等组件兼容；反对更多平安配置的HashData企业认证受权服务；反对通过SQL语句治理整个云服务；反对切换不同计算集群，更加高效地利用硬件资源，更容易实现负载平衡。

在查问优化服务/资源管理服务方面，HashData云端架构2.0中查问优化器和作业资源管理服务进一步实现无状态化，晋升这两个模块在业务运行中的容错度，缩小故障引起的业务中断和资源节约。优化服务可能依照理论数据存储信息、动静执行采样，以及进行智能查问打算缓存；作业资源管理服务可能实现全局资源调度、全局资源监控和作业调度。通过将模块拆分成独立服务，有助于进步硬件的资源利用效率。

在计算服务方面，HashData云端架构2.0反对计算集群的主动启动/主动进行性能、加强无状态计算服务节点的可靠性、反对基于负载的主动扩缩容，引入了基于Arrow的向量化执行引擎，加强了对象存储文件的缓存零碎。

马涛介绍，通过理论测试，本来客户从注册到实现数据库可用须要数分钟的工夫，而基于HashData云端架构2.0容器化平台革新之后，整个的操作过程只须要大概10秒钟即可实现。

“从用户的理论应用需要登程，咱们心愿尽可能地升高用户搭建和应用数仓的工夫和老本”，马涛说，HashData致力于升高数据分析的门槛，“让用户专一于外围数据分析上，而不是应答大量的配置以及管理工作。”

Cloudberry向量化与并行化实际
在“国产信创及数据库迁徙”技术专场上，HashData内核工程师宋东晓分享了Cloudberry向量化与并行化实际。近年来，随着海量数据的积攒，数据分析的需要进一步晋升。

PostgreSQL作为一个有着悠久历史的开源数据库，其稳定性和灵活性失去宽泛认可，很多企业也抉择PG作为单机底层架构，来构建大型分布式系统。

传统数据库执行查问打算通常采纳火山模型的形式，存在重复性执行多、反序列化代价高、数据局部性差等缺点。

现在，随着云计算技术的蓬勃发展，经典的SQL计算引擎逐步成为数据库系统的性能瓶颈，尤其是对于波及到大量计算的OLAP场景。

对于像HashData这样采纳云架构的数据仓库而言，向量化能够通过晋升单节点的执行能力，使整个集群的运算性能失去大幅度晋升。

宋东晓介绍，HashData在实现向量化的过程中，采纳了Apache软件基金会开源我的项目Apache Arrow。Arrow定义了规范的形式来示意可无效解决的内存数据，同时反对多种风行的编程语言，包含 Java、C、C++ 和 Python等。

OLAP场景广泛采纳列式存储。列存数据的高压缩比不仅节约了存储空间，同时在向量化运算过程中也有着人造的性能劣势。

HashData行将公布的Cloudberry产品，采纳了向量化执行插件，性能更独立，工程治理更不便，实现在不影响PG性能的根底上，减速数据分析性能。同时，Cloudberry全面集成了PG14.4内核，在数据库层面做了多处优化，尤其在并行化解决能力方面实现了大幅晋升。

宋东晓认为，向量化的关键在于尽可能地缩小公共流程的调用次数，从而升高整体的函数调用，同时也能够更好地利用数据局部性劣势来晋升cache命中率，并且能够利用SIMD指令做进一步减速。

此外，Cloudberry基于Arrow和其子我的项目Gandiva实现了一个既能够反对一般列式运算也能够反对JIT式的表达式计算框架。

在并行化方面，Cloudberry借鉴了PG14.4内核中的共享内存技术，通过让每一个执行器的运算节点在共享内存里竞争资源来主动取得负载平衡，从而实现启动多个过程，成倍升高运算工夫。

HashData荣获“数据库最佳产品奖”
中国技术大会作为PostgreSQL技术畛域的年度盛事，至今曾经胜利举办12届，也见证了PG开源生态在中国的建设、倒退和成熟。

HashData作为一款100%兼容PostgreSQL生态的数据仓库，间断多年加入PostgreSQL中国技术大会，同时始终以来以代码奉献、社区共建等形式积极参与PostgreSQL社区的发展壮大。为表彰企业翻新成就，激发翻新精力，大会特地设立颁奖环节，授予HashData“数据库最佳产品奖”。

HashData交融了传统数据库和云计算技术劣势，兼容PostgreSQL和Greenplum Database生态，生于云上，长于云上，助力企业在云计算时代下的数字化转型。

凭借当先的技术架构和丰盛的实践经验，HashData目前已在金融、政务、能源、交通、互联网等行业实现大规模商用部署。

将来，HashData将继续专一于PG畛域技术创新，踊跃拓展生态合作伙伴，为国产数据库生态的凋敝与倒退添砖加瓦。期待更多敌人与咱们一道，为打造当先的根底软件一直致力！