数据湖加速器 GooseFS 是由腾讯云推出的高性能、高可用、弹性的分布式缓存计划。依附对象存储(Cloud Object Storage,COS)作为数据湖存储底座的老本劣势,为数据湖生态中的计算利用提供对立的数据湖入口,减速海量数据分析、机器学习、人工智能等业务拜访存储的性能。

GooseFS 采纳了分布式集群架构,具备弹性、高牢靠、高可用等个性,为下层计算利用提供对立的命名空间和拜访协定,不便用户在不同的存储系统之间治理和流转数据。

零、产品背景

近些年来以对象存储作为对立数据湖存储的趋势越来越显著。对象存储具备低成本、高牢靠、弹性等个性,因而很适宜信息爆炸时代海量数据的存储,越来越多的企业将大数据存储从 HDFS 迁徙到对象存储中,采纳对象存储或者对象存储+HDFS混合存储架构实现企业级冷热数据分层计划。但在数据湖计划下,企业依然面对以下问题:

性能问题:大数据场景中,Map 和 Reduce环节均须要频繁对文件进行List 和 Rename 操作;但对象存储的扁平式架构设计导致在这些操作上人造具备性能瓶颈。此外,数据跨机房存储会进一步减少数据湖架构下的申请提早,而近年来流批一体的利用越来越宽泛和深刻,大数据业务对实时性要求越来越高,因而须要尽可能让热数据更凑近计算端,以便晋升业务性能。

老本问题:对于离线大数据业务而言,往往须要尽可能疾速地拉取大量反复的数据到计算集群中进行剖析,在数据湖的存算拆散架构下,会对存储带宽有很大的压力。这种模式下峰值带宽高,均匀带宽小,容易产生大量的资源节约和老本耗费。因而将热数据缓存到计算节点,缩小带宽耗费可能升高业务老本。

运维问题:相当多的业务采纳 HDFS 和 对象存储等不同存储服务构建混合存储架构,在这种业务模型下须要保护多种不同的存储接口,减少了运维的复杂度。因而,如果有一套存储服务可能对接不同的后端存储系统,为下层计算业务提供统一的拜访视图,将能极大地缩小业务开发的难度,晋升存储服务应用效率。

一、产品性能

GooseFS 旨在提供一站式的缓存解决方案,在利用数据本地性和高速缓存,对立存储拜访语义等方面具备人造的劣势;GooseFS 在腾讯云数据湖生态中扮演着“上承计算,下启存储”的外围角色,如下图所示。

GooseFS 基于开源大数据缓存计划 Alluxio 进行设计和研发,相较于开源计划,GooseFS 提供了更多要害个性,稳定性和性能优化;同时深度交融了腾讯云生态,对接了腾讯云TKE、EMR等计算服务,为用户提供开箱即用的能力。

次要性能如下:

缓存减速和数据本地化:GooseFS 能够与计算节点混合部署进步数据本地性,利用高速缓存性能解决存储性能问题,进步读写对象存储 COS 文件的效率。

交融存储语义:GooseFS 下层对立的接口协议,反对对接对象存储COS,云上HDFS和私有化存储CSP,并且针对腾讯云COS,CHDFS,CSP等产品做了非凡优化,实用于多种生态和利用场景。

对立的腾讯云相干生态服务:包含腾讯云监控、日志和鉴权的反对。GooseFS 曾经顺利对接腾讯云 EMR,腾讯云 TKE 和腾讯云 EKS 等;同时反对对接腾讯云监控,腾讯云日志服务 CLS 和腾讯云 ES,Prometheus和 Grafana 等服务。

元数据管理性能:GooseFS 反对依照 Hive Table 或者 Table partition 级别将存储在COS或者CHDFS 上的数据异步缓存到本地节点;反对依照 Namespace 配置不同元数据管理计划。

二、产品劣势

GooseFS 在数据湖场景中具备如下几点显著的劣势:

1.数据 I/O 性能

GooseFS 部署提供近计算端的分布式共享缓存,下层计算利用能够通明地、高效地从远端存储将须要频繁拜访的热数据缓存到近计算端,减速数据 I/O 性能。

GooseFS 提供了感知元数据 Table 的性能,可能减速大数据场景下列出文件列表(List),重命名文件(Rename)等元数据操作的性能。此外,业务能够按需抉择MEM, HDD, SSD,NVME SSD 等不同的存储介质,均衡业务老本和数据拜访性能。

2.存储一体化

GooseFS 提供了对立的命名空间,为下层业务提供了对立的接口协议,底层反对对接COS、CHDFS、CSP等不同的存储服务,简化业务侧运维配置。存储一体化可能买通不同数据底座的壁垒,不便下层利用治理和流转数据,晋升数据利用的效率。

3.生态亲和性

GooseFS 全兼容腾讯云大数据平台框架,也反对客户侧自定义的本地部署,具备优良的生态亲和性。业务侧不仅能够在腾讯云弹性 MapReduce 产品中应用,GooseFS 减速大数据业务,也能够便捷地将 GooseFS 本地化部署在私有云 CVM 或者自建 IDC 内。此外,GooseFS 也反对了通明减速能力,反对通过 COSN Interface一拜访对象存储;对于曾经应用 COS 大数据插件 COSN 的用户,能够十分不便地将 GooseFS 引入到 COSN 中应用。

三、结语

GooseFS 旨在提供一站式的数据湖缓存减速解决方案,不便用户在不同的存储系统治理和流转数据,晋升您的数据利用效率。

如果您想要具体理解 GooseFS,并进行部署和体验,能够点击浏览原文查看 GooseFS的配置文档。

                                      — END —