共计 1686 个字符,预计需要花费 5 分钟才能阅读完成。
日前,腾讯云专家工程师严俊明老师,在云 + 社区技术沙龙「云原生」专场,分享了基于对象存储的云原生数据湖最新技术冲破,包含云原生数据湖业务场景以及技术架构。
上面,让咱们一起回顾下严老师的精彩演讲内容。
一、大数据存储云原生趋势解析
第一阶段:存储一体,孤岛。 十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据能够换取更高的吞吐性能。但随着网络速度一直放慢,磁盘吞吐速度逐步成为计算瓶颈,本地盘 HDFS 压力加大,运维老本升高,可网络带宽资源却闲置,导致业务效率低下。
第二阶段:存算拆散,存储、计算解耦。 解耦计算和存储负载,零碎负载平衡调度更加灵便,零碎的资源利用率进步,节约老本,能够满足业务快速增长的需要。
第三阶段:数据湖,存储对立。 随着业务多样化倒退,业务间数据共享变得艰难,而数据湖是一个集中式存储池,反对多种数据源,无缝对接各种计算剖析和机器学习平台,实现数据处理与剖析,突破数据孤岛。
第四阶段:云原生,计算对立。 随着数据湖计算节点调度效率升高,云原生技术能构建和运行可弹性扩大的利用,跨多云构建微服务,继续交付部署业务生产零碎。
二、对象存储架构及数据湖场景挑战
对象存储 COS 是腾讯云提供的一种存储海量文件的分布式存储服务,具备高扩展性、低成本、高牢靠、高可用、EB 级扩大能力。通过控制台、API、SDK 和工具等多样化形式,用户可简略、疾速地接入 COS,进行多格式文件的上传、下载和治理,实现海量数据存储和治理。
相比传统分布式存储系统,COS 采纳超大规模分布式存储引擎:YottaStore,可轻松操控百万级超大规模存储集群。YottaStore 冲破了单点 Master 的瓶颈,做到单集群可达百万节点的管制,且不须要拆分元数据。 同时,元数据能存得更小,治理得更多,1Byte 元数据能够治理 2GB 的物理空间。
此外,YottaStore 是原生多 AZ,在资源管理、调度思考 AZ,所有服务器独特承当吞吐,对数据一致性有人造的保障。加上分钟级 RTO,RPO 为 0,能够彻底解放下层业务,数据冗余度低,存储老本大幅度缩小。
为了反对以 COS 为核心的大数据存算拆散架构以及云端数据湖,Apache Hadoop-3.3.0 公布了 COSN 文件系统,兼容 HCFS 接口,全笼罩 HDFS 大数据计算利用。
而数据湖场景面临的次要有 3 点:
- 元数据延时高
- 元数据非原子性
- 带宽需要大、老本高
三、对象存储数据湖三级减速
1. 元数据减速技术(用户侧)
文件组织以文件树模式治理,文件拆成块治理,块又会进一步拆解存储到对象存储 COS 上,是一种扁平化构造。反对目录级别并发,分区可扩大,也可跨分区。
减速读操作,尽可能内存化,从内存间接读取数据。
2. 缓存减速技术
元数据缓存到计算端(用户侧),提前预热数据,从本地间接读取,缩小网络带宽限度,进步拜访性能。
进步缓存命中率,进步资源利用率,极大升高网络带宽老本。
反对云原生部署,部署形式灵便
3. AZ 数据减速技术——COS 加速器(存储端)
- AZ Locality
- 专有减速域名拜访资源;
- 缓存数据强统一;
- 能够减速 Bucket,或者 prefix;
- 同一个 Bucket,反对多个加速器
- 反对存量 Bucket,随时 Enable/Disable;
- 如果 miss cache,从 COS 回源
四、EMR On COS 存算拆散实际分享
Hive On COS 存算拆散优化实际
hive 的例子本来是存算一体架构,数据含有大量的本地化策略、逻辑。可数据上传到 COS 后,不再含有本地逻辑,会从新计算、切分数据大小,map 从 274 个缩小到 5 个,从而进步零碎并发,升高零碎运行工夫。
Spark On COS 存算拆散优化实际
spark 采纳串行、单线程操作,网路延时过大。存算拆散实际对 spark 进行并发减速,放慢单线程操作工夫,从而进步 spark 的运行速度。
以上是严老师分享内容的简要概括,更多精彩内容,能够点击下方视频观看。
https://www.qq.com/video/w323…
对于咱们
云 + 社区「腾讯云存储团队」主页,涵盖了腾讯云存储团队最新动静、团队信息、产品矩阵、技术文档、视频教程等,欢送关注或留言,给出您的贵重倡议。