日前，腾讯云专家工程师严俊明老师，在云+社区技术沙龙「云原生」专场，分享了基于对象存储的云原生数据湖最新技术冲破，包含云原生数据湖业务场景以及技术架构。

上面，让咱们一起回顾下严老师的精彩演讲内容。

一、大数据存储云原生趋势解析

第一阶段：存储一体，孤岛。十几年前，网络速度远低于本地磁盘吞吐速度的时候，本地化读取数据能够换取更高的吞吐性能。但随着网络速度一直放慢，磁盘吞吐速度逐步成为计算瓶颈，本地盘HDFS压力加大，运维老本升高，可网络带宽资源却闲置，导致业务效率低下。

第二阶段：存算拆散，存储、计算解耦。 解耦计算和存储负载，零碎负载平衡调度更加灵便，零碎的资源利用率进步，节约老本，能够满足业务快速增长的需要。

第三阶段：数据湖，存储对立。随着业务多样化倒退，业务间数据共享变得艰难，而数据湖是一个集中式存储池，反对多种数据源，无缝对接各种计算剖析和机器学习平台，实现数据处理与剖析，突破数据孤岛。

第四阶段：云原生，计算对立。随着数据湖计算节点调度效率升高，云原生技术能构建和运行可弹性扩大的利用，跨多云构建微服务，继续交付部署业务生产零碎。

二、对象存储架构及数据湖场景挑战

对象存储 COS 是腾讯云提供的一种存储海量文件的分布式存储服务，具备高扩展性、低成本、高牢靠、高可用、EB级扩大能力。通过控制台、API、SDK 和工具等多样化形式，用户可简略、疾速地接入 COS，进行多格式文件的上传、下载和治理，实现海量数据存储和治理。

相比传统分布式存储系统，COS 采纳超大规模分布式存储引擎：YottaStore，可轻松操控百万级超大规模存储集群。YottaStore冲破了单点Master的瓶颈，做到单集群可达百万节点的管制，且不须要拆分元数据。同时，元数据能存得更小，治理得更多，1Byte元数据能够治理2GB的物理空间。

此外，YottaStore是原生多AZ，在资源管理、调度思考AZ，所有服务器独特承当吞吐，对数据一致性有人造的保障。加上分钟级RTO，RPO为0，能够彻底解放下层业务，数据冗余度低，存储老本大幅度缩小。

为了反对以 COS 为核心的大数据存算拆散架构以及云端数据湖，Apache Hadoop-3.3.0公布了COSN文件系统，兼容HCFS接口，全笼罩HDFS大数据计算利用。

而数据湖场景面临的次要有3点：

元数据延时高
元数据非原子性
带宽需要大、老本高

三、对象存储数据湖三级减速

1. 元数据减速技术（用户侧）

文件组织以文件树模式治理，文件拆成块治理，块又会进一步拆解存储到对象存储 COS 上，是一种扁平化构造。反对目录级别并发，分区可扩大，也可跨分区。

减速读操作，尽可能内存化，从内存间接读取数据。

2. 缓存减速技术

元数据缓存到计算端（用户侧），提前预热数据，从本地间接读取，缩小网络带宽限度，进步拜访性能。

进步缓存命中率，进步资源利用率，极大升高网络带宽老本。

反对云原生部署，部署形式灵便

3. AZ数据减速技术——COS加速器（存储端）

AZ Locality
专有减速域名拜访资源；
缓存数据强统一；
能够减速Bucket，或者prefix；
同一个Bucket，反对多个加速器
反对存量Bucket，随时Enable/Disable；
如果miss cache，从COS回源

四、EMR On COS 存算拆散实际分享

Hive On COS 存算拆散优化实际

hive的例子本来是存算一体架构，数据含有大量的本地化策略、逻辑。可数据上传到 COS 后，不再含有本地逻辑，会从新计算、切分数据大小，map从274个缩小到5个，从而进步零碎并发，升高零碎运行工夫。

Spark On COS 存算拆散优化实际

spark采纳串行、单线程操作，网路延时过大。存算拆散实际对spark进行并发减速，放慢单线程操作工夫，从而进步spark的运行速度。

以上是严老师分享内容的简要概括，更多精彩内容，能够点击下方视频观看。
https://www.qq.com/video/w323…

对于咱们

云+社区「腾讯云存储团队」主页，涵盖了腾讯云存储团队最新动静、团队信息、产品矩阵、技术文档、视频教程等，欢送关注或留言，给出您的贵重倡议。

关于对象存储:三级加速打造高性能云原生数据湖

一、大数据存储云原生趋势解析

二、对象存储架构及数据湖场景挑战

三、对象存储数据湖三级减速

四、EMR On COS 存算拆散实际分享

对于咱们

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于对象存储:三级加速打造高性能云原生数据湖

一、大数据存储云原生趋势解析

二、对象存储架构及数据湖场景挑战

三、对象存储数据湖三级减速

四、EMR On COS 存算拆散实际分享

对于咱们

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复