关于云存储:腾讯云-CHDFS-云端大数据存算分离的基石

随着网络性能晋升，云端计算架构逐渐向存算拆散转变，AWS Aurora 率先在数据库畛域实现了这个转变，大数据计算畛域也迅速朝此方向演变。

存算拆散在云端有显著劣势，岂但能够充分发挥弹性计算的灵便，同时集中的托管存储能够提供更大的容量和更低的老本，防止了云端大量自建存储集群的保护代价。

对象存储是宽泛应用的云端非结构化数据存储解决方案，越来越多的非结构化数据汇集于对象存储的数据湖中，随之而来的是对这些海量数据的剖析需要。

然而对大数据分析的存储系统来说，HDFS 接口是事实标准，HDFS 是大数据生态的存储基石。

原生的对象存储接口不兼容 HDFS，无奈间接应用。为反对计算存储拆散的大数据场景，对象存储通常提供了一个模仿层，实现 HDFS 语义到对象存储语义的转换，典型实现相似 s3n 和 cosn。然而这类实现不足对真正的文件系统接口的反对，基于对象存储的扁平目录构造无奈实现分层命名空间，在解决相似 rename 等操作时效率极低（理论是基于前缀复制关联的所有对象），对于 list、head 等频繁元数据操作的场景提早较高，一些对象存储系统还短少强一致性语义，不能保障写后读一致性，导致下层的大数据计算框架出错。

同时在数据流方面，诸如常见的文件 append 操作，s3n 和 cosn 等对象存储的模仿层也无奈反对。

为反对大数据存算拆散场景，须要从新设计云端存储系统，该零碎能够为云端大数据计算提供高效牢靠的存储基石，在实现有限存储的同时，重点满足对元数据的需要。

为此，咱们提出了一种 基于对象存储的通用分布式文件系统设计方案：cloud native hdfs，简称 CHDFS。

CHDFS 整体架构如图所示。

CHDFS，在对象存储之上，充分发挥云端劣势，构建可扩大的 metadata 层，实现对 HDFS 语义的反对。通过高度优化的 metadata 层，能够反对海量元数据的高效拜访。在元数据规模远超 HDFS 的状况下，达到靠近原生 HDFS 性能的成果。同时提供优化了读写数据流的 java 客户端，在反对高效元数据操作的同时，充分发挥了对象存储高吞吐和低成本的长处。

CHDFS 基于对象存储实现文件系统语义，数据托管给对象存储，把对象存储当做磁盘应用，在此基础上构建文件系统分布式元数据层，反对海量数据。基于对象存储托管数据，能够主动取得对象存储的劣势，如低成本，高牢靠，大吞吐，高可用等个性，容量可达到百 PB 级别。

CHDFS 元数据服务采纳分布式架构，在元数据读写方面做了较多优化，反对百亿级别的文件数据量，冲破了 hdfs namenode 规模限度，同时保障了严格的强统一语义。

比照 COS 和 HDFS，具备以下特点：

毫秒级别的原子 rename 操作，对目录和文件都实用；
元数据强统一，写入后立刻可见；
反对百亿级别的文件数量，远超 HDFS 规模，提早和 HDFS 相当；
单文件系统，元数据反对 10w 以上的 qps，满足大规模计算的高并发需要；
高可用，秒级的 ha 切换工夫；
元数据并行加载，冷启动速度比 HDFS 快 1 个数量级；
元数据跨区域 / 可用区复制，进一步提高可靠性；

CHDFS 提供了多种元数据引擎，在面临不同的利用场景时，用户能够有多种抉择，达到老本、容量和性能的均衡。

在接口上，CHDFS 齐全兼容 HDFS，能够轻松在两个零碎之间迁徙数据。

对象存储 COS 作为云端根底存储服务，为 CHDFS 提供了松软的数据底座，CHDFS 的文件数据分块后存储在 COS，具备以下长处：

海量存储，反对百 P 级别的数据量，容量主动扩大；
超大带宽，反对 Tbps 级别的带宽，大数据计算能够充分发挥 COS 高吞吐的劣势；
数据多 AZ，带来了 11 个 9 的超高可靠性；
数据存储默认 EC 编码，老本更低；
反对文件数据 跨区域复制；
智能分层 反对，依据数据的冷热水平，主动分层，进一步升高存储老本；

同时，CHDFS 提供了高性能的 HDFS 兼容的 java sdk，针对大数据场景做了全面优化，实现了高效的读写缓存机制，能够充分发挥 COS 在数据流方面的劣势。

除了上述提到的弱小的文件读写能力外，CHDFS 还提供了丰盛的产品性能，来满足大数据场景下客户的多样需要。

对于关注老本优化的客户，CHDFS 提供了 存储生命周期治理性能，可能通过简略的配置页面，让客户的文件主动沉降到老本更低的存储介质，进一步升高客户应用云端存储的老本，真真正正的帮忙客户省钱。当客户须要拜访这部分沉降的冷数据时，CHDFS 提供了功能强大、不便易用的命令行工具，使文件回到热存储层供客户应用。

对于有存储内容感知需要的客户，CHDFS 提供了弱小的 文件清单性能，能够依照客户指定的文件格式及过滤字段，离线导出文件信息，并且投递到客户的文件系统中。客户能够通过读取该清单文件，进行多维度的业务文件属性剖析，如文件均匀大小散布等。甚至还能够作为客户从本地 HDFS 导入 CHDFS 过程中的一种文件校验伎俩。

CHDFS 提供了 齐全兼容 HDFS 的协定，能够无缝反对常见的大数据计算框架，如 Hive，Spark，Presto，Flink 等。

CHDFS 目前曾经 和腾讯云 EMR 产品严密汇合。客户购买 CHDFS 产品后，无需装置任何环境，即可间接在腾讯云 EMR 上应用 CHDFS 产品，进一步简化客户应用 CHDFS 的上手老本。

关于云存储:腾讯云-CHDFS-云端大数据存算分离的基石

一、问题和挑战

二、CHDFS 整体介绍

三、CHDFS 元数据服务特点

四、COS 为 CHDFS 提供数据底座

五、丰盛的产品性能

六、生态整合