关于腾讯云:使用-HDFS-协议访问对象存储服务

9次阅读

共计 1915 个字符,预计需要花费 5 分钟才能阅读完成。

背景介绍

原生对象存储服务的索引是扁平化的组织模式,在传统文件语义下的 List 和 Rename 操作性能体现上存在短板。腾讯云对象存储服务 COS 通过元数据减速性能,为下层计算业务提供了等效于 HDFS 协定的操作接口和操作性能。

(一)什么是元数据加速器?

元数据减速性能 是由腾讯云 对象存储 (Cloud Object Storage,COS)服务提供的 高性能文件系统性能

元数据减速性能底层采纳了 云 HDFS 卓越的元数据管理性能,反对用户通过文件系统语义拜访对象存储服务,零碎设计指标能够达到 2.4Gb/ s 带宽、10 万级 QPS 以及 ms 级提早。存储桶在开启元数据减速性能后,能够广泛应用于大数据、高性能计算、机器学习、AI 等场景。无关元数据减速的具体介绍,请参考元数据加速器。

(二)应用 HDFS 协定拜访的劣势是什么?

以往基于对象存储 COS 的大数据拜访次要采纳 Hadoop-COS 工具来拜访。Hadoop-COS 工具外部将 HCFS 接口适配为对象存储的 Restful 接口,从而对对象存储上的数据进行拜访。因为对象存储和文件系统在元数据组织形式上的差别,导致元数据操作性能上存在性能差别,从而影响了大数据分析性能。开启元数据加速器的 Bucket,齐全兼容 HDFS 协定,能够采纳原生的 HDFS 接口间接拜访,除了省去了 HDFS 协定到对象协定的转换开销外,更能提供原生 HDFS 的一些性能,如目录原子高效 Rename,文件 Atime,Mtime 更新,高效目录 DU 统计,Posix ACL 权限反对等等原生个性。

筹备工作

1、创立 COS Bucket,并且开启元数据减速能力。如图所示:

当 Bucket 创立好之后,在存储桶页面,能够看到相干配置,并且能够在控制台进行文件上传下载操作,如 Bucket: meta-accelarate-1253960454;

2、创立好之后,点击左侧性能配置页面,点击元数据减速按钮,能够看到元数据减速能力已开启。如果是第一次创立元数据减速存储桶,则须要依照提醒进行相应的受权操作,点击受权实现后,将主动开启 HDFS 协定,并且看到默认的 Bucket 挂载点信息,如下图所示:

阐明:如果提醒未找到对应的 HDFS 文件系统,请点击提交工单分割咱们获取帮忙。

3、开启 HDFS 协定开关后,须要配置 VPC 拜访权限。在 HDFS 权限配置标签页,点击新增权限配置按钮,在 VPC 网络名称列抉择计算集群所在的 VPC 网络地址,在节点 IP 地址列,填写 VPC 网段下须要放通的 ip 地址或者 ip 段。

拜访类型能够抉择读写或者只读,配置好后点击保留即可,如下图所示:

HDFS 权限配置与原生 COS 权限体系存在差别。当您应用 HDFS 协定拜访时,举荐通过配置 HDFS 权限受权指定 VPC 内机器拜访 COS 存储桶,以便获取和原生 HDFS 统一的权限体验。

4、HDFS 协定默认采纳原生 POSIX ACL 形式进行鉴权,如果须要应用 Ranger 鉴权,能够在 HDFS 鉴权模式下,抉择 Ranger 鉴权模式,配置上 Ranger 相应的地址信息即可。如下图所示:

您能够参考文档 HDFSranger 鉴权,配置 Ranger 服务,通过 Ranger 服务以 HDFS 协定拜访 COS。

5、创立好环境后,须要在计算集群配置 core-site.xml , 具体参考文档配置 HDFS 协定配置, 如果您应用的是腾讯云 EMR,则能够间接应用 EMR 的默认配置,无需额定配置。

留神:fs.ofs.region 必须配置,该参数用于指定存储桶所在的 COS 地区,如 ap-shanghai。

6、下载 HDFS 协定拜访的客户端安装包,请确保安装包的版本在 2.7 及其以上。

下载后,讲安装包搁置到 Hadoop 集群中每台服务器正确的 classpath 门路下,如 /usr/local/service/hadoop/share/hadoop/common/lib/(依据理论状况避免,不同组件可能搁置的地位也不一样),而后重启 Yarn,Hive,Presto,Impala 等一些常驻服务。

7、所有环境配置实现后,能够在客户端应用 Hadoop 命令行来查看是否挂载胜利,如下图所示:

您也能够登录 COS 控制台,查看存储桶文件列表,明确文件和目录是否统一,例如:

通过 HDFS 协定拜访 COS

大数据场景下,您能够参考如下步骤以 HDFS 协定拜访开启元数据减速能力的存储桶:

1、在 core-stie.xml 中配置 HDFS 协定相干挂载点信息,如筹备工作中所示;
2、Hive,MR,Spark 等组件拜访存储桶,参考文章 CDH 拜访大数据来进行大数据拜访;
3、默认状况下,采纳原生 POSIX ACL 形式进行鉴权,如果须要应用 Ranger 鉴权,能够参考 Ranger 相干原理和实际拜访,参考文档。

— END —

正文完
 0