关于存储技术:CHDFS-安全便捷的大数据访问体验

34次阅读

共计 1630 个字符,预计需要花费 5 分钟才能阅读完成。

一、背景

云 HDFS(Cloud HDFS,CHDFS)是腾讯云提供的反对规范 HDFS 拜访协定、卓越性能、分层命名空间的分布式文件系统。

CHDFS 次要解决大数据场景下海量数据存储和数据分析,可能为大数据用户在无需更改现有代码的根底上,将本地自建的 HDFS 文件系统无缝迁徙至具备高可用性、高扩展性、低成本、牢靠和平安的 CHDFS 上。以此实现存算拆散,实现计算节点可动静的扩缩容。

因而 CHDFS 次要的用户群体是大数据体系的研发人员,为了满足用户在传统的 Hadoop 环境下的应用习惯,同时满足用户的权限需要,CHDFS 通过以下措施,提供了平安便捷的大数据拜访体验。

二、起源管控

存算拆散带来了存储的云端托管,使计算节点不再依赖本地的存储,但同时也带来了存储时延的减少,因而存算拆散更适宜于同地区同机房的拜访。CHDFS 在设计之初,就假设用户的大数据集群运行在腾讯云的 VPC 网络 (包含 CVM 和黑石)。

因而用户只用通过以下三步,即可限度起源:

1、新建权限组,并在权限组中指定 VPC(必须本账户下的 VPC)。

2、在权限组外面增加规定,授予 VPC 网段里的某一个子网段的只读或者读写权限。同一个权限组中的多条规定,依据优先级来确定权限。

3、在文件系统的挂载点中绑定权限组,一个文件系统能够绑定多个权限组,申请满足任何一个权限组的规定,即取得相应的拜访权限。

三、POSIX 权限与超级用户

CHDFS 兼容 HDFS 的 POSIX 的权限规定,该权限规定和 Linux 文件系统的的规定相似。即每一层的目录和文件都有 User,Group 与 Other 权限 (rwx)。整个权限规定可简述如下:

1、用户执行 Hadoop 命令行或者运行某个大数据 JOB

2、Job 运行中须要拜访 CHDFS 的某个门路, 即以执行过程的用户身份与组身份拜访 CHDFS 的某个门路。

3、CHDFS 从依据拜访的门路,从根目录开始,层层查看。如果用户名匹配文件或者目录的用户名,则领有文件和目录的 User 权限,如果用户组名匹配,则领有 Group 权限,否则只领有 Other 权限。

4、对于目录要进入下一层,必须领有 X 权限,对于目录下创立删除文件必须领有 W 权限,对于列出目录下的文件,必须有 R 权限。

5、对于读取文件,必须要有 R 权限,对于批改文件必须有 W 权限。

对于普通用户,应用以上的权限规定进行校验,但同时 CHDFS 也反对了超级用户,超级用户领有对文件目录的所有操作权限,实用于配置管理员。

POSIX 的权限开关与超级用户的设置,能够在新建文件系统时,或者在后续在文件系统属性下编辑。

四、接入 Hadoop Ranger 权限体系

Hadoop Ranger 作为一站式的权限体系解决方案,不仅反对存储端权限管控,还反对 YARN,Hive 等组件权限管控。因而,为了维持客户的应用习惯,咱们提供了 CHDFS 的 Ranger 接入解决方案,不便客户应用 Ranger 来进行 CHDFS 的权限管控。CHDFS 接入 Ranger 权限体系的架构如下所示

咱们在 Ranger Admin 控制中心,注册 CHDFS 服务的相干信息,并配置 CHDFS 的服务后,即可配置 CHDFS 的相干权限 policy,如下所示。

CHDFS 插件端开启进行 ranger 鉴权后,即会把所有拜访 CHDFS 的申请转发给 COS Ranger Service 进行鉴权,COS Ranger Service 依据从 Ranger Admin 拉取 policy,进行权限查看。无关 CHDFS 接入 Ranger 权限的配置阐明,请参考 CHDFS 控制台文档。

五、总结

CHDFS 作为云端托管的大数据存储,从设计之初,就充分考虑了 HDFS 用户的应用习惯。通过提供限度起源 VPC、IP 网段、POSIX 鉴权、超级用户等个性,并反对接入 Hadoop Ranger 权限体系。不便客户的同时,也充沛的保障了安全性与灵活性。

对于咱们

云 + 社区「腾讯云存储团队」主页,涵盖了腾讯云存储团队最新动静、团队信息、产品矩阵、技术文档、视频教程等,欢送关注或留言,给出您的贵重倡议。

正文完
 0