乐趣区

关于hdfs:分布式存储技术上HDFS-与-Ceph的架构原理特性优缺点解析

面对企业级数据量,单机容量太小,无奈存储海量的数据,这时候就须要用到多台机器存储,并对立治理散布在集群上的文件,这样就造成了分布式文件系统。HDFS 是 Hadoop 下的分布式文件系统技术,Ceph 是能解决海量非结构化数据存储的对象存储技术,本文将对他们的架构原理、个性和优缺点做介绍。

— 分布式文件系统 HDFS —

HDFS 全称为 Hadoop Distributed File System,在 2006 年由 Doug Cutting 公布了第一个版本,是运行在通用硬件上的分布式文件系统。它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 的推出给过后的行业提供了一个低成本、高可扩大的数据存储计划,尤其实用于互联网行业的海量用户拜访日志的存储和检索需要,因而一经推出就受到了互联网行业的欢送,以 Yahoo 为代表的互联网企业疾速构建了基于 HDFS 的企业数仓,从而减速了 Hadoop 在互联网行业内的疾速落地(起初这个 Yahoo 团队独立进去创建了 Hortonworks)。尔后通过 3~4 年的疾速倒退,海内的大型企业都开始拥抱 HDFS,各种新型利用场景开始呈现并发明了较大的业务价值。从 2009 年开始,国内的 Hadoop 利用开始呈现,并最早在运营商和互联网行业落地。作为 Hadoop 体系的最胜利的我的项目,HDFS 曾经在各种大型在线服务和数据存储系统中失去广泛应用,曾经成为私有化部署畛域海量数据存储的施行规范。

HDFS 通过一个高效的分布式算法,将数据的拜访和存储散布在大量服务器之中,在牢靠地多备份存储的同时还能将拜访散布在集群中的各个服务器之上。在构架设计上,NameNode 治理元数据,包含文件目录树,文件 -> 块映射,块 -> 数据服务器映射表等。DataNode 负责存储数据、以及响应数据读写申请;客户端与 NameNode 交互进行文件创建 / 删除 / 寻址等操作,之后间接与 DataNode 交互进行文件 I /O。

HDFS 通过正本机制保证数据的存储平安与高牢靠,默认如上图所示配置为 3 正本,每个数据块散布在不同的服务器之上。在用户拜访时,HDFS 将会计算应用网络最近的和访问量最小的服务器给用户提供拜访。HDFS 反对文件的创立、删除、读取与追加,对于一个较大的文件,HDFS 将文件的不同局部寄存于不同服务器之上。在拜访大型文件时,零碎能够并行从服务器阵列中的多个服务器并行读入,减少了大文件读入的拜访带宽。通过以上实现,HDFS 通过分布式计算的算法,将数据拜访均摊到服务器阵列中的每个服务器的多个数据拷贝之上,单个硬盘或服务器的吞吐量限度都能够冲破,提供了极高的数据吞吐量。

HDFS 将文件的数据块调配信息寄存在 NameNode 服务器之上,文件数据块的信息散布地寄存在 DataNode 服务器上。当整个零碎容量须要裁减时,只须要减少 DataNode 的数量,HDFS 后续通过 balance 算法将数据块搬迁到新的 DataNode 实例中。通过以上实现,HDFS 能够做到在不进行服务的状况下横向扩容和数据从新散布。HDFS 文件系统假如系统故障(服务器、网络、存储故障等)是常态,并通过多方面措施来保证数据的可靠性。数据在写入时被复制多份,能够通过用户自定义的复制策略散布到物理地位不同的服务器上;数据在读写时将主动进行数据的校验,一旦发现数据校验谬误将从新进行复制。

受限于过后的需要背景和硬件能力程度,HDFS 也有一些显著的架构问题,随着技术和需要的演进而逐步成为瓶颈。通过 NameNode 来治理元数据有它的架构问题,首先是服务高可用问题,在 Hadoop 1.0 时代这是最大的架构问题,不过在 2013 年 Hadoop 2.0 中通过 Master-Slave 的形式得以解决;另外每个存储的文件都必须在 NameNode 的内存中保护一个描述符从而占据内存空间,当文件数据量太大时就会受限于单个 NameNode 的内存资源从而导致性能瓶颈(个别单个集群文件数量在亿级别以上时),社区在 2017 年推出的 Hadoop 2.9 版本提供 HDFS Router Federation 性能,通过不同的 NameService 解决挂载在 HDFS 上不同目录下的文件的形式来缓解这个问题。

存储老本问题对于大型 HDFS 集群是个更大的问题,HDFS 的三正本策略保障了性能和存储老本的平衡,适宜于热数据和温数据的存储和解决,对于冷数据存储来说老本就偏高,尤其与对象存储类的解决方案相比。开源社区直到 2019 年 Hadoop 3.0 里才推出了 Erasure Code 技术(星环科技在 2014 年推出 HDFS EC 技术),但因为推出工夫较晚和技术成熟度等起因,目前并没有大规模落地。与云计算的存储技术交融是另外一个重要的架构问题,私有云有成熟的云存储计划,绝对 HDFS 老本更低,与云平台的调度零碎协调的更好,而 HDFS 只能定位作为云上的企业存储的一个细分计划之一。如各个云平台都推出 EMR(Elastic MapReduce)类产品,如 Google Dataproc,阿里云 EMR 等,但总体受欢迎度比拟个别,短少与云上其余数据分析与解决零碎的全方位的买通和互联。

从 2012 年开始,国内重点行业的中大型企业都曾经开始了大数据的布局,到 2019 年像金融、运营商、能源、政府公安等重要行业大部分企业都曾经构建了基于 HDFS 的数据存储系统,推动了一批重点的数字化利用的推广。如金融行业的 ODS、历史数据存储、数据湖、科技监管类利用,运营商的经分系统、电子围栏、数字营销零碎等,都曾经是宽泛应用的业务零碎。因为国内外行业需要的差异性以及对私有云的接受程度不同,HDFS 在国内依然是一个十分重要的数据存储技术,也领有更好的技术和利用生态,因而有着更为欠缺的技术生命力。

— 对象存储 Ceph —

对象存储的设计指标是为了解决海量非结构化数据的存储问题,如邮件、图谱、视频、音频以及其余多媒体文件,并在社交、挪动等利用中大量被应用,此外也大量被用于数据备份和灾备场景。

在业务开发层个别提供基于 S3 协定的开发接口,这套 API 提供了一整套的 RESTful API,能够让利用能够通过 HTTP PUT 或 GET 命令来操作数据对象,每个对象有个本人的拜访地址。与 HDFS 等文件类存储采纳目录构造或多层级树形构造不同,对象存储在物理存储上个别采纳一个扁平的数据存储构造,每个对象都是一个包含元数据、数据和惟一标识 ID 的齐备数据形容,这样利用能够十分不便的去找到并拜访这个数据对象,在存储的治理上也绝对比较简单,尤其是大部分利用场景下数据对象都存储在远端的云服务器上。对象存储管理软件会将所有的硬盘资源形象为一个存储池,用于数据的物理化存储。绝对于文件类存储,对象存储相对来说老本更低,但绝对数据分析的性能不佳,须要配套各种剖析的缓存技术来能提供比拟好的数据分析性能。

Ceph 是一个开源的对象存储我的项目,诞生于 2004 年,提供对象、块和文件存储,其中对象存储性能在业内十分受欢迎,在国内曾经有很多私有化云平台的对象存储生产落地案例。一个 Ceph 的存储集群个别包含三个局部:
Ceph 存储集群服务端:在 Ceph 存储集群服务端架构中外围组件有 Monitor 服务、OSD(Object Storage Daemons) 服务和 Manager 服务等。其中 Mon 服务用于保护存储系统的硬件逻辑关系,次要是服务器和硬盘等在线信息。Mon 服务通过集群的形式保障其服务的可用性。OSD 服务用于实现对磁盘的治理并实现真正的数据读写,通常一个磁盘对应一个 OSD 服务。
Ceph Clients:以 library 形式提供的客户端,能够用于拜访 Ceph 服务端,它提供了 3 种协定来拜访,包含对象存储的 RADOSGW、块存储端的 RBD 以及文件存储的 CephFS。
Ceph 协定:用于服务端和 Client 的通信协议。

因为一个分布式存储集群治理的对象数量十分多,可能是百万级甚至是千万级以上,因而 OSD 的数量也会比拟多,为了有好的管理效率,Ceph 引入了 Pool、Place Groups(PGs)、对象这三级逻辑。PG 是一个资源池的子集,负责数据对象的组织和地位映射,一个 PG 负责组织一批对象(数据在千级以上)。同时一个 PG 会被映射到多个 OSD,也就是由多个 OSD 来负责其组织的对象的存储和查问,而每个 OSD 都会承载大量的 PG,因而 PG 和 OSD 之间是多对多的映射关系。

当用户要将数据存储到 Ceph 集群时,存储数据会被宰割成多个对象(Ceph 的最小存储单元),每个对象都有一个惟一的 id,每个对象的大小是能够配置的,默认为 4MB。Ceph 通过借鉴的 CRUSH 哈希算法,将若干个对象映射到 PG 上,造成一个对象与 PG 的逻辑组合,并依据 PG 所在的 Pool 的正本数,将数据复制到多个 OSD 上,保证数据的高可用。

图片来源于:https://www.wenjiangun.com/blog/952/
在集群的可扩展性上,Ceph 能够做到简直线性扩大。CRUSH 通过一种伪随机的形式将数据进行散布,因而 OSD 的利用就可能精确地通过二项式建模或者惯例形式调配。无论哪一个都能够获得完满的随机过程。随着 PG 的减少,差别就降落:对于每个 OSD 100 个 PG 的状况下,标准差是 10%;对于 1000 个的状况下为 3%。线性的散布策略极好地将负载在集群中均衡。CRUSH 通过卸载所有的调配碎片到一个特定的 OSD 上从而来修改这样的问题。与哈希以及线性策略不同,CRUSH 同时也最小化了数据在集群扩大产生的迁徙,同时又保障了负载的均衡。CRUSH 的计算复杂度为 O(log(n))(对于有 n 个 OSD 的集群),因而只须要 10 几个微秒就能够使集群增长到好几千个 OSDs。

值得关注的是,Ceph 客户端所有的读写操作都须要通过代理节点,一旦集群并发量较大,代理节点就容易成为单点瓶颈。在数据的一致性方面,Ceph 只能反对数据的最终一致性。

— 小结—

本文从架构和原理介绍了高度容错性、高吞吐量的分布式文件系统 HDFS,和解决海量非结构化数据存储的对象存储技术 Ceph(当初各项技术倒退比拟快,可能存在技术形容跟最新技术倒退状况不太统一的状况)。那么在特定场景下,数据的疾速查问、疾速写入和可扩展性也是必不可少的,下一篇咱们将介绍搜索引擎技术和宽表存储技术。

退出移动版