共计 2984 个字符,预计需要花费 8 分钟才能阅读完成。
依据市场钻研公司 Research and Markets 调研发现,寰球数据湖市场规模预计从 2019 年的 79 亿美元,到 2024 年增长至 201 亿美元,并在预测期间内以 20.6% 的年复合增长率(CAGR)增长。
回过头来看,数据湖的诞生归功于 Pentaho 创始人 James Dixon,它通常被定义为以原始数据格式存储的数据系统或数据库,但往往是以非结构化文件和对象内容多样的数据存储库的模式组成,并须要对其进行业务剖析。
为此,不少人认为对象存储正在成为数据湖的首选平台,次要起因是:
- 对象存储反对在云上提供便宜的存储服务,具备长久且简直有限容量的存储;
- 实现了计算和存储的拆散,能够独立扩大任何一个。
然而,对象存储存在的一些问题也会限度着数据湖的应用。明天,咱们来一探到底看看这对 CP 背地还面临什么问题。
结构化数据与非结构化数据
因为数据湖聚合了来自各种起源的数据——例如来自 ERP 零碎的业务数据;来自电子商务数据库的客户数据、工夫序列数据、事件流和来自文档存储库的文件等等,因而数据湖能够疾速达到 PB 级,甚至更多的容量。这意味着,咱们正在解决的数据量曾经超出了传统数据库技术的范畴,例如关系数据库管理系统(RDBMS),该零碎最后设计用于解决结构化数据。这就是为什么相似 Hadoop 分布式文件系统(HDFS)这样的新存储解决方案曾经成为一种更为灵便、可扩大的形式来治理结构化和非结构化数据的起因之一。
HDFS 作为一种数据湖存储解决方案被宽泛应用,与 Hadoop 生态系统中的工具非亲非故,如 MapReduce、Spark、Hive、Hbase 等。在 Hadoop 和 HDFS 被宽泛采纳的同时,市场上也呈现了一些最近开发的剖析工具,比方 Splunk、Vertica、Elastic,用于剖析数据湖中的大量数据。
数据分析是为了找到为组织提供相干和无益见解而诞生的。以电子商务为例,咱们能够发现大数据分析能辨认出某些产品在一年中不同期间的销售胜利差别。对于这种类型的应用程序,HDFS 也有它的长处和毛病,就像其余任何技术一样。HDFS 其中一个次要限度是,当它扩大时,计算和存储资源是严密耦合的,因为文件系统和应用程序托管在同一台机器上。同时随着计算能力的增长,内存也在增长。这样对于一些计算密集型应用程序来说,这可能会让老本有所增加。
目前,一些商业供应商曾经优化了 HDFS 的原始开源实现,但最终呈现了新的数据存储解决方案,从根本上进步了可伸缩性和灵活性。
数据起源多样化
为了可能全面剖析和实现海量数据存储中丰盛的信息和见解,组织既依赖剖析工具,也依赖存储数据的存储库,后者能够说是最重要的组成部分。存储库必须以恰到好处的性能解决来自多个源的数据,并且可能反对同时减少容量和性能,以便应用程序、工具和用户能够宽泛地应用数据。如上述所说,数据库和文件系统(包含 HDFS)在数据仓库和数据湖实现中扮演着重要的角色。同时,对象存储还能够作为本地数据湖和云对象存储服务的存储库。
的确,对象存储为数据湖提供了根底劣势。首先,对象存储中的数据处理是高度灵便的。尤其是,它不须要像在 RDBMS 中那样,定义要存储的数据“模式”。在 RDBMS 中,简单查问的表的构造和表之间的关系都必须事后定义。对象存储系统能够存储所有类型的文件,无需预约义,并且对数据量没有限度。
在拜访方面,越来越多的剖析应用程序正在利用 Amazon S3 API,例如 Splunk SmartStore 和 Vertica 的 Eon 模式。Hadoop 生态系统工具,如 Apache SPARK 也可能通过 Hadoop 兼容文件系统(HCFS)拜访对象存储。实际上,这是通过 S3 协定间接反对的。随着工夫的推移,基于对象存储的数据湖存储库能够利用的工具数量将会减少。
此外,许多古代对象存储系统还反对独立的容量和性能扩大,从而打消了后面形容的 HDFS 的刚性 / 耦合模型。许多剖析工具供应商曾经在他们的产品中采纳了这种模型,以取得这种效率劣势,例如 Splunk SmartStore 和 Microfocus Vertica EON 模式反对 S3 对象存储。以大型 MapReduce 工作负载为例,用户能够将计算层降级为 MapReduce 利用的性能主机,独立扩大对象存储的容量和吞吐量。对于数据湖来说,这是在大型剖析我的项目中应用对象存储的一个要害益处,因为计算和存储资源能够互相独立地扩大。
这就打消了同步扩张的必要性,从而保障了显著的老本劣势。独立扩大的能力为随需应变的数据分析提供了正确的计算性能,这能够显著升高数据湖解决方案的总体老本。
对象存储的不可变性
无论是哪一种对象存储,包含 S3、GCS 和 Azure Blob 存储,都具备同一个特点——不可变。这就意味着,一旦文件写入对象存储,就永远无奈编辑。用户只能硬删除旧文件,并创立一个新文件,或者在逻辑上删除旧文件并创立一个新文件(版本控制)。
若应用 S3 作为 RDBMS 源且频繁刷新数据的数据平台时,这会导致为每个表创立大量简短的小文件。插入、更新和删除操作随着工夫的推移而堆积如山,尝试导出表的以后状态将变得消耗大量工夫和计算。大多数数据科学家都不违心实现这个简单的工作,而是要求间接拜访源零碎,这就违反了应用数据湖的初衷。
如何让存储灵便起来?
相较于对象存储的不可变性,文件存储就显得灵便了许多。文件存储由来已久,它次要负责两件事:组织数据和向用户示意数据。这也让它领有了一个劣势,容许用户通过一些独特的标识符(如名称、地位或 URL)申请文件,这些标识符能够通过特定的数据传输协定与存储系统通信,从而造成从上到下导航的分层文件构造,实现让用户以文件和文件夹的模式随时查看和拜访数据,且可能在提供高吞吐和高 IOPS 的同时,反对文件的随机读写和在线批改。
同时,文件存储通常由共享文件系统(如 NFS 和 CIFS/SMB)代表,反对由多个服务器通过 IP 网络拜访,以及通过用户和组权限在文件、目录和导出级别管制拜访,并且可用于存储多个用户和机器、应用程序二进制文件、数据库、容器、虚拟机所需的文件等等。因而,当互联网、物联网、云计算、大数据等技术带来海量数据的时候,不少人寄希望于分布式文件存储的高性能、高效率、高灵活性的特点来解决海量数据。
作为高性能文件存储的领导者,焱融科技外围产品 YRCloudFile 凭借其卓越的性能、灵便的程度扩大能力,决定了它在存储畛域中的重要位置。
焱融 YRCloudFile 基于先进的集群,为用户构建了一站式存储服务,极大地满足了各行各业的数据存储需要:
- 高带宽、低延时读写个性,保障为 GPU 服务器提供足够的数据输出,实现 GPU 的高效应用;
- 反对百亿级别的小文件及局部大文件混合的读写场景;
- 能反对近千台高性能计算节点的并发拜访;
- 满足多种计算集群模式存储服务,包含固有的裸金属计算架构、云计算架构、容器化计算架构的长久化存储等需要;
- 满足综合监控数据治理平台对接需要,实现数据管理、监控、运维一体化展示和简洁化治理能力;
- 实现相干业务特色具体优化策略,依据不同业务类型特色具备可调节优化能力;
- 反对数据加载 DataLoad 技术,无效让数据达到对立治理的目标,使业务倒退按需流转。
由此而言,展望未来,面向东数西算工程的倒退,焱融科技不仅实现海量存储高性能,而且还能满足数据存储智能、高效和平安的更高需要,为企业提供更为粗疏与全面的解决之道。