随着越来越多企业深刻部署 AI,数据成为训练过程中必不可少的一部分,企业也开始对存储有着更强烈的需要。在此背景下,AI 和数据存储产生了天然交融,正如数据影响着 AI 的训练成果,AI 也在帮忙存储进步其性能、安全性和灵活性,驱动存储技术倒退。
AI 时代,存储比以往更加重要
在 AI 的疾速倒退下,数据量呈现了爆炸式增长,AI 工具也开始在各种不同的、以存储为核心的应用程序中开展。比方,在 AI 训练工程中,须要存储智能分层;亦或者,从更理论的层面上来看,AI 训练亟待解决在多云环境下的存储问题。
为此,人们开始对于数据处理的极高需要与底层存储技术之间的不匹配感越来越强烈。当数据增长得越多,在内存和存储上的数据梗塞就越重大,人们愈发心愿扩充内存,在 DRAM 上存储更多数据,同时须要放弃低时延,不能和 CPU 的运算速度相差太远。于是,咱们看到了来自 AI 对存储的正向驱动,也理解到企业对软件定义存储有了更大的需要。
AI 激活存储的暗藏后劲
只管 AI 时刻在推动存储倒退,然而想要进一步激活存储后劲,仍须要解决 AI 场景下,存储容易面临的挑战:
- 海量小文件 ,因为训练任务须要的文件数量都在几亿到十几亿的量级,所以存储须要能承载几十亿甚至上百亿的文件数量。同时,因为很多训练模型都是依赖于图片、音频片段、视频片段文件,而这些文件基本上都是在几 KB 到几 MB 之间。
- 读多写少 ,在大部分场景中,训练任务只读取文件,两头很少产生两头数据,即便产生了大量的两头数据,也是会抉择写在本地,很少抉择写回存储集群。
- 目录热点 ,因为训练时,业务部门的数据组织形式不可控,很有可能用户会将大量文件寄存在同一个目录,容易导致多个计算节点在训练过程中,会同时读取这一批数据,这个目录所在的元数据节点就会成为热点。
“工欲善其事,必先利其器”,要想施展出 AI 人工智能技术的最大威力,解决存储挑战就成为企业构建强有力的 IT 基础设施的重要一环。如果没有高性能的存储,就会导致整个零碎性能呈现提早的状况。
因而 AI 对存储性能的要求是很刻薄的,企业心愿存储系统能满足高吞吐量和低延时的需要,让更多的数据能更及时地传输和执行,那么对于这个欲望应该如何实现呢?
焱融科技全方面撑持 AI 场景存储倒退
为了满足上述欲望,焱融科技在设计针对 AI 场景的存储解决方案时,在保证数据可靠性的同时,针对数据高性能和高可用也做了相应的优化。
首先是海量小文件的问题。实际上,海量文件存储的外围问题是什么,是文件的元数据管理和存储。传统的分布式文件存储都是针对大文件进行设计的,如果依照每个文件 100MB 计算,只须要 1 千万的文件,其总容量就有 1PB 了。然而,在提及 AI 训练难题时,咱们剖析出 AI 场景中 80% 以上是小文件,一个文件只有几十 KB,文件数量动辄就几十亿,因而文件的数量成为了文件系统要解决的首要矛盾。
针对这个问题,焱融科技提出用横向程度扩大的形式,把单点的 MDS 集群化,采纳动态子树 + 目录 Hash 两者联合的形式,将根目录在固定的 MDS 节点,让每一级目录都依据 Entry name 进行 Hash 再次抉择 MDS,保障横向扩大的能力。同时,目录下文件的元数据进行寄存时,不进行 Hash,而是跟父目录在同一个节点,保障肯定水平的元数据本地性。
这种做法带来两个益处,其一是实现了元数据的散布存储,从而通过扩大元数据节点即可反对百亿级别的文件数量,其二是在肯定水平上保障了元数据的检索性能,缩小在多个节点上进行元数据检索和操作。
其次是为了晋升数据读写能力,焱融科技极大水平保障了大文件 IO 的吞吐性能,采纳常见的将控制流和数据流(即元数据和数据存储)拆散计划,客户端在取得文件拜访控制权后,间接对后端存储分片进行并发拜访。对文件属性的更新采纳 lazy 模式,即在客户端调用 close 时更新 MDS 中的文件信息。这种形式在缩小对 MDS 更新频率的同时,大幅提高 IO 性能。同时,为了保障小文件 IO 拜访性能,焱融科技采纳小文件内联、元数据缓存、文件信息 KV 化等技术手段,保障了 AI 场景中大量只读小文件的训练性能。
最初是目录热点问题,焱融科技通过减少虚构子目录的形式解决问题。这种形式尽管多了一层目录的查问操作,然而足够灵便,能够把热点摊派到集群中所有的元数据节点,同时也能够解决另外一个问题,就是单目录的文件数量问题。减少虚构子目录能够很好地解决这个问题,使单目录能够撑持 20 亿左右的文件数量,并且能够依据虚构子目录的数量灵便调整。
AI 时代来袭,存储做好筹备
以后,AI 的倒退正在减速推动技术设施的提高,数据类型和数据存储需要也在产生变动,或者很难预测将来的存储技术到底是怎么样的,然而咱们能够必定的是,将来 AI 将继续驱动存储倒退。
接下来,焱融科技一直推动存储技术的倒退,满足不同场景下的存储需要,通过 YRCloudFile 为海量存储提供一个最佳的抉择,焱融科技打造的优质存储产品和计划已成为当下解决不同存储需要的一大利器,将来焱融科技将在不同场景下施展更大的价值。