关于人工智能:小米云原生文件存储平台化实践支撑-AI-训练大模型容器平台多项业务

小米作为寰球出名的科技巨头公司，曾经在数百款产品中广泛应用了 AI 技术，这些产品包含手机、电视、智能音箱、儿童手表和翻译机等。这些 AI 利用次要都是通过小米的深度学习训练平台实现的。

在训练平台的存储计划中，小米曾尝试了多种不同的存储形式，包含 Ceph+NFS、HDFS 和对象存储挂载等。然而，这些不同的存储形式导致了数据冗余和保护治理老本的减少，同时也带来了扩展性和性能方面的问题。另外，随着公司云原生化过程的推动，越来越多的利用从物理机迁徙到容器平台，这进一步减少了对文件存储和多节点共享拜访数据的需要。

因而，小米存储团队自 2021 年开始启动了文件存储我的项目，基于 JuiceFS 构建了一个文件存储平台化产品，并通过 CSI Driver 组件提供了云原生存储的能力，以满足上述各种业务场景对文件存储的需要。

目前，这个平台曾经承载了超过 50 亿个文件，总容量 2.5PB 以上，集群吞吐达到每秒 300~400Gbps。业务场景也在一直扩大，涵盖了大模型数据存储、大数据以及数据湖上云等畛域。在接下来的内容中，咱们将深刻介绍小米在这一过程中的设计思路和实践经验。

一方面，咱们面临着以下三方面的需要增长：日益增长的利用场景：随着人工智能业务的倒退，咱们对大规模文件存储的需要也在快速增长，此外在容器内共享拜访数据、存算拆散、大数据上云、大模型等场景同样对文件存储有着泛滥的利用需要，这些场景均须要高效、牢靠的文件存储服务。

对立的文件存储计划：在咱们立项并进行 JuiceFS 我的项目之前，在机器学习平台咱们采纳了 Ceph RBD+NFS、S3 FUSE、HDFS 等多种数据存储形式，咱们冀望可能对立存储计划，将大部分数据放到同一存储平台，升高保护及数据冗余老本。

混合云场景：小米作为全球化企业，业务遍布寰球多个国家，在海内多个区域都会有文件存储相干的业务需要，咱们须要满足公有云 + 私有云一体的文件存储架构。咱们预期中的存储平台须要具备如下个性：

功能丰富，领有欠缺的存储性能，反对 POSIX 等多种拜访协定，同时具备易用性，面向云原生平台设计。
规模扩展性，可能撑持百亿文件、百 PB 容量规模的文件存储能力，可能弹性扩大。
性能与老本，满足 AI 高并发训练等场景的性能需求，服务稳固牢靠同时兼顾存储老本。
混合云场景，反对多种存储后端，反对云上云下不同应用环境。
开发迭代，咱们有一个明确的指标，即借助开源我的项目，不反复造轮子。易于开发扩大与保护，可能继续迭代。

咱们比照了 JuiceFS、CephFS 以及其余一些业界文件系统的性能和性能。JuiceFS 社区文档也提供了一些的比照信息，如果您感兴趣，能够查阅 JuiceFS 社区文档。

首先，CephFS 在咱们的需要中有一些无奈满足的局部，例如，咱们心愿在私有云上部署，而 CephFS 可能更适宜在 IDC 环境中应用。其次，CephFS 在集群规模达到肯定水平时（例如 PB 级别），在均衡和元数据服务器性能方面可能会遇到一些瓶颈。

在 2021 年初，JuiceFS 我的项目刚刚开源，咱们就开始关注了。与 CephFS 等其余开源文件存储系统相比，JuiceFS 采纳了插件化的设计思维，为咱们提供了更大的灵活性 ，使咱们可能依据本身需要进行定制化开发。JuiceFS 还提供了丰盛的产品性能，可能满足咱们的特定场景需要。

同时，思考到 Ceph 作为底层存储服务在小米外部曾经大规模利用了多年，咱们能够将 Ceph RADOS 作为 JuiceFS 的数据存储池，在 IDC 机房内提供高性能和低提早的文件存储服务。这是咱们在选型时的根本思考，以下这些劣势是咱们抉择了 JuiceFS 作为整体存储服务的根底。

JuiceFS 采纳了数据和元数据拆散存储的架构，同时具备齐全可插拔的设计，我集体认为这个构想十分杰出。在进行基于 JuiceFS 的二次开发时，咱们可能轻松地适应外部企业需要，充分利用已有的成熟组件，以满足不同利用场景下的数据管理需要。

JuiceFS 性能非常丰盛，它兼容了 POSIX、HDFS、S3 等多种拜访协定，反对数据的加密、压缩、文件锁等多项性能，并提供了 CSI 组件的反对，同时还具备绝对简单的扩大性能，这些满足了咱们对存储服务的根本需要。

性能方面 JuiceFS 体现卓越，借助其独特的数据切分治理和客户端缓存减速能力，为客户端提供了杰出的吞吐性能。

JuiceFS 社区生态十分沉闷，依据我所接触到的一些我的项目，我认为 JuiceFS 社区的运作是最出色的。 值得一提的是，在开源之前，JuiceFS 首先在商业畛域积攒了教训并利用于理论场景中，这为咱们提供了许多有价值的借鉴 。

通过以上思考，咱们过后决定基于 JuiceFS 构建一个面向云原生设计的、高性能且具备弹性可扩展性的共享文件系统。

作为一个文件存储平台，咱们的服务是处于底层地位的，旨在满足小米企业内多样的需要场景。这些场景不仅包含自驾等根底利用，还涵盖了容器共享存储、大数据等多种场景。咱们的指标是将产品化性能提供给业务部门，加强服务的易用性，使业务方可能更轻松地应用咱们的服务。

在上述架构图中，作为存储平台，咱们不仅提供了 JuiceFS 文件存储服务，还提供了基于 Ceph RBD 的块存储服务。同时，Ceph 为 JuiceFS 提供了底层对象存储反对。咱们还领有外部的 FDS 对象存储服务，能够适应 IDC 以及各种私有云对象存储，为业务提供无缝的跨多云的服务。咱们向下层提供了不同的协定反对，包含块协定、文件协定和对象协定。在更高层次，咱们为 PaaS 平台和计算层提供反对，最顶层则是应用层。

小米的 JuiceFS 架构与社区版 JuiceFS 基本相同。在 JuiceFS 客户端方面，咱们提供下层协定反对，并与咱们的 meta 服务和 data 服务进行底层对接。

咱们的我的项目启动较早，当初在 JuiceFS 开源时，meta 服务的抉择仅限于应用 Redis。然而，咱们的首个业务需要可能波及到数亿级别的文件规模，而 Redis 实际上难以无效反对这一规模。

与此同时，咱们的产品是一个平台化我的项目，因而咱们决定自行开发一个分布式的 meta 服务，用于对立治理集群，包含之前提到的简单性能，具备这样的中心化能力实际上会更容易实现咱们的指标。为存储元数据信息，咱们抉择了分布式 meta，基于另外一款开源存储我的项目 CubeFS 的 meta 模块实现。

依据咱们的场景需要，咱们对 JuiceFS 做了一些优化。” 集群对立治理 ” 这是咱们与 JuiceFS 社区版的架构最大的区别，也是咱们很多平台性能实现的根底。

在 JuiceFS 社区版中，文件系统之间不足对立的治理，用户须要自行设置他们本人的 meta 服务、bucket 等。例如，当业务部门创立一个新的卷时，他们须要本人申请 Redis、bucket、网关等，并设置后台任务，这使得整个过程繁琐且依赖于客户端。如果业务部门须要创立另一个卷，他们必须反复之前的工作，因为所有工作都是在客户端实现的。

小米的次要不同之处在于咱们将卷的治理进行了集中，将通用性能下沉，使得业务应用更加便捷。

首先，咱们能够看到在这个档次上，最顶层是 meta 服务，分为 master 和 metanode。咱们通过 meta master 进行了对立治理，将跨客户端的工作性能集成到了对立的治理档次。这包含根本的治理性能，如卷的创立和删除，以及存储池与 bucket 的治理，还包含一些会话管理机制。一些异步工作由核心对立保护，包含 compaction、数据清理等流程。

因为咱们有一个 master 层，因而咱们可能提供一些产品性能，包含权限接入，建设了对立的网关，并提供账单服务，以及对应外部控制台的性能接入。

社区版的 S3 网关能够与一个卷绝对应，通常须要进行 Minio 的 AK/SK 配置。咱们首先在卷内进行了对立的治理，这使得它可能反对集群内所有卷的拜访，并提供了一个对立的 S3 接入域名。

因而，咱们在这一层上实现了文件系统的动静加载，使得多个卷能够通过同一个网关服务拜访数据。同时，在这一档次上，咱们也实现了小米外部 IAM 权限零碎的适配，反对多租户的 AK/SK。

在公共参数方面，例如缓冲缓存（--buffer-cache）、缓存大小（--cache-size），这些参数能够在多个卷之间全局共享，还有与 meta 相干的连接池实现了共享，反对多个卷的网关治理。

此外，咱们在网关服务上提供了一个齐备的监控零碎，用于监控申请吞吐量、提早、SLA 等性能指标。

在进行了对立治理之后，咱们进行了存储类型的封装。对于业务方来说，他们不须要关怀数据存储在后端的存储介质或服务提供商。用户只须要抉择适宜其需要的服务类型。这个零碎提供了三种根本类型，包含性能型、容量型和老本型。性能型对应后端的 Ceph SSD 存储，容量型对应机械硬盘，而老本型则对接对象存储。每种类型实用于不同的应用场景，因而提供了不同的吞吐量和提早程度。

在存储类型方面，咱们引入了一层多池管理机制，对底层存储服务进行了对立治理和封装。绝对于社区版中卷（bucket）与存储池的一对一关系，咱们反对了多池治理性能，次要实现了以下能力：

首先，与业务相干的配置。存储池的配置以及 Ceph 的配置都由元数据系统进行对立治理，无需用户额定配置 Ceph 的环境变量或配置文件。

第二点，咱们容许卷设置存储类型，存储类型与存储池关联，并且在数据的切片级别进行记录。存储类型与其绑定的存储池是能够切换的，这样能够满足超大容量卷（百 PB 级别）的存储需要。

咱们的多池治理设计次要来源于对 Ceph 的思考。当 Ceph 集群规模达到肯定水平时，性能问题可能会显现出来，咱们不心愿保护特地大规模的 Ceph 集群，而是会建设新的集群，相当于将大容量划分为多个小集群来进行治理。这有利于缩小性能开销，缩小 OSD 存储故障的概率。同时也升高了治理节点的数量。咱们的操作就相当于将存储类型绑定的存储池切换到新的存储池上，旧数据依然存储在旧存储池中，而新的数据将被存储在新的存储池上，不会产生数据平衡移动。

此外，咱们还有更多操作的空间，能够按切片级别将数据迁徙到不同的存储池。基于这一能力，咱们能够实现更简单的性能，如依据文件拜访状况的冷热分层、基于 ec 纠删码 + 3 正本的大小 IO 分流优化等。

咱们为团体外部提供了丰盛的产品性能，这些性能在企业外部是十分必要的性能：

权限零碎 ：咱们接入了 IAM（身份与拜访治理）资源权限管理系统，适配通用的鉴权性能，以确保只有通过受权的用户能够拜访资源。同时可能依据卷的归属找到相干我的项目部门及负责人，从而将存储资源精准地定位到理论负责的实体，有助于企业更好地进行治理。
控制台 ：接入小米交融云控制台，咱们提供了治理卷和文件的性能，不便业务应用
监控：咱们为 JuiceFS 集群和客户端提供了监控看板，帮忙企业实时理解零碎的性能和状态。
审计：对文件操作和数据读写进行审计，记录审计日志。这对一些敏感数据的业务十分重要，因为它能够告诉您哪些客户端正在拜访文件，以及文件是否曾被篡改或删除。
回收站 ：咱们反对回收站性能，能够帮忙企业躲避因误删数据而带来的危险，让数据更加平安可控。
账单：咱们提供按不同存储类型和存储容量计费的性能，帮忙企业理解和治理存储资源的费用。

大部分业务人员对于存储产品并不非常理解，因而在抉择适合的存储类型时经常感到艰难。为了帮忙外部用户更好地做出抉择，咱们提供了一些通用场景倡议。在控制台的卷文件治理方面，咱们采纳了相似于 Minio 平台的 S3 网关，用于多卷的文件内容治理，用户可能不便的进行文件治理和分享下载。

基于这些产品能力及云原生 CSI Driver 的性能，咱们曾经对接了小米容器平台及机器学习 PaaS 平台，业务依据须要抉择不同的集群与存储类型应用咱们的 JuiceFS 文件存储服务。在容器内应用 JuiceFS 时，咱们更偏向于优先采纳动态卷的形式来进行接入。首先，动态卷接入的劣势在于它们是明确定义和创立的，对其名称和用处都有明确的规定。相比之下，动静卷的应用往往波及到更简单的权限治理。另外，对于更底层的 Kubernetes 平台，咱们也为该服务提供了动态卷和动静卷两种接入形式。目前，咱们的大部分服务都是以原生形式提供的。

咱们的元数据局部则是基于 CubeFS 进行开发的。最早，CubeFS 是由京东开源，是中国第一个开源分布式文件系统，涵盖了元数据（meta）、数据（data）以及最近的纠删码（EC）模块。

然而，当初咱们并没有间接采纳 CubeFS 的全副，次要有两个起因。首先，咱们更心愿可能充分利用私有云的资源，而过后的 CubeFS 仅反对自建存储。其次，咱们对 Ceph 有更深刻的理解，心愿可能在底层的数据局部进行灵便替换。因而，当初咱们只采纳了 CubeFS 的元数据局部。

元数据是基于 Multi Raft 进行全内存实现的，架构分为两个模块：Master 和 Meta。

Master 是一个集群治理节点，负责管理存储卷和集群的根本配置信息，以及治理和调度 meta region，并向内部提供 HTTP 接口。
meta 作为元信息节点。它通过 Multi Raft 治理 region，并向内部提供 TCP 和 HTTP 接口，反对横向扩大。

数据被划分为不同的 region。每个文件系统都有多个数据分片，依照 inode 区间进行划分。随着数据量的增长，分片的数量也会减少。每个分片都会被平均地散布在不同的元数据节点上。在肯定条件下，会进行决裂操作，以便更好地实现程度扩大。 目前，咱们的生产环境中最大的一个集群曾经领有了 30 多亿个文件，预计能够扩大到百亿级别 。

上图是 meta region 决裂的示意图，如果前两个 region 被写满，它就会变成只读状态。当最初一个 region 的文件数量达肯定规模或节点内存用量超过了阈值，那么最初一个分片就会决裂成两个，实现了 region 的横向扩大。

JuiceFS 的利用场景次要包含 4 个场景：机器学习、文件长久化存储、共享数据拜访和大数据分析。目前，机器学习是咱们最大的业务畛域，大数据及大模型方面咱们正在积极探索中。

上图展现了咱们整体业务倒退的状况。咱们的繁多集群曾经达到了数十亿文件和 PB 级别的数据量，吞吐量达到数百 Gbps 的级别。

在过来的两年中，咱们正式地将 JuiceFS 接入到了咱们的学习平台。目前，它次要用于提供主动驾驶训练、局部手机训练和新一代语音训练的反对。

去年，咱们还反对了容器平台，公布了公共集群，并提供了容器平台的接口，以满足不同利用的需要。接着，咱们接入了小爱语音的训练业务。他们以前的部署形式是应用物理机上的 SSD 来运行 NFS 服务。然而，随着数据量的一直增长以及团队规模的扩充，他们很难进行扩容。此外，他们在数据管理方面也面临挑战。因而，去年他们决定采纳咱们的服务。

往年，咱们进行了一些新业务畛域的尝试，其中包含将大数据 Iceberg 迁徙到云端进行性能验证和比拟。此外，在大型模型的存储方面，咱们曾经反对了残缺的存储，包含原始语料的接入、算法训练和根本模型文件的存储。

在将大数据 Iceberg 迁徙到云端的性能验证与同类产品相比，JuiceFS 在多种规格的 IO 读写场景下均表现出色，某些场景性能略优。

如上图所示，工夫越短越好，能够看到 JuiceFS 在某些场景的速度更快，某些场景略慢，整体性能能够和私有云产品媲美。同时值得一提的是，我也理解到一些其余的存储产品，在数据组织治理和减速设计方面或多或少受到了 JuiceFS 的启发。

咱们目前曾经有许多业务迁徙并应用了 JuiceFS 文件存储服务，上面是以语音训练业务为例，介绍一下迁徙到 JuiceFS 后，给业务方带来的收益：

容量收益 ：语音组数据之前次要寄存在 NFS 上，常常遇到某台存储机器被写满，导致该机器上同学无奈持续写入的问题。随着训练规模的减少，容量扩大和容量治理都不不便。云平台 - 云存储组提供的 JuiceFS 实践上能够更好的满足咱们的需要。
老本收益 ：JuiceFS 单位容量的老本低于 NFS，目前语音组数据已由（NFS+FDS）迁徙至 JuiceFS，依据机器成本计算，每 T 容量每月的老本更低。
安全性 ：语音 NFS 采纳 RAID10 与 RAIDO 混部的形式，而目前采纳 3 正本模式存储，JuiceFS 上的数据安全性更有保障。
并发性 ：NFS 在应用时，用户的 IO 常常会集中在某一个存储节点上，某一台存储节点上的某个用户运行重 IO 工作后，同存储节点下的其余用户会受影响。而 JuiceFS 将数据扩散到多个节点上，多用户多机并发拜访时，用户相互影响小，IO 下限更高。

更低成本

冷热分层：咱们激励更多地应用私有云对象存储，以升高数据存储老本。
IDC 优化：咱们引入了高密度机型以缩小老本，并对存储形式进行了优化，采纳了 EC 纠删码存储形式，并实现了大小 IO 的拆散。
元数据管理：咱们的元数据目前采纳了全内存模式，对于大量小文件的利用场景，元数据在内存中的占用可能会相当大，老本很高。为了升高解决老本，咱们须要反对 DB 模式，即不再应用全内存存储，而是采纳本地的 rocksdb + ssd 形式存储。

晋升性能

进步全闪存储性能，反对 RDMA、SPDK，升高延时
GDS (GPU Direct Storage) 面向 AI 大模型场景，提供高速存储能力
优化 Meta 传输 proto 协定，缩小 marshal 开销及数据传输量

丰盛性能

适配社区版本最新性能，如目录配额性能。
心愿能实现 JuiceFS 商业版的局部能力，如反对分布式缓存性能，快照性能
lifecycle 生命周期治理
QoS 限速能力

客户端降级优化 ：在晚期，咱们面临了客户端降级的一些挑战。具体来说，Mount Pod 客户端降级要求迁徙 Mount Pod 上的所有业务，从新构建 Mount Pod，而后 Mount Pod 能力更新。这一过程十分繁琐，给业务方带来了很多困扰。

为了解决这个问题，咱们实现了热重启性能，无需卸载即可降级客户端。通过 Unix Domain Socket 传递 /dev/fuse 文件描述符，并从新构建文件句柄，从而实现了新过程对挂载点的重建。这一改良使得 CSI Driver 降级时则无需从新调度 Mount Pod，大大降低了降级的难度。
本地磁盘缓存优化 ：在容器场景中，客户端磁盘通常是机械硬盘。当须要读取的数据集较大时，如果本地缓存空间无限，会导致缓存命中率非常低。尤其是当将 Ceph 作为存储池时，个别不倡议在业务中启用缓存。
预读优化 ：针对偏差于随机读取的场景，预读可能导致带宽大幅减少（高达数十倍）。为了解决这个问题，咱们引入了预读放大带宽的监控机制。当预读放大过多时，咱们倡议业务敞开预读配置。须要指出的是，这种状况绝对较为极其，在大多数数据场景中，启用预读依然能够显著晋升性能。
客户端开销优化 ：因为咱们是通过 Fuse 用户态过程挂载文件系统，会引入额定的开销。如果宿主机挂载了大量卷，可能会导致内存资源的大量占用。因而，咱们倡议在应用卷的时候提前布局好，能够思考应用子目录形式代替多卷挂载，以缩小内存资源开销。

关于人工智能:小米云原生文件存储平台化实践支撑-AI-训练大模型容器平台多项业务

01 为什么要建设对立的存储平台

存储选型：CephFS vs JuiceFS

JuiceFS 劣势

02 小米存储平台架构及能力

优化 1：对立集群治理

优化 2：S3 网关

优化 3：存储类型及多池治理

产品能力

分布式 meta

03 利用场景

大数据上云场景摸索

语音场景业务收益

04 将来布局

05 JuiceFS 应用教训分享