关于人工智能:文件系统考古1974Unix-V7-File-System

有时，提高难以觉察，特地是当你正身处其中时。而比照新旧材料之间的差别，寻找那些推动改革的信息源，咱们就能够清晰地看到提高的产生。在Linux（以及大部分Unix零碎）中，都能够印证这一点。

Unix V7 是 Unix 操作系统的一个重要的晚期版本，于 1979 年公布，是贝尔实验室最初一个宽泛散发的版本。它是第一个真正可移植的 Unix 版本，被移植到了多种平台上，包含 DEC PDP-11, VAX, x86, Motorola 68000 等。Unix V7 的 VAX 移植版本，叫做 UNIX/32V，是风行的 4BSD 系列 Unix 零碎的间接先人。许多老牌的 Unix 用户认为 Unix V7 是 Unix 倒退的高峰。

Unix V7 Research Release 的源代码能够在 unix-history-repo 这个由 Diomidis Spinellis 保护的我的项目中找到。如果你想深刻理解 Unix 的设计原理，能够参考 Maurice J. Bach 的经典著作 The Design of the Unix Operating System，并查看 Research V7 Snapshot 这个分支的代码库。

Machines

1974 年，计算机领有一个“外围”，即地方处理单元。然而，在某些计算机中，这个“外围”曾经产生了变动。不再是由多个部件（如算术逻辑单元、寄存器、程序控制器和微码存储器）组成的设施，而是一颗繁多的集成芯片，单个芯片上集成了数千个晶体管。它们被叫做“小型计算机”。

Kernels

在 Unix 中，咱们通过配置头文件（header file）来解决系统资源。如下图所示，这里显示了头文件中配置的默认值，数据结构是数组，所示值是相应的数组大小。如果要更改它们，则须要编辑文件，从新编译和链接内核，而后重新启动零碎。

它有一个文件系统缓冲区缓存（file system buffer cache），应用 NBUF（29）个磁盘块，每个磁盘块的大小是 512 字节，用来临时存储磁盘上的数据块和 inode，从而减速文件系统拜访。另外还有一个索引节点数组（inode array），它有 NINODE （200）个条目，每个条目对应一个文件的元数据，还能够同时挂载 NMOUNT （8）个文件系统。每个用户最多能够运行MAXUPRC（25）个过程，总共有 NPROC（150）个零碎过程。每个过程最多能够关上 NOFILE（20）个文件。

浏览 Bach 的著述和 V7 源代码是很乏味的，只管它们曾经齐全过期。因为这些源代码中呈现出的许多外围概念更加清晰，构造更简洁，有时甚至带有古老的格调。然而，正是这些概念定义了 Unix 文件系统。V7 Unix 被写入了 POSIX 规范，之后的每个文件系统都必须恪守它。如果您想理解更多相干示例，请参考 But Is It Atomic?

外围概念

Unix 文件系统的基本概念和构造来自这个零碎。其中一些概念甚在古代零碎中仍然存在。

磁盘由一系列数据块（block）组成，从第 0 块开始，始终到第 n 块完结。在文件系统的开始局部，咱们能够找到超级块（superblock）。它位于文件系统的第 1 块。超级块存储了文件系统的一些根本信息，比方文件系统的大小、闲暇块的数量、闲暇索引节点的数量等。当咱们执行挂载（mount）零碎调用时，零碎会找到一个闲暇的挂载构造（mount structure），并且从磁盘上读取超级块，把它作为挂载构造的一部分。

Inode

内存中的超级块（in-memory superblock）是磁盘上超级块的正本，用于放慢文件系统的访问速度。它蕴含一个 short 类型的字段，用于存储一个索引节点数组（inode array）在磁盘上的地位。

索引节点（inode）是一个形容文件内容和属性的构造，文件内容由一系列数据块（block）组成，每个数据块的大小是固定的（通常是 512 字节或 1024 字节），文件属性蕴含文件名、大小、权限、工夫戳等元数据（metadata）。

文件系统中的 inode 数组是一个 short 类型的计数器，它的最大值是 65535，也就是说文件系统中最多只能有 65535 个 inode。因为每个文件都须要一个 inode，因而每个文件系统最多只能包容 65535 个文件。
每个文件具备一些固定属性：

（2字节）mode，它蕴含了文件的类型和拜访权限；
（2字节）nlink，它示意这个文件有多少个名字；
（2字节）uid，文件的所有者；
（2字节）gid，文件所有者的组 ID；
（4字节）size，文件的长度，以字节为单位（定义为 off_t，长整型）；
（40字节）addr 数组，蕴含了文件的数据块在磁盘上的地址;
（3x 4字节）三个工夫，atime（拜访工夫），mtime（批改工夫）和 ctime（所谓的创立工夫，但实际上是最初一个 inode 更改的工夫）。

总大小为 64 字节。

bmap()

Addr 数组蕴含 40 个字节，但它存储了 13 个磁盘块地址，每个地址应用 3 个字节。这对于 24 位来说十分实用，或者说对应于 16 个大小为 512 字节的兆块，总文件系统大小为 8M 千字节，即 8GB。

PDP-11 RL02K磁盘盒可包容 10.4 MB，而更新的 RA92 可存储 1.5 GB。
Addr 数组在 bmap() 函数中被应用。该函数接管一个 inode（ip）和一个逻辑块号 bn，并返回一个物理块号。也就是说，它将文件中的一个块映射到磁盘上的一个块，因而得名。

前 10 个块指针间接存储在 inode 中。例如，要拜访块 0，bmap() 将在 inode 中查找 di_addr[0] 并返回该块号。

额定的块存储在一个间接块中，而间接块则存储在 inode 中。对于更大的文件，会调配一个双间接块，并指向更多的间接块，最终十分大的文件须要甚至三次间接块。

代码首先确定须要多少层间接寻址，也就是要通过多少个间接块能力找到文件内容的磁盘块。而后，获取相应的间接块。最初，代码依照适当的次数解析间接寻址，也就是依据层数顺次从间接块中读取其余间接块或间接块的地址，直到找到文件内容的磁盘块。

对于越来越大的文件，原始的 Unix 文件构造采纳了逐步减少的间接拜访次数。这样造成了一个压缩的数组，其中较短的文件能够间接通过 inode 中的数据进行拜访，而较大的文件则须要通过越来越多的间接拜访来获取数据。为了进步性能，放弃间接块在文件系统缓冲区高速缓存中是至关重要的。

这种扩展性取决于块大小（晚期为 512 字节，当初为 4096 字节）和块号的字节大小（最后为 3 字节，起初为 4 字节甚至 8 字节）。

Atomic writes

文件的写入是在加锁的状态下进行的，因而它们始终具备原子性。即便是逾越多个数据块的写入操作，也是如此。这一点在 But Is It Atomic? 中有具体探讨。
这也意味着即便有多个写入过程，在单个文件上，任何时刻只能有一个磁盘写入操作处于沉闷状态。这对数据库系统的开发者来说十分不便当。

Naming files

目录是一个具备非凡类型和固定记录构造的文件。

一个目录条目蕴含一个inode号（一个无符号整数）和一个文件名，文件名的长度最多能够达到14个字节。这使得一个磁盘块能够包容32个目录条目，而一个目录文件的间接块能够援用的10个磁盘块能够包容320个目录条目。

上层（lower）的文件系统中充斥了大量的文件。这些文件没有名称，只有编号。
下层（upper）的文件系统应用一种非凡类型的文件，具备简略的16字节记录构造，用于为文件调配最多14个字符的名称。一个非凡的函数namei()将文件名转换为inode号。

传递给namei()的路径名具备层次结构：它们能够蕴含/作为门路分隔符，并以\0（NUL）作为终止符。路径名若以/结尾，则遍历将从文件系统的根目录开始，造成绝对路径名；若不以/结尾，则遍历将从u.u_cdir，即当前目录开始。
该函数一一耗费路径名的各个组成部分，应用以后流动目录，并在该目录中线性搜寻以后组件的名称。当找到最初一个路径名组件或在任何阶段找不到组件时，该函数完结。如果在门路中的任何目录的任何点上，咱们没有 x 权限，它也会完结。

该函数按程序一一解决路径名的各个组成部分。它应用当前目录，并在该目录中线性搜寻以后组成部分的名称。函数的完结条件有两种状况：一是找到了路径名的最初一个组成部分，二是在门路的任何目录中，呈现了无法访问的状况。
挂载点是非凡条目，它会从以后节点和文件系统的目录条目切换到挂载文件系统的根inode。这使得Unix中的所有文件系统看起来像是一棵繁多的树，如果要进行”硬盘批改”的操作，只需简略地切换到不同的目录。

最终，该函数将返回给定路径名的inode指针，依据须要和需要创立（或删除）inode（和目录条目）。它是目录遍历和拜访权限查看的集中点。

一些翻新的想法以及限度

这个晚期的Unix文件系统具备许多很好的个性：

它将多个文件系统出现为一个对立的树形构造；
文件是无构造的字节数组；
这些数组以可动静减少深度的动静数组的模式存储。它们外部应用一种逐步嵌套的间接块零碎，其中数组的元素能够是指向其余数组或数据的指针，从而造成档次嵌套的构造。这使得磁盘搜寻的复杂度为O(1)；
上层文件系统创立文件和下层的文件系统组织文件相互隔离，分工明确。获取inode的惟一形式是路径名遍历，并且在此过程中始终查看权限；
文件名中只有很少的特殊字符，即/和\0（空字符）。

但也有显著的限度：

文件只能有16M个块；
文件系统只能有十分无限的65535个inode。

还有一些令人讨厌的限度：

文件只能有一个正在写入的过程，这会导致并发性受限；
目录查找是线性扫描，因而对于大型目录（超过320个条目），速度变得十分慢；
没有强制文件锁定零碎。但存在几种用于征询式文件锁定的零碎。

还有一些非凡状况：

在 Unix V7 零碎中，没有 delete() 零碎调用，而是 unlink() 零碎调用，它能够删除一个文件的名字，并且那些没有任何文件名和关上文件句柄的文件会被主动清理。这会导致一些不合乎预期的后果，例如，只有当一个齐全没有文件名的文件被齐全敞开时，它占用的磁盘空间才会被开释。许多 Unix 系统管理员都已经问过他们的磁盘空间去哪了，当他们删除了 /var/log 目录下的日志文件，却遗记了有一些过程还在应用它；
最后没有 mkdir() 和 rmdir() 零碎调用，这导致了存在可被利用的竞态条件。竞态条件是指在多线程或多过程环境中，因为操作的程序和机会不确定性，可能导致安全漏洞或错误行为的状况。这在 Unix 的后续版本中失去了修复；
有一些操作在特定条件下具备原子性（例如write(2)零碎调用），或者通过批改后具备原子性（mknod(2)和mkdir(2)）。

在结构上，inode表和块和inode的闲暇映射位于文件系统的结尾，磁盘空间也是从磁盘的前端线性调配的。这导致了频繁的寻址操作，并且可能导致文件系统的碎片化（即文件存储在非相邻的块中）。

遍历目录构造意味着从磁盘结尾读取目录的inode，而后向后挪动到更远的数据块，再从磁盘结尾读取下一个路径名组成部分的下一个inode，并向后挪动到相应的数据块。这个过程在每个路径名组成部分上来回进行，速度并不快。

改良

在之后的倒退中，minix文件系统忠诚继承了PDP-11 V7 Unix文件系统，保留了它的个性包含局限。然而，随着工夫的推移，在古代的Linux零碎中，因为其不再具备实用性，它曾经从内核源代码中移除。

在稍后的一篇文章中，咱们将会理解到对于BSD疾速文件系统，如何更好地布局磁盘上的数据，如何实现更长的文件名、更多的inode，以及如何通过思考磁盘的物理个性来加快速度。

要解决目录查找时间线性增长、单个写入者或无限的文件元数据这些问题须要更新的文件系统。

翻译自：《50 years in filesystems》由 KRISTIAN KÖHNTOPP 撰写。

如有帮忙的话欢送关注咱们我的项目 Juicedata/JuiceFS 哟！ (0ᴗ0✿)

关于人工智能:文件系统考古1974Unix-V7-File-System

Machines

Kernels

外围概念

Inode

bmap()

Atomic writes

Naming files

一些翻新的想法以及限度

改良

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:文件系统考古1974Unix-V7-File-System

Machines

Kernels

外围概念

Inode

bmap()

Atomic writes

Naming files

一些翻新的想法以及限度

改良

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复