关于sql:PostgreSQL数据目录深度揭秘

简介： PostgreSQL是一个性能十分弱小的、源代码凋谢的客户/服务器关系型数据库管理系统（RDBMS），被业界誉为“先进的开源数据库”，反对NoSQL数据类型，次要面向企业简单查问SQL的OLTP业务场景，提供PostGIS地理信息引擎、阿里云自研多维多模时空信息引擎等。本文着重介绍PostgreSQL的数据目录，其中保留着配置文件、数据文件、事务日志和WAL日志等重要文件，所有客户创立的数据文件和初始配置文件都能够在数据目录中找到，因而数据目录是重要的客户价值所在。

作者 | 市隐
起源 | 阿里技术公众号

一概述

PostgreSQL是一个性能十分弱小的、源代码凋谢的客户/服务器关系型数据库管理系统（RDBMS），PostgreSQL被业界誉为“先进的开源数据库”，反对NoSQL数据类型（JSON/XML/hstore），次要面向企业简单查问SQL的OLTP业务场景，提供PostGIS地理信息引擎、阿里云自研多维多模时空信息引擎等。

本文着重介绍PostgreSQL的数据目录，其中保留着配置文件、数据文件、事务日志和WAL日志等重要文件，所有客户创立的数据文件和初始配置文件都能够在数据目录中找到，因而数据目录是重要的客户价值所在。

二名词

1 OID

数据库对象是数据库存储或援用的数据结构体，数据库自身也是数据库对象，同时包含表、索引、视图、序列和函数等。Object ID是数据库对象的惟一标识符，保留在无符号四字节的整形变量中，所有数据库对象各自对应一个OID。PostgreSQL有两个视图各司其职，别离保留着不同类别的OID，其中pg_database保留数据库自身对象的OID，pg_class保留表、索引和序列等对象的OID。

2 Relation

关系代表非数据库自身的数据库对象，包含表、视图、索引和toast等，不包含数据库自身。

3 MVCC

Multi-Version-Concurrency-Control是一种并发管制机制，数据库引擎依据不同的事务隔离级别，通过查问事务快照和事务提交日志来实现元组的可见性查看。如果心愿了解数据库机制原理，MVCC是必不可少的学习常识。

4 Page

数据库文件在Linux平台被划分为默认8K固定长度的page进行治理，通过启动参数BLCKSZ能够预设page的大小。如果page设低了，雷同数据量的文件须要决裂成更多的page，IO次数和索引决裂次数都会减少，性能会升高较多；如果page设高了，page外部的数据检索效率会升高，性能一样会升高不少，一般来说8K和16K对于数据库系统来说是最优解。

三数据目录

数据目录默认在/var/lib/pgsql/data下，反对应用环境变量$PG_DATA治理。下图所示是数据目录的一级构造，后续会重点介绍具备代表性的重要文件和目录，比方base、pg_xact等。

四 base

1 概述

base目录存储用户创立的数据库文件，及隶属于用户数据库的所有关系，比方表、索引等。

2 一级目录

目录构造分为两级，第一级构造如下图所示，一级目录名是用户数据库对象的OID，1代表的是postgres数据库，一级目录内的二级子文件都是隶属于该数据库对象的关系，包含表、索引、视图等。

3 二级文件

二级子文件如下图所示，存储着某个数据库内的所有关系，包含表、索引、视图等，这里以postgres数据库目录示例。二级子文件分为三大类，第一类是以关系OID命名的主数据文件，第二类是文件名以_fsm结尾的闲暇空间映射文件，第三类是文件名以_vm结尾的可见性映射文件。

4 主数据文件

主数据文件存储隶属于对应数据库下的数据库关系文件，包含数据、索引等，客户最重要的业务数据便是存储在主数据文件中。

当关系文件大小低于RELSEG_SIZE × BLCKSZ时，数据库引擎创立名称为pg_class.relfilenode的单文件，反之会切分为名称如pg_class.relfilenode.segno的多个文件。单个关系文件外部被划分为默认8K固定大小的多个page并存储在磁盘上，8K能够在initdb时通过BLCKSZ参数批改配置。主数据文件写入时，会先将元组数据从行指针数组的底部开始重叠，直到空间耗尽。

用户通过SQL查问到的单行数据记录对应单个元组（tuple），因为MVCC机制的起因，元组可能是无奈查问到旧版本数据，也可能是沉闷的新版本数据，旧版本数据会在将来的某个时刻被清理。当查问没有命中索引触发程序扫描时，数据库引擎程序扫描page的行指针读取到元组，反之如果命中B树索引，引擎会通过索引文件的元组，通过索引键的TID值读取到元组。

下图是主数据文件的层级构造。

下表格是上图所示page内部结构的元数据信息。

下表格是上图所示tuple内部结构的元数据信息。

5 FSM

FSM是闲暇空间映射文件，记录着heap和index的每个page的闲暇空间信息，有利于疾速定位到有短缺闲暇空间的page以便存储tuple，如果没有定位到则须要扩大新page。除了Hash Index文件没有FSM文件，其余heap和index都须要FSM文件。

总体上，FSM采纳3-4级多叉树的构造组织FSM page，单个FSM page外部采纳齐全二叉树的构造进行治理，高级别FSM page的叶子节点关联低级别的FSM page，低级别FSM Page的叶子节点存储着heap、index page的可用空间数目，而非叶子结点顺次存储叶子节点的最大可用空间数目，每个节点占用1个字节。

6 VM

VM是可见性映射文件，记录着每个heap page的可见性信息，因而index page并没有vm文件。一方面它能够进步vacumn的执行效率，另一方面通过vm文件能够感知到page内的元组是否全副可见，如果全副可见的话，查问引擎查问索引元组间接获取到数据即可，不用再拜访数据元组查看可见性，缩小了回表次数，极大晋升了查问的效率。

VM采纳位图的构造存储可见性信息，每个heap page只在vm文件中存储2位，第一位代表元组是否全副可见，第二位代表元组是否全副被解冻。

#define VISIBILITYMAP_ALL_VISIBLE  0x01#define VISIBILITYMAP_ALL_FROZEN  0x02

五 global

1 概述

global目录存储pg_control及数据库集群维度的数据库及其关系，非客户维度的数据，例如pg_database、pg_class等。目录内的文件构造和base是统一的。

global目录文件构造如下图所示。

2 pg_control

pg_control文件记录数据库集群管制信息，包含initdb初始化、WAL和checkpoint的信息。

六 pg_wal

1 概述

pg_wal是WAL机制中的wal日志存储目录。PG10及之后的高版本改目录名为pg_wal，10之前目录名称是pg_xlog。

2 WAL机制

Write-Ahead-Logging：日志后行机制。数据变更优先写入日志文件，事务失败则变更记录被疏忽，事务胜利再抉择适合机会写入数据文件，数据的刷盘速度慢于日志刷盘速度。当数据库系统解体后，引擎会从上一次胜利的checkpoint点开始顺次重放wal记录，如果LSN>pd_lsn则重放wal记录，反之跳过，确保数据记录复原到解体前的状态。

3 文件构造

4 wal segment

wal段文件存储着数据库行记录明细，每一条记录明细都是服务于数据库复原操作的，确保前后数据统一。首先针对数据的任意一次批改操作均被记录在wal段文件中，包含insert、update和delete，其次零碎的一些治理行为也会被记录在wal段文件中，例如事务提交和vacuum等行为。

wal段文件命名形如00000001 00000001 00000092，文件名共24位，前8位是timeline，两头8位是logid，后8位是logseg，logseg的前6位始终是0，后2位是lsn的前2位。依据wal段文件名的最初2位，wal记录依据对应的LSN别离记录在不同的wal段文件中。

5 history

.history文件内容包含原.history文件，以后工夫线切换记录和切换起因，作用于数据库的工夫点复原行为。当数据库引擎从多个工夫线的备份中复原时，数据库从.history文件中找到从pg_control的start_timeline到指定的recovery_target_timeline间的所有wal段文件进行复原。

6 archive_status

archive_status是wal段文件的备份目录，包含.ready和.done文件。超出wal_keep_segments数目限度的wal日志会在archive_status目录内被打标，归档操作实现后被进一步移除。

7 .ready

.ready是同名wal段文件在archive_status目录内的标记文件，代表该wal段文件可被归档。wal段文件在数据目录中的存储文件数量是有下限的，个别通过wal_keep_segments参数来束缚，因而数据库引擎在wal段文件个数达到下限后会在archive_status目录内减少可移除的wal段文件的标记文件，文件名是原wal段文件名后减少.ready后缀，期待归档工具进行归档。

8 .done

.done是同名wal段文件在archive_status目录内的标记文件，代表该wal段文件已被归档，能够被清理。数据库引擎默认通过archive_command命令对.ready文件进行归档，归档胜利与否取决于archive_command命令返回true还是false，当archive_command返回true时，代表与.ready文件同名的wal段文件已被归档，引擎再将该文件的扩展名重命名为.done，期待数据库引擎在下一次的checkpoint时进一步清理原wal段文件。

七 pg_xact

1 概述

pg_xact是事务提交日志（Commit Log）的存储目录，事务提交日志默认256KB，文件名形如NNNN，零碎初始化后从0000开始递增至FFFF。PG 10及之后的高版本改目录名为pg_xact，10之前目录名称是pg_clog。

下图是pg_xact目录下的clog文件，027E前的文件因为事务已被解冻，所以被vacuum清理结束。

2 Commit Log

事务提交日志存储数据库的单个事务运行状态。Commit Log由共享内存中一组8KB的page组成，每个page蕴含一列数组，每个数组元素蕴含XID和该事物的实时状态。当page有余时，创立新的page来存储新的事务。

八配置文件

1 postgresql.conf

postgresql.conf文件存储着配置文件的地位、资源限度、集群复制等参数数据，是数据库运行时最重要的配置文件。

2 postgresql.auto.conf

postgresql.auto.conf文件存储着数据库的全局配置参数，数据库引擎在启动时加载postgresql.auto.conf文件后，笼罩postgresql.conf文件中已有的配置，造成最终的数据库启动配置。

3 pg_hba.conf

pg_hba.conf文件负责客户端的连贯和认证，起到防火墙的作用，格局是：TYPE / DATABASE / USER / ADDRESS / METHOD。

九总结

本文从肉眼可见的数据目录及其子文件开始开展，由浅入深直到不可见的源码构造体维度，具体介绍了数据目录及其子文件的构造和作用。大家通过理解数据目录的文件体系结构，可能对PostgreSQL数据库全貌有个总体概览，无论是日常运维、内核研发，还是业务开发，这些都是必须把握的基础知识。

原文链接
本文为阿里云原创内容，未经容许不得转载。

一 概述

二 名词

1 OID

2 Relation

3 MVCC

4 Page

三 数据目录

四 base

1 概述

2 一级目录

3 二级文件

4 主数据文件

5 FSM

6 VM

五 global

1 概述

2 pg_control

六 pg_wal

1 概述

2 WAL机制

3 文件构造

4 wal segment

5 history

6 archive_status

7 .ready

8 .done

七 pg_xact

1 概述

2 Commit Log

八 配置文件

1 postgresql.conf

2 postgresql.auto.conf

3 pg_hba.conf

九 总结

一概述

二名词

三数据目录

八配置文件

九总结