关于时序数据库:关于-30-和-20-的数据文件差异以及性能优化思路

如果须要对数据库性能优化，理解数据文件的存储形式和工作原理是必要的。

对于时序数据库（Time Series Database） TDengine 来说，在 2.x 版本中时序数据的保留策略是由keep和days这两个参数把控的。（详情可见：https://mp.weixin.qq.com/s/uJEQwN0NnmSTBAMOecAtoA）咱们通过 keep 和 days 来对时序数据进行分段保留，而每一段时间的数据就能够便对应着数据库中数据vnode目录下的一组数据文件，也就是咱们这篇文章的配角。

在3.0 版本中，此处逻辑保持一致，只是为了更好的体现“每一段时间的数据”，咱们把 “days” 参数更名为了“duration”。

而上文提到的一个数据文件组，在2.x 版本中是这个样子的，他们代表了 vnode24 中所有表在某10天（days默认参数值）内的所有数据，对于这些文件的具体含意能够参考官网文档和：https://mp.weixin.qq.com/s/OGS1WIlySSKveEOk4Reg3Q

在 2.x 的前期版本中，为了晋升预计算（sum、max、min）的性能，又把 .data/.last 文件中所有数据块的预计算后果抽离进去造成了 smad/smal 文件，于是文件组变成了如下5个文件：

到了 3.0 版本中，这个数据文件组持续演变成了下图这样的状态。
那么，他们有哪些具体的变动呢？

1.数据文件（.data）
其中，.data类文件逻辑放弃不变，存储的是理论入库的时序数据，为多个数据块形成。一个数据块只属于一张表，除此之外，每一个数据块也都记录着预计算中的行数数据，属于预计算中的count 函数计算结果。

2.索引文件（.head）
.head 文件和此前逻辑放弃不变，存储的是 .data 文件中数据块的索引信息。查问申请正是通过这些索引信息，来迅速定位表，定位工夫范畴，从而在 .data 文件中找到对应的数据返回给用户。

3.预计算文件（.sma）
.sma 文件：存储数据块中每列数据预计算数据的文件。文件中只存储了 .data 文件中数据块的预计算。预计算是为了减速查问，尽可能防止从硬盘中读取原始数据。.sma 等于 2.x 前期版本中的 smad 文件，而 smal 则被移除了。

4.碎片文件（.stt）
.stt 文件则是取代了 2.x 版本的 .last 文件，他们的大体性能保持一致，简略来说就是保留每一张表从内存落盘到磁盘时的碎片数据（小于 minrows），然而他们的运行机制有了一些区别：

在 2.x 版本中，当.last文件小于32k的时候，即使是当中某表的碎片数据曾经满足行数（大于等于 minrows）要求合并到了.data文件，然而.last 文件依然只是会被追加写入，而并不会清理掉这部分数据，该 32k 的限度是为了避免对文件频繁的操作影响性能。

而到了 3.0 的时候，在 .stt 文件中，属于同一个超级表的数据会存储在同一个数据块中，且数据块中的数据依照（uid（表的惟一标识）, timestamp, version）递增排列。每次落盘，数据文件组都会生成一个新的 stt 文件，用来放本次落盘中的散碎数据。当 .stt 文件个数超过肯定的阈值（由建库参数：stt_trigger 管制），则首先将多个 .stt 文件的碎片数据合并后，就会依据理论状况来决定写入 .data 文件，或写入新的 .stt 文件中。

5.性能影响：
在刨除函数自身的性能问题，和数据自身品质问题（如数据版本过多），硬件资源有余问题，数据建模不迷信等因素之外。上述几个数据文件的配置对数据库性能的影响是根本性的。
整体的性能影响因素：

一. 对于 .data 文件，它的工作原理，整体上仍能够参考：https://mp.weixin.qq.com/s/OGS1WIlySSKveEOk4Reg3Q

二. 对于 .head 文件，它记录的是.data 文件中数据块的索引，因而数据块的数量会间接影响索引块的数量，也就会间接影响到查问性能，细节能够参考这篇文章：文章：TDengine 3.0.2.5 查问再优化！揭秘索引文件的工作原理（已公布）

三. 对于 .stt 文件，记录的是碎片化数据，对于性能的影响因素大抵如下：
数据库级别 buffer 参数 (2.x 中，cache 和 block 的乘积) 的设置是否正当，如果buffer过小，导致落盘数据行数少，便会造成大量碎片影响性能。绝对的，如果表过宽，导致单行数据过大，同样会导致落盘行数变少，同样影响性能，两者原理雷同。
minrows 设置过大，符合标准的数据块变少，导致碎片增多。

对于上文的 STT_TRIGGER 这个参数 https://docs.taosdata.com/taos-sql/database/：它代表触发 .stt 文件合并时的个数。默认为 1，范畴 1 到 16。对于少表高频写入频繁触发落盘的场景，此参数倡议应用默认配置，或较小的值；而对于多表场景，此参数倡议配置较大的值。核心思想是会常常合并size较大的 .stt 会比拟节约磁盘io影响写入。

四. 对于 .sma 文件，预计算的聚合查问性能次要受 .sma 文件大小所影响。所以表宽/buffer/minRows/maxRows 参数都会影响，具体优化逻辑能够联合上述内容重复调试。

性能调优是十分复杂的工作，尤其是对于场景非凡，比方宽列、多表、并发、大字段等状况，各有不同的优化思路。开源版用户能够联合文章与文档进行调试，企业版用户能够间接由 TDengine 团队帮助定制部署、以及前面继续的运维和性能优化工作。

关于时序数据库:关于-30-和-20-的数据文件差异以及性能优化思路

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于时序数据库:关于-30-和-20-的数据文件差异以及性能优化思路

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复