关于时序数据库:华为云专家向宇工欲善其事必先利其器才能做数据的管家

摘要： 随着物联网数据量的增长，“时序数据库”成为企业面临的“必答题”。

据钻研机构 Forrester 预测，物联网所带来的产业价值要比互联网高 30 倍，到 2020 年，中国物联网产业将成长为一个超过五万亿规模的微小市场。

5G、AI、区块链等新一代信息技术与物联网减速交融。在智能互联的愿景中，物联网零碎的机器、设施和传感器收集的数据，通过人工智能技术进行剖析与关联，以更有意义的形式服务用户。然而，随着物联网数据量的增长，“时序数据库”成为企业面临的“必答题”。

时序数据库是一种针对时序数据进行垂直优化的数据库，专门用于存储和治理时序数据。向宇举例到，某个酒店在早晨 8：00 有 200 个房间被入住，那个 8：00 工夫点上存储的 200 的数字就是时序数据。

在物联网和运维监控场景下，如服务器 CPU 和内存使用量、电动汽车的工况数据、或是应用服务的业务指标等等，各种被采集的数据指标项多达千万甚至上亿，甚至一次采集的指标数据就可能超过数 10GB，这些数据都必须要在规定工夫内全副写入数据库。并且，指标数据通常距离几秒就会被采集一次，如此海量的时序数据必然要求数据库要具备大并发写入能力和很高的数据压缩效率。

此外，时序业务通常还须要将数据从数据库中检索进去，以近乎实时的可视化形式展示，不便剖析和决策，这对数据库的查问性能也有着严格的要求。在这种场景下，传统的关系型数据库最大的问题在于数据短少压缩，查问效率低下，时序数据库一开始就被设计为高吞吐、低时延、高数据压缩率，以满足物联网和运维监控场景下对性能和贮存老本的诉求。也正是因为时序数据库的这些特点，在制造业、银行金融、社交媒体、能源、智慧家居等行业畛域都有大量的利用场景。

依据 IDC 的一份白皮书预测，到 2025 年寰球数据总量将达到 175ZB，这其中 30% 为时序数据。时序数据库是在最近 10 年才真正倒退起来，这期间呈现了许许多多的时序数据库，光 DBEngines 网站收录的寰球时序数据库就多达有 30 多种。

向宇谈到，相比关系型数据库，时序数据库稍微简略一些，没有简单的事务反对，也没有针对单条数据的更新和删除操作。但要做好一个时序数据库并非易事，就像造车一样，要造好一辆车，单纯购买整机组装测试是远远不够的，还须要思考品质、性能、舒适性、功能性、安全性等等，一辆车凝固着人类智慧与文化的结晶。

打造一款时序数据库，须要凝固数十年数据库畛域倒退的硬件和软件技术和教训，如存储、平安、分布式系统、编译、算法、数据结构、架构设计等等，更要做到系统安全、牢靠、稳固、高效和多场景通用。“将来会有越来越多的企业心愿利用时序数据库挖掘出更多有价值的信息，时序数据库在海量工夫线治理、数据压缩、读写性能等方面正面临着微小的技术挑战。”向宇讲到。

时序数据库，作为整个物联网的数据存储底座，同时也是云厂商基础设施的重要局部。作为寰球云服务提供商，华为云的迅速倒退，其背地是大量基础设施的扩张，如何能把所有的基础设施和云服务齐全监控起来，是摆在运维团队背后不得不去解决的技术问题。现有的开源时序数据库曾经不能满足华为云监控数据日益增长的诉求，监控指标数量从数百万迅速减少到数十亿，每秒数据写入量从数亿条迅速增长到数十亿条，迫切需要一款自研的时序数据库能够撑持运维团队的监控零碎。

在 2018 年开始，向宇所在的华为云数据翻新 Lab 开始着眼于将来物联网和运维监控场景下的时序数据存储与治理，自研时序数据库 GaussDB（for Influx）。在通过外部场景的验证后，GaussDB（for Influx）于 2020 年正式上线对外商用。

GaussDB(for Influx) 采纳云原生存储与计算拆散架构，反对分钟级弹性节点扩缩容，做到不迁徙数据的同时还把事件给做了；反对亿级工夫线，每天万亿条数据写入不是问题；反对数据无损压缩，采纳自适应数据压缩算法，将数据压缩比进步到 1:20；使用 MPP 架构、向量化、预聚合等相干技术，相比开源的 OpenTSDB、InfluxDB 等时序数据库，对于像单工夫线条件查问和多维聚合查问这类在时序数据库中较为常见的查问，性能上有很大幅度的晋升。

向宇介绍到，华为云的一个业务从 Cassandra 切换到 GaussDB(for Influx) 后，计算节点从总共 39 个（热集群 18 个，冷集群 9 个，大数据分析集群 12 个）升高到了 9 个节点，缩减 4 倍计算节点。存储空间耗费从每天 1TB 升高到 100GB 以内，缩减 10 倍存储空间耗费。

目前华为云时序数据库 GaussDB(for Influx) 曾经服务 15+ 外部和内部客户，已成为华为云基础设施重要组成部分。

回忆时序数据库 GaussDB（for Influx）研发过程的时候，向宇说道，一个零碎从诞生到成熟，往往随同着长期的 Bug 修复和联合场景的继续优化。因为任何人都无奈提前把所有的利用场景都想到并且测试笼罩到，GaussDB(for Influx) 也不例外。

当初研发 GaussDB(for Influx) 时，向宇团队遇到的第一个问题就是“过程 OOM（内存耗尽触发操作系统爱护机制）退出”。大家都晓得，呈现 OOM 只可能有两个起因，一是内存透露，二是内存实在应用过多。

家喻户晓，数据库外面的数据是寄存到磁盘文件，高效率的数据检索往往须要在内存中建设文件索引，不便疾速定位数据在文件中的地位。在时序数据库中，当数据在数据库中保留的工夫越长，数据文件就会越大，文件数量也就越多。程序重启过程中，须要将每个数据文件的元数据读取到内存组织为索引，这里的元数据次要包含以后文件寄存有多少工夫线，每个工夫线的数据在文件中的偏移量等等。在运维监控的场景下，工夫线的数量是呈指数增长，过后序数据库的工夫线超过亿级，虚拟机规格不变的状况下，问题呈现了，元数据无奈全副寄存内存再转化为索引，于是程序呈现 OOM 无奈重启。

向宇进一步论述道，时序数据库难就难在这里，因为绝大部分用户或者场景不会达到呈现问题的工夫线和数据量，面对计算资源无限，而数据量太大的状况，行业中并无卓有成效的现成办法，解决这样的问题，往往须要联合技术和教训。举个例子，程序重启过程中加载元数据，为防止在内存积压太多数据，能够抉择限流的形式，那么每次解决的数据量阈值该当如何设置就依赖长期的零碎开发教训，太大可能问题还会存在，太小又耗时过长。

“有问题不可怕，可怕的是没有问题。当问题产生时，咱们的抉择是侧面‘硬刚’，呈现一个毁灭一个！”向宇谈到。不难看出，也正是他们的这种不畏艰难，用“匠人”精力开发出华为云基础设施重要组成部分，并且曾经服务 15+ 外部和内部客户的华为云时序数据库 GaussDB(for Influx)。

点击关注，第一工夫理解华为云陈腐技术~

关于时序数据库:华为云专家向宇工欲善其事必先利其器才能做数据的管家

高性能时序数据库，是物联网的数据存储底座

凝固 10 多年软硬件技术教训，将来挑战重重

云原生存算拆散架构，华为云数据翻新 Lab 实际

研发之路没有现成的参考答案，迎难而上侧面“刚”