TDengine与InfluxDB对比测试

3次阅读

共计 9630 个字符,预计需要花费 25 分钟才能阅读完成。

摘要:为帮助用户了解 TDengine 的指标,特将 TDengine 与 InfluxD 从数据库的读、写、查询、压缩比等方面进行了对比测试。从测试结果上看,TDengine 的性能远超 InfluxDB,写入性能约为 5 倍,读取性能约为 35 倍,聚合函数性能约为 140 倍,按标签分组查询性能约为 250 倍,按时间分组查询性能约为 12 倍。

测试环境

对比测试的测试程序和数据库服务在同一台 4 核 8GB 的 Dell 台式机上部署,台式机型号为 OptiPlex-3050,详细配置如下

OS: Ubuntu 16.04 x64
CPU: Intel(R) Core(TM) i3-7100 CPU @ 3.90GHz
Memory: 8GB
Disk: 1TB HDD

测试数据集及其生成方法

1. 测试数据生成方法

本次测试调研了两类比较热门的测试数据集

  • 纽约出租车运行数据,因该数据中抹去了单台车辆的信息,无法对其进行建模
  • faker 生成工具,因其只能生成字符串,并不适合物联网场景下处理的数据

所以,为使测试可轻易重复,单独编写了一个生成模拟数据的程序来进行本次测试。

测试数据生成程序模拟若干温湿度计生成的数据,其中温度为整数、湿度为浮点数,同时每个温度计包含设备 ID、设备分组、设备名称三个标签。为了尽可能真实地模拟温湿度计的生成数据,没有使用完全随机数,而是针对每个温度计确保生成的数据值呈正态分布。

测试数据的频率为 1 秒钟,数据集包含 10000 台设备,每台设备 10000 条记录。每条数据采集记录包含 1 个时间戳字段、2 个数据字段和 3 个标签字段。

2. 测试数据生成程序源码

采用 java 程序生成测试数据集,测试程序源代码可以到 https://github.com/taosdata/T… 下载,下载后执行如下语句

cd tests/comparisonTest/dataGenerator
javac com/taosdata/generator/DataGenerator.java 

3. 测试数据生成程序用法

相关参数如下

  • dataDir 生成的数据文件路径
  • numOfFiles 生成的数据文件数目
  • numOfDevices 测试数据集中的设备数目
  • rowsPerDevice 测试数据集中每台设备包含的记录条数

4. 生成测试数据

执行如下命令,会在~/testdata 目录下生成 100 个数据文件,每个文件包含 100 台设备的测试数据;合计 10000 台设备,每台设备 10000 条记录

mkdir ~/testdata
java com/taosdata/generator/DataGenerator -dataDir ~/testdata -numOfDevices 10000 -numOfFiles

TDengine 环境准备

TDengine 是一个开源的专为物联网、车联网、工业互联网、IT 运维等设计和优化的大数据平台。除核心的快 10 倍以上的时序数据库功能外,还提供缓存、数据订阅等功能,最大程度减少研发和运维的工作量。

1. 安装部署

  • 下载 tdengine-1.6.1.0.tar.gz,地址 https://www.taosdata.com/
  • 安装 TDengine,解压后运行 install.sh 进行安装
  • 启动 TDengine,运行 sudo systemctl start taosd
  • 测试是否安装成功,运行 TDengine 的 shell 命令行程序 taos,可以看到如下类似信息
Welcome to the TDengine shell, server version:1.6.1.0  client version:1.6.1.0
Copyright (c) 2017 by TAOS Data, Inc. All rights reserved.
taos> 

2. 数据建模

TDengine 为相同结构的设备创建一张超级表,而每个具体的设备则单独创建一张数据表。因此,超级表的数据字段为采集时间、温度、湿度等与时间序列相关的采集数据;标签字段为设备编号、设备分组编号、设备名称等设备本身固定的描述信息。

创建超级表的 SQL 语句为

create table devices(ts timestamp, temperature int, humidity float) tags(devid int, devname binary(16), devgroup int);

以设备 ID 作为表名(例如 device id 为 1,则表名为 dev1),使用自动建表语句,写入一条记录的语句为

insert into dev1 using devices tags(1,'d1',0) values(1545038786000,1,3.560000);

3. 测试程序源码

本文采用 TDengine 的原生 C 语言接口,编写数据写入及查询程序,后续的其他文章会提供基于 JDBCDriver 的测试程序。

测试程序源代码及查询 SQL 语句可以到 https://github.com/taosdata/T… 下载,下载后执行如下语句

cd tdengine
make

会在当前目录下生成可执行文件./tdengineTest

4. 测试程序用法

TDengine 的测试程序用法与 InfluxDB 的用法相同,写入相关参数

  • writeClients 并发写入的客户端链接数目,默认为 1
  • rowsPerRequest 一次请求中的记录条数,默认为 100,范围 1 -1000
  • dataDir 读取的数据文件路径,来自于测试数据生成程序
  • numOfFiles 从数据文件路径中读取的文件个数

例如

./tdengineTest -dataDir ./data -numOfFiles 10 -writeClients 2 -rowsPerRequest 100

查询相关参数

sql 将要执行的 SQL 语句列表所在的文件路径,以逗号区分每个 SQL 语句
例如

./tdengineTest -sql ./sqlCmd.txt

写入性能对比

数据库的一个写入请求可以包含一条或多条记录,一次请求里包含的记录条数越多,写入性能就会相应提升。在以下测试中,使用 R / R 表示 Records/Request,即一次请求中的记录条数。同时,一个数据库可以支持多个客户端连接,连接数增加,系统总的写入通吐量也会相应增加。因此测试中,对于每一个数据库,都会测试一个客户端和多个客户端连接的情况。

1.TDengine 的写入性能

TDengine 按照每次请求包含 1,100,500,1000,2000 条记录各进行测试,同时也测试了不同客户端连接数的情况。测试步骤如下所示,您可以修改示例中的参数,完成多次不同的测试。

1. 清空上次测试数据
运行 TDengine 的 shell 命令行程序 taos,执行删除测试数据库语句
Welcome to the TDengine shell, server version:1.6.1.0  client version:1.6.1.0
Copyright (c) 2017 by TAOS Data, Inc. All rights reserved.
taos>drop database db;
2. 测试执行
开启 5 个客户端读取~/testdata 目录中的 100 个数据文件,每个请求写入 1000 条数据,可以参考如下命令
./tdengineTest -dataDir ~/testdata -numOfFiles 100 -writeClients 5 -rowsPerRequest 1000

写入吞吐量如下,单位为记录数 / 秒

R/R 1 client 2 clients 3 clients 4 clients 5 clients 6 clients 7 clients
1 26824 43699 55137 62869 64529 68647 72277
100 415800 734484 895522 976085 1087902 1171074 1192199
500 479846 882612 1083032 1195100 1269196 1364256 1417004
1000 500751 914494 1121914 1239157 1367989 1418104 1476560
2000 512820 1055520 1174164 1306904 1426635 1458434 1477208

图 1 TDengine 的写入吞吐量

2.InfluxDB 的写入性能

InfluxDB 按照每次请求包含 1,100,1000,10000,20000,50000,100000 条记录各进行测试,同时也测试了不同客户端连接数的情况。测试步骤如下所示,您可以修改示例中的参数,完成多次不同的测试。

1. 清空上次测试数据
运行 InfluxDB 的 shell 命令行程序 influx,可以看到如下类似信息
Connected to http://localhost:8086 version 1.7.7
InfluxDB shell version: 1.7.7
> drop database db;
2. 测试执行
开启 5 个客户端读取~/testdata 目录中的 100 个数据文件,每个请求写入 10000 条数据,可以参考如下命令
./influxdbTest -dataDir ~/testdata -numOfFiles 100 -writeClients 5 -rowsPerRequest 10000

写入吞吐量如下,单位为记录数 / 秒

R/R 1 client 2 clients 3 clients 4 clients 5 clients 6 clients 7 clients
1 31 43 55 67 80 92 106
100 3024 4325 5709 6819 8013 9204 10173
1000 21940 30659 40825 50622 60567 70311 77174
10000 88686 155154 209377 234124 245141 257454 261542
20000 96277 179492 234413 255805 263160 268466 271249
50000 125187 200552 243861 264780 271101 270364 273820
100000 130108 197202 240059 254973 265922 272275 270859


图 2 InfluxDB 的写入吞吐量

3.TDengin 和 InfluxDB 的最佳性能对比
基于以上的测试数据,将 TDengine 和 InfluxDB 测试出的最佳写入速度进行对比,结果如下

R/R 1 client 2 clients 3 clients 4 clients 5 clients 6 clients 7 clients
TDengine 512820 1055520 1174164 1306904 1426635 1458434 1477208
InfluxDB 130108 200552 243861 264780 271101 272275 273820


图 3 TDengine 和 InfluxDB 的最佳写入性能对比

从图 3 可以看出,TDengine 的写入速度约为百万条记录 / 秒的量级,而 InfluxDB 的写入速度约为十万条记录 / 秒的量级。因此可以得出结论,在同等数据集和硬件环境下,TDengine 的写入速度远高于 InfluxDB,约为 5 倍。

需要指出的是,InfluxDB 的单条插入性能很低,因此必须采用 Kafka 或其他消息队列软件,成批写入,这样增加了系统开发和维护的复杂度与运营成本。

读取性能对比

本测试做了简单的遍历查询,就是将写入的数据全部读出。因为 InfluxDB 的 GO 客户端在解析 JSON 返回结果时的限制,故每次查询仅取出 100 万条记录。在测试数据准备时,已经按照 devgroup 标签将设备拆分成 100 个分组,本次测试随机选取其中 10 个分组进行查询。

1.TDengine 的测试方法

测试 SQL 语句存储在 tdengine/q1.txt 中,测试 SQL 语句参考
select * from db.devices where devgroup=0;
执行方法如下
./tdengineTest -sql ./q1.txt

2.InfluxDB 的测试方法

测试 SQL 语句存储在 influxdb/q1.txt 中,测试 SQL 语句参考
select * from devices where devgroup='0';
执行方法如下
./influxDBTest -sql ./q1.txt

如下所示,横轴为设备分组编号,测试结果的单位为秒

分组 0 分组 10 分组 20 分组 30 分组 40 分组 50 分组 60 分组 70 分组 80 分组 90
TDengine 0.235 0.212 0.208 0.218 0.209 0.210 0.209 0.209 0.216 0.208
InfluxDB 7.56 7.21 7.64 7.28 7.64 7.52 7.52 7.52 7.32 7.42


图 4 TDengine 和 InfluxDB 的读取性能对比

从图 4 中可以看出,TDengine 的 100 万条的读取速度稳定在 0.21 秒,吞吐量约为 500 万条记录 / 秒,InfluxDB 的 100 万条的读取速度稳定在 7.5 秒,吞吐量约为 13 万条记录 / 秒。所以从测试结果来看,TDengine 的查询吞吐量远高于 InfluxDB。

聚合函数性能对比

本单元的测试包含 COUNT,AVERAGE,SUM,MAX,MIN,SPREAD 这六个 TDEngine 和 InfluxDB 共有的聚合函数。所有测试函数都会搭配筛选条件(WHERE)来选取设备的十分之一、十分之二、十分之三、直到全部设备。

1.TDengine 的聚合函数性能

测试 SQL 语句存储在 tdengine/q2.txt 中,测试 SQL 语句参考

select count(*) from db.devices where devgroup<10;

执行方法如下

./tdengineTest -sql ./q2.txt

如下所示,横轴为查询设备占总设备的百分比,测试结果的单位为秒

10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
count 0.018 0.026 0.016 0.018 0.017 0.024 0.024 0.027 0.030 0.033
avg 0.007 0.014 0.015 0.020 0.024 0.038 0.044 0.050 0.057 0.060
sum 0.006 0.010 0.019 0.018 0.031 0.036 0.034 0.037 0.043 0.046
max 0.007 0.013 0.015 0.020 0.025 0.030 0.035 0.039 0.045 0.049
min 0.006 0.010 0.016 0.024 0.032 0.039 0.045 0.041 0.043 0.049
spread 0.007 0.010 0.015 0.019 0.033 0.038 0.046 0.052 0.059 0.066


图 5 TDengine 聚合函数性能

2.InfluxDB 的聚合函数性能

测试 SQL 语句存储在 influxdb/q2.txt 中。因为 InfluxDB 的标签仅能为字符串,所以测试 SQL 语句的筛选条件为正则表达式,如下的 SQL 语句选取第 10-19 个 group 中的数据,例如

select count(*) from devices where devgroup=~/[1-1][0-9]/;

执行方法如下

./influxdbTest -sql ./q2.txt

如下所示,横轴为查询设备占总设备的百分比,测试结果的单位为秒

10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
count 1.06 2.14 3.28 4.15 5.26 6.19 7.01 8.09 9.06 9.92
mean 0.99 2.05 2.77 3.68 4.51 5.35 6.14 6.95 7.70 8.44
sum 1.02 2.04 2.89 3.75 4.64 5.50 6.38 7.18 7.94 8.72
max 1.01 1.99 2.85 3.77 4.69 5.52 6.35 7.17 7.95 8.80
min 1.03 2.02 2.95 3.81 4.64 5.48 6.33 7.18 8.01 8.72
spread 7.38 16.92 27.44 38.25 49.86 60.68 71.61 82.50 94.68 105.26


图 6 InfluxDB 聚合函数性能

3. 聚合函数性能对比

count average sum max min spread
TDengine 0.033 0.06 0.046 0.049 0.049 0.066
InfluxDB 9.92 8.44 8.72 8.8 8.72 105.26


图 7 聚合函数性能对比

从图 7 可以看出,TDengine 的聚合函数查询时间在 100 毫秒以内,而 InfluxDb 的查询时间在 10 秒左右。因此可以得出结论,在同等数据集和硬件环境下,TDengine 聚合函数的查询速度远远高于 InfluxDB,超过 100 倍。

按标签分组查询性能对比

本测试做了按标签分组函数的性能测试,测试函数会搭配筛选条件(WHERE)来选取设备的十分之一、十分之二、十分之三、直到全部设备。

1.TDengine 的测试方法

测试 SQL 语句存储在 tdengine/q3.txt 中,例如

select count(temperature), sum(temperature), avg(temperature) from db.devices where devgroup<10 group by devgroup;

执行方法如下

./tdengineTest -sql ./q3.txt

2.InfluxDB 的测试方法

测试 SQL 语句存储在 influxdb/q3.txt 中,例如

select count(temperature), sum(temperature), mean(temperature) from devices where devgroup=~/[1-1][0-9]/ group by devgroup;

执行方法如下

./influxdbTest -sql ./q3.txt

如下所示,横轴为查询设备占总设备的百分比,测试结果的单位为秒

10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
TDengine 0.030 0.028 0.031 0.041 0.069 0.066 0.077 0.091 0.102 0.123
InfluxDB 3.19 6.37 9.60 12.95 15.93 19.16 22.05 25.20 28.06 31.52


图 8 TDengine 和 InfluxDB 的按标签分组查询性能对比

从测试结果来看,TDengine 的分组聚合查询速度远高于 InfluxDB,约为 300 倍。

按时间分组查询性能对比

本测试做了按时间分组函数的性能测试,测试函数会搭配筛选条件(WHERE)来选取设备的十分之一、十分之二、十分之三、直到全部设备。

1.TDengine 的测试方法

测试 SQL 语句存储在 tdengine/q4.txt 中,例如

select count(temperature), sum(temperature), avg(temperature) from db.devices where devgroup<10 interval(1m);

执行方法如下

./tdengineTest -sql ./q4.txt

2.InfluxDB 的测试方法

测试 SQL 语句存储在 influxdb/q4.txt 中,例如

select count(temperature), sum(temperature), mean(temperature) from devices where devgroup=~/[1-1][0-9]/ group by time(1m);

执行方法如下

./influxdbTest -sql ./q4.txt

如下所示,横轴为查询设备占总设备的百分比,测试结果的单位为秒

10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
TDengine 0.237 0.472 0.653 0.902 1.134 1.422 1.753 1.784 2.085 2.549
InfluxDB 3.26 6.50 9.59 12.85 16.07 19.02 22.32 25.44 28.29 31.44


图 9 TDengine 和 InfluxDB 的按时间分组查询性能对比

压缩比对比

1. 原始数据的磁盘占用
本次测试共生成 100 个测试数据文件,存储在~/testdata 目录下,使用 du 命令查看~/testdata 目录的文件大小

cd ~/testdata
du -m .

如下图所示

图 10 原始数据的磁盘占用情况

2. 查看 TDengine 的磁盘占用

TDengine 的磁盘文件默认位置在目录 /var/lib/taos/data 下,在查看磁盘文件大小时,首先将 TDengine 的服务停止

sudo systemctl stop taosd

然后,调用 du 命令,查看 /var/lib/taos/data 目录下文件的大小

cd /var/lib/taos/data
du -h .


图 11 TDengine 的磁盘占用情况

3. 查看 InfluxDB 的磁盘占用

InfluxDB 的磁盘文件默认位置在目录 /var/lib/influxdb/data/db 下,在查看磁盘文件大小时,首先将 InfluxDB 的服务停止

sudo systemctl stop influxDb

目录 /var/lib/taos/data 为用户 influxdb 所有,请确保当前用户有查看该目录的权限。本测试中,数据存储在 autogen/84 目录下,调用 du 命令,查看该目录下文件的大小。

cd /var/lib/influxdb/data/db/autogen/84
du -h .


图 12 InfluxDB 的磁盘占用情况

4. 磁盘占用情况对比

生成的测试数据文件占用的磁盘大小为 3941MB,InfluxDB 磁盘占用 855MB,TDengine 磁盘占用 459MB。在相对比较随机数据集的情况下,TDengine 的压缩比约为 InfluxDB 压缩比的 1.86 倍。

在物联网场景下,大多数采集数据的变化范围都比较小。由于 TDengine 采用列式存储,因此可以预期,TDengine 在真实场景的压缩比表现会更好。

功能对比

TDengine 与 InfluxDB 都能用于时序数据的处理,两者在数据库层面上功能接近。但 TDengine 还具备消息队列、缓存、消息订阅等大数据平台所需要的功能。使用 InfluxDB,还需要集成 Kafka, Redis 或其他类似软件。具体对比如下:

功能支持 TDengine InfluxDB
SQL 语法支持 支持 支持
Schema 需要定义 无需定义
私有化部署支持 支持 支持
水平扩展能力 支持 支持
系统连接管理 支持 支持
查询任务管理 支持 支持
数据导入工具 支持 支持
数据导出工具 支持 支持
Web 管理工具 支持 支持
多介质分级存储 支持 支持
Telegraf 数据采集 支持 支持
Grafana 数据可视化 支持 支持
RESTFul 支持 支持
C/C++ 支持 不支持
JDBC/ODBC 支持 不支持
GO 支持 支持
Python 支持 支持
数据库参数配置 支持 支持
配置副本数 支持 支持
数据时效 支持 支持
数据分区 支持 支持
连续查询 支持 支持
数据订阅 支持 不支持
缓存 支持 不支持
微秒级精度 支持 支持
聚合函数支持 支持 支持
数据降采样 支持 支持
数据分页 支持 支持
数据插值 支持 支持
历史数据修改 不支持 支持
历史数据的标签修改 支持 不支持
时间线删除 支持 支持
数据清空 支持 支持
Matlab 接口 支持 无官方支持
R 接口 支持
安装包大小 1.5M 48M

总结

此次测试,从数据库的读、写、查询、压缩比等方面对 TDengine 和 InfluxDB 进行了对比测试。测试用数据集、测试程序源码、执行的 SQL 语句都可以从 https://github.com/taosdata/T… 下载,测试具备可重复性。

从测试结果上看,TDengine 的性能远超 InfluxDB,写入性能约为 5 倍,读取性能约为 35 倍,聚合函数性能约为 140 倍,按标签分组查询性能约为 250 倍,按时间分组查询性能约为 12 倍,压缩比约为 1.8 倍,具体见下表

TDengine InfluxDB
写入吞吐量 1477208 记录数 / 秒 273820 记录数 / 秒
100 万条记录读取时间 0.21 秒 7.5 秒
1 亿条记录取平均值时间 0.06 秒 8.44 秒
1 亿条记录按标签分组取均值时间 0.123 秒 31.52 秒
1 亿条记录按时间分组取均值时间 2.549 秒 31.44 秒
1 亿条记录的磁盘占用空间 459MB 855MB
正文完
 0