关于tdengine:年轻人不讲武德TDengine边缘侧数据存储方案挑战SQLite

上周，涛思数据与EMQ在线上Meetup上联结公布了工业互联网一体化解决方案，基于TDengine、EMQ X搭建一个集工业数据采集、汇聚、荡涤、存储剖析以及可视化展现等能力于一体的轻量级边缘计算工业互联网平台。目前TDengine曾经全面反对ARM 32和ARM 64处理器，那么为什么，TDengine是边缘侧数据更高效的存储抉择？它比SQLite好在哪里？在Meetup上，涛思数据联结创始人侯江燚分享了这背地的技术原理。

从互联网到挪动互联网再到当初咱们的物联网，计算机、挪动终端、可穿戴设施、汽车、甚至家里的灯以及工厂里各种设施都曾经接入网络。整体来说，各种各样的设施一直地采集实时状态数据，再把这个数据会集到云端的一个计算平台，这是物联网云计算的大略思路。

整个物联网技术链有4层构造：通过传感器采集设施的状态数据 -> 通过通信模组将数据发往云端 -> 在云端进行存储、查问和计算 -> 最初接入剖析及利用零碎。

然而，在云计算模式中，数据必须要传到云上进行集中式的存储、归档及剖析等。边缘侧的节点可能是一个网关，也可能是咱们真正应用的一个终端。如果它没有本身的计算能力，必须把采集的数据发给云端，依靠云端计算资源进行简单的计算，失去一个指导性的论断，再通过网络下发给终端。很容易看出，这个过程中终端的工作十分依赖于网络。如果网络一旦呈现一些中断或故障的话，终端无奈与云端进行交互，其某些工作就会大受影响。因而这种核心侧（云端）主控的思路，对边云之间的通信要求十分高，利用起来往往要应用高老本的高速通信网络。从另一个层面说，随着数据量一直增长，云端的存储老本和计算成本也会一直升高。

解决这个问题的一个很好的思路就是边缘计算，即把一部分的存储和计算的能力下沉到边缘侧（即设施侧），终端设备较独立地进行数据存储、计算、决策和利用。这样边缘侧就变得更智能，对云端依赖更小，数据处理的时效性也更高，且不再受网络影响。

边缘计算带来的劣势简略总结如下。

然而边缘计算目前有什么艰难还没解决呢？咱们晓得，边缘侧往往是一些可能大量铺设的小型智能终端，处于老本思考，其配置的内存、CPU等硬件资源和计算能力都很无限。边缘计算的难点就在于是否在无限的计算资源下，实现最高效的数据存储、剖析和计算。这就让边缘侧的数据库抉择显得尤为重要。边缘侧的终端设备采集的数据有很显著的特色，个别都是带有工夫戳的、结构化的时序数据流。因而边缘计算对数据库能力的要求就反映在以下几个方面：

超高读写性能
低硬件开销
通用接口，适配边缘侧多样计算需要
实时数据的缓存能力、流式计算能力
历史数据长久化存储、高效压缩能力
历史数据回溯能力、按工夫窗口的统计聚合能力
云边协同能力

TDengine——更适宜边缘侧的大数据引擎

时序数据库是具备上述各项能力的，也是边缘侧采集数据存储的最佳抉择。但如OpenTSDB（底层基于HBase革新）、InfluxDB等时序数据库对于边缘侧来说还是太重了，运行起来的硬件资源开销过高。一个极轻量化的开源时序数据库就是TDengine，整个安装包只有2MB多。其外围性能是一个高性能分布式时序数据库；除此之外，还自带了音讯队列、缓存、流式计算、数据订阅等性能，为时序结构化数据存储提供一个All-in-One的解决方案。

目前TDengine社区曾经公布了反对ARM32和ARM64处理器的版本，能够顺畅地运行在树莓派等支流的边缘侧硬件上，同时提供对实时数据的缓存、历史数据回溯、按时间段聚合计算等多种能力。尽管在边缘侧用到分布式集群的概率比拟小，但如果哪几个树莓派、盒子或网关想要搭建一个集群，也是齐全能够的。

TDengine ARM版本反对的接口也有很多种，与失常集群版简直没有区别。同时，还提供了一个 taos shell客户端，让调试人员能够不便地去查看TDengine的运行状态。

TDengine 边云协同思路

边缘侧资源无限，能存储的数据总量也是无限的，因而还是要向云端做数据备份和协同。边云协同思路也有很多，这里讲一下咱们的一些思路。

举个例子不便大家更好的了解。边缘侧厂区有很多网关，咱们能够在每个网关里都装一个TDengine的边缘侧版本，那么TDengine就成为边缘侧的一个存储引擎，能够把网关采集到的数据长久化存储。取决于数据采集频率和压缩状况，边缘侧能够依据现有的存储资源选择性存储肯定工夫长度的原始数据（比方一个月到半年等）。对于整型或者浮点型数据，TDengine能够将其压缩到原来的10%左右，当然这个取决于具体的数据类型，如果数据的值随机变动十分大，这个压缩比的确会受肯定影响，但整体来讲，从理论状况来看，压缩比还是在10%左右。因而，如果咱们在网关里配一个2GB甚至1GB的SD卡的话，大略能够存储10GB的原始数据量。这个量级对边缘侧实时剖析来说曾经足够。

然而如果须要存储更久的历史数据，进一步做大数据挖掘等剖析，则要把数据同步到云端数据中心存储。TDengine边缘侧的版本能够被云端的TDengine客户端间接拜访（网络畅通状况下），因而从边到云的数据同步变得非常简单。云端的应用程序能够通过TDengine的订阅模块实时拉取边缘侧网关中的最新数据，再把收到增量数据实时写入本地TDengine集群做历史归档。这个技术实现上，实质是一个定时查问，因而TDengine容许用户增加一些数据筛选条件，有选择性地同步边缘侧的数据（比方只拉取采集之大于某个阈值的记录，没有就不要），而不必把所有的历史数据都上报给云端。

基于TDengine在边缘侧的存储劣势以及边云协同的整体思路，涛思数据和EMQ也联结做了一个边缘侧的解决方案。简略来说，边缘侧网关中部署EMQ X Neuron、EMQ X Edge和EMQ X Kuiper以及TDengine，将设施采集的流式数据通过Neuron做协定解析转换成MQTT音讯，而后公布Edge（边缘侧MQTT Broker），再通过Kuiper存入在边缘部署的 TDengine 中。这样在边缘端运行的利用即可从 TDengine 中获取和解决数据，做实时显示和报警。EMQ 在边缘端运行的 Edge Manager 提供了一个治理控制台，能够很不便地实现软件配置和治理其余三个组件。点击「这里」，具体理解该计划的配置办法。这种计划相当于把协调的工作交给了EMQ。

但也可能有的用户曾经在云端用了TDengine的集群，当初也有一些工业设施，想间接通过TDengine Cluster客户端间接去拜访边缘侧的TDengine。这种也能够通过TDengine的数据订阅的模块间接实现，即云端的利用调用数据订阅模块创立一系列的订阅工作，间接去实时拉取边缘侧TDengine中的最新增量数据。这种计划相当于把协同的工作又交给了TDengine，当然这里要保障网络是畅通的。

TDengine边缘版本在树莓派上的编译

上面也简略介绍一下在树莓派上编译、装置、运行TDengine的实战步骤。

环境筹备

1. 烧录操作系统

烧制操作系统到SD卡。TDengine反对Ubuntu16.04、CentOS7.0及以上等支流操作系统。

2. 网络设置

配置树莓派上的网络环境，为开发版设置动态IP和hostname等，并连贯到网络。

3. 下载编译TDengine

从www.github.com/taosdata/TDengine 克隆TDengine源码到树莓派，编译并运行。

编译过程

# clone source code$ git clone --recursive --recurse-submodules https://github.com/taosdata/TDengine.git# checkout to the latest version$ cd TDengine/$ git checkout ver-2.0.7.0# compile and install$ mkdir build && cd build$ cmake ../ -DCPUTYPE=aarch64 -DVERNUMBER=2.0.7.0 -DVERCOMPATIBLE=2.0.0.0$ make && make install# start taosd$ systemctl start taosd$ taosdemo

编译装置实现后，就能够看到咱们提供的taosdemo程序，不便大家进行极速体验。大家能够通过taosdemo来测试一下TDengine的数据写入和查问效率。

TDengine与SQLite的简略比拟

边缘侧、嵌入式设施中的数据存储不得不提SQLite。SQLite是一个不须要后盾的超轻量级数据库，堪称即插即用，也是世界上装机量最高的数据库。SQLite甚至在官网上将本人定位与fopen()对标，而不是数据库：Think of SQLite not as a replacement for Oracle but as a replacement for fopen() SQLite is a compact library. 当然，SQLite提供的一系列API都是对标关系型数据库的，它甚至还反对了事务，因而业界经常把它用作嵌入式关系型数据库。

两者绝对比一下，SQLite在Linux上的安装包为1.9MB，TDengine为2.7MB。两者都是把轻量化做到极致。因为TDengine是专门针对时序结构化数据的一种计划，不反对事务和简单的表关系解决，但会提供时序数据的工夫索引、实时流计算、列式存储及更好的压缩比、依照工夫的降采样聚合能力、数据保留时限等。从这个角度来说，TDengine要比SQLite更贴近边缘侧生产环境中对时序数据的解决需要。TDengine边缘侧版本也能够做到云端的产品无缝对接，如果网络不畅，TDengine能够实现数据主动缓存，联网后主动续传，实现边云协同的能力。上面用一张图来简略总结下TDengine和SQLite的区别。

作为新兴的时序数据库代表，TDengine的诸多长处，在边缘侧的存储抉择上着实挑战到了一代宗师SQLite，倒真有点年轻人不讲武德啊。但须要意识到的一点，TDengine和SQLite要解决的问题侧重点不同，两者并非必须取舍，而是能够依据本人的业务需要，灵便搭配应用，由TDengine解决时序数据，由SQLite解决关系数据，更好地实现边缘侧的数据自治。

关注公众号“TDengine”，后盾回复“1117”，获取PPT完整版