共计 2647 个字符,预计需要花费 7 分钟才能阅读完成。
摘要:阿里云发布时间序列数据库 TSDB,专家帮你解答时序那些事。
概要介绍
时间序列数据是一种表示物理设备,系统、应用过程或行为随时间变化的数据,广泛应用于物联网,工业物联网,基础运维系统等场景。阿里云 TSDB 时间序列数据库可以解决大规模时序数据的可靠写入,降低数据存储成本,实时灵活的完成业务数据聚合分析。
什么是时序数据
我们来看感受一下平时自己特别熟悉的场景,就会发现时序和每个人都存在非常紧密的关系: 电商系统获取每笔订单交易金额和支付金额数据以及商品库存和物流数据;智能电表,会实时记录每个小时的用电量数据,比给出账单数据;高山上的风车的获取实时转速,风速数据,发电量数据。应用服务调用量有没有异常,服务器的负载和资源使用率如何?
这些应用程序均依赖一种衡量事物随时间的变化的数据形式,每一个数据源定期发送新的读数,创建一系列随时间推移收集到的测量结果,这就是时序数据,时序数据数据集主要有以下三个特点:
新入库数据几乎总是作为新条目被记录
数据通常按照产生时间顺序入库
所有的数据都自带时间戳,
因此,我们这样定义时间序列数据:统一表示系统、过程或行为随时间变化的数据
时序数据的价值
相较域非时序数据,核心区别在于时序数据能够反映“变化”本身。当你为某个物联网设备收集新数据时,是覆盖以往的读数,还是在新的一行创建全新的读数?尽管这两种方法都能为你提供系统的当前状态,但只有第二种方法才能跟踪系统的所有状态。所以时序数据的价值在于将系统的每个变化都记录为新的一行,从而可以去衡量变化,分析过去的变化,监测现在的变化,以及预测未来将如何变化。
时序数据库 TSDB 的价值
为什么不能用常规数据库来管理时序数据呢,为什么需要时序数据库呢?事实上答案是你可以使用非时间序列数据库,如同你可以为航天飞行器配备一个普通的汽车发动机,虽然也可以飞起来,但是终究不能实现航天飞行的“梦想”。而更多业务场景选择择时序数据库而非通用数据库技术也是类似的原因归结起来就是两个核心点:规模和可用性。(1)规模:时间序列数据累计速度非常快。例如,一辆联网汽车每小时产生几百 GB 的数据。关系型数据库处理大数据集的效果非常糟糕;NoSQ 数据库可以很好地处理规模数据,但是仍然比不上一个针对时间序列数据微调过的数据库。相比之下,时间序列数据库将时间作为最高优先级来处理,通过提高区间数据实时查询效率来处理这种大规模数据,并带来性能的提升,包括:每秒写入速度,能够支撑的设备指标量,读取数据效率和非常高的存储压缩比。而时间序列数据在技术领域的关注度也日益提升。数据来源:DBengine 2018.9 月报告
(2)可用性:TSDB 通常还包括一些共通的对时间序列数据分析的功能和操作:数据保留策略、连续查询、灵活的时间聚合等。以及很好的扩展性。比如常见的时序降精度和聚合计算,而非时序数据库都不具备这个能力。这就是为什么企业开发人员越来越多地采用时间序列数据库,并将它们用于各种使用场景。
使用阿里云 TSDB 的理由
阿里巴巴业务覆盖面广,诸如 电商交易跟踪,容器指标监控,服务监控,物流配送跟踪,智慧园区的智能设备监控等对时序数据库存在强烈的需求,选择阿里云 TSDB 是因为具备如下的优势:
高性能
TSDB 具有高效的吞吐能力,实际压测对比,TSDB 的读取效率比开源的 OpenTSDB 和 InfluxDB 读取效率要高出一个数量级,实际业务上过用 TSDB 来代替传统的基于 Hbase 的方案,整体机器成本缩减了 50% 以上。
数据存储成本更低
时序数据都是持续写入的,任何一个数据的变化都会记录到时序数据库,所以相比较 OLTP 类的数据库,对于数据库的容量要求是 PB 级别。TSDB 可以做到最高 10:1 的无损压缩效率。大大降低了业务的存储成本。
分析能力强
时序最核心的能力在于数据分析能力,TSDB 提供专业全面的时序数据计算函数,支持降采样、数据插值和空间聚合计算,能满足各种复杂的业务数据查询场景。百万级别数据点聚合分析秒级完成。
功能完备
时序数据库支持丰富的计算能力,如降精度和聚合计算。
降精度
我们看一个降精度例子,园区管理员要把园区所有的照明灯的用电量数据采集起来,进行统一的监控分析,达到节能管控的目的。如果管理员要查看最近 24 小时耗电量的时候,那么可以直接从 TSDB 里获取原始数据查看用电量趋势。而管理员要查看最近 3 年的用电量趋势的时候,管理员可以随机按照“天”,“周”,“月”这些比较粗粒度的时间精度来进行数据计算,所有降精度的数据通过原始小时数据按照时序提供的函数(如平均求和,最大值,最小值等)计算出来,而所有的计算过程由时序数据库“包办”,应用可以直接获取计算结果。
聚合计算
如果管理员要查看某个具体楼层的用电量的时候,那么只需把楼层信息请求到 TSDB,就可以实时获取所需楼层所有灯的用电量。那么如果管理员查看飞利浦品牌的耗电量的时候,只需传递品牌值到 TSDB 即可,按照园区名称也可以统计。所以时序聚合提供了强大非常灵活的能力,完全可以随机定义查询聚合的纬度,实时的获取不同分析纬度的查询结果。而不要用户主动创建任何索引信息。
时空分析
随着车联网以及智能交通和新零售配送相关行业发展,地理位置信息类型的数据存储和分析场景也日渐显现,技术领域称为“时空分析”。车联网的管理人员需要清楚的知道在当天有多少车辆在运营区域内行使,有多少车辆驶出了运营区域,每个车辆的行使轨迹是怎样的,进行全局的车辆管理。政府的管理人员需要清楚当天城区内人员流动的热力分布趋势,以提升城市管理的效率。新零售的配送管理员需要知道配送员是否按照规定在区域内配送,配送员的配送轨迹如何,以便于做管理和配送路径的优化。这些都依赖时空分析能力。
TSDB 即将发布时空分析功能,提供地理位置信息类型数据的存储和分析。满足轨迹追踪,空间位置统计分析的业务需求。
时序洞察
数据可视化是呈现数据分析结果的重要一环,TSDB 提供了基础的可视化功能时序洞察,可以实时的提供给用户交互式的数据分析过程。用户无需开发任何的代码,就可以完成数据查询和分析,同时直观的看到数据的趋势效果。
快速体验阿里云 TSDB
TSDB 新发布的时序洞察,能够通过 demo 数据的导入,只需三个步骤,就可以快速体验交互式的时序数据分析能力:
第一步,创建 TSDB 实例
第二步,进行 demo 数据导入
第三步,创建时序洞察,进行数据分析
了解更多
时序洞察,万物互联 >>
立即报名直播 >>
本文作者:lyrewu 阅读原文
本文为云栖社区原创内容,未经允许不得转载。