关于物联网:开创实时数据处理新未来EMQ-流数据库-HStreamDB-正式开源

随着计算机和网络技术的迅猛发展以及向各行业的一直浸透，现在数据的产生形式和产生起源相比以前都有了极大的丰盛，比方：来自传感器的数据、网站上的用户流动数据、来自挪动终端和智能设施的数据、金融市场的实时交易数据，各种监控程序产生的数据等等。 这些数据大多都是以间断的数据流的模式，从多种内部数据源继续一直地生成，在少数状况下，咱们无法控制这些流数据达到的程序和产生的速率。

始终以来，为了更好地解决以后各行业理论业务中对于实时流数据存储和解决的种种需要，EMQ 始终在探寻一个最佳的流解决零碎与架构。

在《当数据库遇见流计算：流数据库的诞生！》一文中，EMQ 提出了 「流数据库」 这一全新数据库品类。相比以后各种非系统化的流数据解决方案，咱们有理由置信流数据库会是实时数据处理时代的最佳抉择，也将成为将来企业软件系统的外围基础设施。

在明天这篇文章中，咱们将向大家介绍 EMQ 正在研发的流数据库产品 HStreamDB。

HStreamDB 是一款专为流式数据设计的，针对大规模实时数据流的接入、存储、解决、散发等环节进行全生命周期治理的流数据库。 它应用规范 SQL (及其流式拓展）作为次要接口语言，以实时性作为次要特色，旨在简化数据流的运维治理以及实时利用的开发。

HStreamDB 的整体架构如下图所示，单个 HStreamDB 节点次要由 HStream Server (HSQL) 和 HStream Storage (HStore) 两个核心部件组成，一个 HStream 集群由若干个对等的 HStreamDB 节点组成，客户端可连贯至集群中任意一个 HStreamDB 节点，并通过相熟的 SQL 语言来实现各种从简略到简单的流解决和剖析工作。

HStream Server (HSQL) 作为 HStreamDB 的外围计算组件，其自身被设计为无状态的。它次要负责客户端的连贯治理，平安认证，SQL 解析，SQL 优化，以及流计算工作的创立、调度、执行和治理等。

HStream Server (HSQL) 自顶向下可具体分为以下几层构造：

接入层。 次要负责客户端申请的协定解决、连贯治理、以及平安认证和访问控制。
SQL 层。 客户端次要通过 SQL 语句与 HStreamDB 交互，来实现大部分流解决和实时剖析的工作。该层次要负责将用户提交的 SQL 语句编译成逻辑数据流图。与经典的数据库系统一样，这里蕴含两个外围的子组件：SQL 解析器和 SQL 优化器。SQL 解析器负责负责实现词法剖析、语法分析，将 SQL 语句编译到对应的关系代数表达式；SQL 优化器负责依据各种规定和 Context 信息对生成的执行打算进行优化。
Stream 层。 该层蕴含各种常见的流解决算子的实现，以及表白数据流图的数据结构和 DSL，还反对用户自定义函数作为解决算子。次要负责为 SQL 层传递下来的逻辑数据流图抉择对应的算子实现和优化，生成可执行的数据流图。
Runtime 层。 该层负责理论执行数据流图的计算工作并返回后果。次要蕴含任务调度器、状态管理器以及执行优化器等组件。其中调度器负责计算工作在可用计算资源之间的调度，可能是在单个解决的多线程之间调度，也可能是在单机的多处理器之间调度，或者是在分布式集群的多台机器或容器之间调度。状态管理器负责协调流解决算子的状态保护和容错。执行优化器能够通过自动化并行等伎俩减速数据流图的执行。

HStream Storage (HStore) 作为 HStreamDB 的外围存储组件，它是专门为流式数据设计的低延时存储组件，岂但可能分布式长久化存储大规模实时数据，而且可能通过 Auto-Tiering 机制，无缝对接 S3 之类的大容量二级存储，实现历史数据和实时数据的对立存储。

HStream Storage (HStore) 的外围存储模型是十分贴合流式数据的日志模型，数据流自身能够看作是一个有限增长的日志，它反对的典型操作包含追加写和区间读，同时数据流是不可变的，个别不反对更新操作。

HStream Storage (HStore) 可分为以下几个档次：

Streaming Data API 层。 该层提供外围的数据流治理和读写操作，包含数据流的创立、删除，以及向数据流中写入数据和生产数据流中的数据。在 HStore 对创立的数据流的数量没有限度，同时能反对大量数据流的并发写入，在大量数据流并发写入的时候仍然可能保持稳定的低提早，HStore 的存储设计中并没有依照数据流来做存储，因而数据流的创立是十分轻量的操作。针对数据流的特点，HStore 提供了 append 操作反对数据疾速写入，同时在读取流数据方面，提供了基于订阅语义的 read 操作，数据流中新写入的数据会被实时推送给数据消费者。
复制层。 该层次要基于优化的 Flexible Paxos 共识引擎实现了流数据的强统一复制，保证数据的容错和可高可用性。同时通过非确定性的数据分布策略，最大化了集群数据的可用性。而且反对复制组在线重配置，实现了无缝的集群数据平衡和程度扩大。
本地存储层。 该层次要负责数据的本地长久化存储，实现上基于优化的 RocksDB 存储引擎封装了流数据的存取接口，可反对大量数据低提早的写入和读取。
二级存储层。 该层为多种长期存储系统提供了对立的接口封装，比方 HDFS, AWS S3 等，反对将历史数据主动卸载到这些二级存储系统上，同时也能够通过对立的 Streaming Data 接口来拜访。

注：以下性能个性为到 HStreamDB 1.0 版本为止的全副布局，局部性能正在继续开发中，以后版本暂未实现，敬请期待。

HStreamDB 设计了残缺的基于事件工夫的状态化解决计划，不仅反对根本的过滤、转换操作，还反对按 key 做聚合计算，基于多种工夫窗口的计算，以及数据流之间 join 的能力，同时也反对乱序和晚到的音讯的非凡解决，保障计算结果的准确性。用户只须要通过 SQL 语句就能实现上述所有的解决性能，无需学习任何三方 API。同时，HStream 的流解决具备丰盛的扩大能力，用户能够针对本人的业务自行扩大。

HStreamDB 提供物化视图性能，反对在继续更新的数据流上进行简单的查问和剖析操作。HStreamDB 外部的增量计算引擎会依据数据流的变动实时更新物化视图，用户可通过 SQL 语句查问物化视图取得实时的数据洞察。

HStreamDB 反对创立和治理大量的数据流，数据流的创立在 HStreamDB 是十分轻量的操作，同时基于优化的存储设计，在大量数据流并发读写的状况下依然可能保持稳定的读写提早。

HStreamDB 提供低延时的牢靠的数据流存储，保障写入的数据音讯不失落，并且可能反复生产。HStreamDB 会将写入的数据音讯复制到多个存储节点，提供高可用和容错能力，同时反对将冷数据转储到老本更低的存储服务上，比方对象存储、分布式文件存储等，存储的容量可有限扩大，可能实现数据的永恒存储。

HStreamDB 强调弹性的 Schema 反对，数据流能够是无 Schema 的，也能够通过 Json、Avro、Protobuf 等多种格局来制订 Schema，同时也反对 Schema 的演变，主动治理多版本 Schema 之间的兼容性。

HStreamDB 数据的接入和散发由 Connector 实现，它与包含 MQTT Broker、MySQL、ElasticSearch、Redis 等在内的多种数据系统相连接，不便用户和内部数据系统进行集成。

HStreamDB 的安全性将由 TLS 加密传输、基于 OAuth 和 JWT 等的身份认证以及受权机制保障，同时预留平安插件接口，用户可依据须要对默认的平安机制进行扩大。

HStreamDB 设置了基于 Web 的控制台，蕴含大量的零碎仪表盘和可视化图表，可能对集群机器状态，零碎要害指标等进行具体的监控，不便运维人员对集群进行治理。

传统的数据分析通常基于批处理技术，批处理个别是在事后收集好的无限的数据集上运行，因而剖析的后果往往不蕴含最新的数据，有较高的时延。HStreamDB 可能对实时的数据流进行剖析，并随着数据流的变动及时地更新后果，这可能更好的反对诸如网站用户流动实时预测、物联网传感器数据实时剖析等利用。相比批处理，岂但能提供更实时的数据洞察，而且防止了周期性调度批处理工作的易出错和复杂性。

事件驱动利用通常是依据到来的事件实时触发对应的动作或行为，它能够是无状态的或者带状态的，比方：金融交易中的实时欺诈检测，业务流程监控预警物联网规定引擎等。基于 HStreamDB，实现这些简单的事件驱动利用可能仅须要寥寥几条仅仅须要几条 SQL 语句，大大降低了开发和保护这些利用的老本。

企业外部往往须要在多个数据系统之间进行数据同步和迁徙，比方将在线的事务数据库中的数据拷贝到离线的数据仓库进行剖析，这个过程通常是由一整套 ETL 零碎实现的，这类 ETL 零碎的开发和保护老本都比拟高，而且它的数据同步往往不是实时的，扩展性也比拟差。HStreamDB 集成了多种内部零碎的连接器，可能十分不便地搭建实时的数据管道，实现实时构建索引，实时构建缓存等数据同步工作。

现在机器学习零碎在业务零碎中起着越来越重要的作用，包含搜寻、举荐、风控等事件背地都宽泛依赖机器学习零碎。然而随着在线业务及相干利用场景的井喷式倒退，惯例的离线零碎及离线机器学习平台已无奈满足业务倒退要求。HStreamDB 的实时计算引擎可能助力机器学习零碎的实时化，实现在线特征提取，实时举荐等利用。

上面咱们将基于 docker 疾速上手应用 HStreamDB。

docker pull hstreamdb/logdevice
docker pull hstreamdb/hstream

mkdir ./dbdata

docker run -td --rm --name some-hstream-store -v dbdata:/data/store --network host hstreamdb/logdevice ld-dev-cluster --root /data/store --use-tcp

docker run -it --rm --name some-hstream-server -v dbdata:/data/store --network host hstreamdb/hstream hstream-server --port 6570 -l /data/store/logdevice.conf

docker run -it --rm --name some-hstream-cli -v dbdata:/data/store --network host hstreamdb/hstream hstream-client --port 6570

如果一切正常的话，进入 CLI 后你会看到相似上面的信息：

Start HStream-Cli!
Command
  :h                        help command
  :q                        quit cli
  show queries              list all queries
  terminate query <taskid>  terminate query by id
  terminate query all       terminate all queries
  <sql>                     run sql

>

上面咱们将用 CREATE STREAM 语句创立一个新的数据流，

CREATE STREAM demo WITH (FORMAT = "JSON");

在 CLI 中执行上述语句后，你会看到相似上面的信息，示意执行胜利。

Right
    ( CreateTopic
        { taskid = 0
        , tasksql = "CREATE STREAM demo WITH (FORMAT ="JSON");"
        , taskStream = "demo"
        , taskState = Finished
        , createTime = 2021 - 02 - 04 09 : 07 : 25.639197201 UTC
        }
    )

咱们应用 SELECT 语句来对数据流进行实时处理和剖析。在 CLI 中执行以下语句，

SELECT * FROM demo WHERE humidity > 70 EMIT CHANGES;

执行实现后会发现并没有产生任何后果，这是失常的，因为当初数据流中还没有任何数据，接下来咱们将向数据流中写入一些数据并察看后果。另外，请留神这个 SELECT 语句不同于一般数据库的 SELECT 在一次执行结束后返回，相同它会始终执行上来，除非你显式的终止它。

docker exec -it some-hstream-cli hstream-client --port 6570

执行以下 INSERT 语句向数据流中写入数据，

INSERT INTO demo (temperature, humidity) VALUES (22, 80);
INSERT INTO demo (temperature, humidity) VALUES (15, 20);
INSERT INTO demo (temperature, humidity) VALUES (31, 76);
INSERT INTO demo (temperature, humidity) VALUES (5, 45);
INSERT INTO demo (temperature, humidity) VALUES (27, 82);
INSERT INTO demo (temperature, humidity) VALUES (28, 86);

如果所有运行失常的话，你将会在方才的 CLI 窗口看到以下实时的输入：

{"temperature":22,"humidity":80}
{"temperature":31,"humidity":76}
{"temperature":27,"humidity":82}
{"temperature":28,"humidity":86}

作为一家开源根底软件供应商，EMQ 始终深信开源的价值与力量，因而 HStreamDB 从立项之初就齐全采纳开源的形式在 GitHub 上进行开发。

目前 HStreamDB 我的项目正在团队的致力下踊跃向前推动着，同时这也正是各位开源社区的搭档们一起参加进来的最好机会。

诚邀大家与咱们独特建设 HStreamDB 的开源社区： 大家能够通过拜访 HStreamDB 的网站 (https://hstream.io/)，或者 GitHub 我的项目地址 (https://github.com/hstreamdb/… 来理解我的项目相干信息，也欢送退出咱们的 Slack Channel (https://slack-invite.hstream…. 一起参加探讨。咱们还将定期举办 Open Day 流动，与大家分享我的项目停顿，交换技术心得。

在后续的布局中，HStreamDB 将陆续反对和欠缺分布式解决反对、Schema 治理、SQL 优化以及监控和运维等性能。

置信在每一个酷爱开源的搭档的反对下，咱们将以 HStreamDB 为标杆，独特发明和见证流数据库的将来！

EMQ 是一家开源物联网基础设施软件供应商，服务 5G 产业周期的物联网、边缘计算与云计算市场，交付寰球当先的开源 MQTT 音讯服务器和流解决数据库，提供物联网实时数据挪动散发、流解决与剖析一站式解决方案。

EMQ 公司成立于 2017 年，开源我的项目团队散布在世界各地。公司总部位于杭州，在北京、上海、深圳、南京、昆明、重庆设有分支机构；海内研发总部设在斯德哥尔摩，在瑞典、德国、北美、日本设有分支机构或服务团队。

咱们置信并 All-In 商业开源软件，追赶「通过世界级开源软件产品，服务人类将来产业与社会」的公司使命。

在将来，EMQ 将持续着力打造这款集流数据存储、实时流解决以及低提早流数据分析于一体的流数据库产品 HStreamDB。它将与现有的 EMQ X Broker 联合，独特形成⾯向 Streaming 的下⼀代 Cloud-Edge Model，并作为极具竞争⼒的开源根底软件产品栈，重塑将来十年寰球数据库与流解决市场。

版权申明：本文为 EMQ 原创，转载请注明出处。

原文链接：https://www.emqx.cn/blog/hstreamdb-is-now-officially-open-source

关于物联网:开创实时数据处理新未来EMQ-流数据库-HStreamDB-正式开源

引言

HStreamDB 我的项目概述

HStreamDB 性能个性

基于 SQL 的数据流解决

数据流的物化查问

数据流治理

数据流的长久化存储

数据流的 Schema 治理

数据流的接入和散发

平安机制

监控和运维工具

HStreamDB 利用场景

实时数据分析

事件驱动利用

实时数据管道

在线机器学习

HStreamDB 疾速上手

拉取 docker 镜像

在 docker 中启动一个本地的 HStream Server

创立一个目录用于存储数据

启动 HStream Storage

启动 HStreamDB Server

启动 HStreamDB CLI

创立数据流

执行一个继续查问

开启一个新的 CLI 会话

向数据流中插入数据

HStreamDB 开源社区

公司介绍