关于数据库:大数据丨ClickHouse在京东能源管理平台的实践

ClickHouse是一款面向大数据场景下的OLAP数据库，相比于传统的基于Hadoop生态圈的OLAP大数据分析系统，ClickHouse具备极致的查问性能、轻量级的架构设计及保护简略等劣势。目前社区活跃度高，业界利用实际日趋宽泛。

业务介绍

京东能源管理平台是京东科技IoT产品部面向政企客户推出的一款利用物联网、大数据和AI技术实现用能企事业单位对能源大数据进行采集、监测、剖析和告警的能耗剖析产品，旨在帮忙客户实现节能减排，升高单位产品能耗。

能源指标包含用电量、用水量和用天然气量，维度有工夫维度（年、月、周、日、时）、厂家、车间、生产线类型、生产线、设施。针对这些指标和维度，提供了实时的数据多维分析与诊断服务。

技术选型

对于数据指标的多维度剖析场景，上世纪业界就提出了BI（商业智能）的概念。相较于OLTP（联机事务）零碎，业界把此类面向BI的零碎统称为OLAP(联机剖析)零碎。随同着计机软件技术的倒退、从单机工具的大量数据分析（如Excel），到中等规模数据通过剖析型关系数据库构建（如微软的SSAS）的OLAP，再到今日的大数据时代，海量数据的实时OLAP剖析引擎，技术上的新陈代谢，工具零碎上百花齐放百家争鸣，各有劣势，但大体上能够将它们从架构模式上划分为两大类：

1. MPP架构。MPP架构特点是服务将接管到的查问申请发送到每个计算节点，待计算节点计算实现后，通过一个节点将最终后果汇总在一起失去最终后果。典型实现如Presto、Impala、SparkSQL、Drill等。MPP架构的特点是反对灵便的数据模型，要达到较高性能对内存开销大。

2. 预计算零碎。预计算的核心思想是利用空间换工夫，通过深刻业务了解，将须要查问的数据指标和维度组合进行预处理，将计算好的后果存入数据库并建设对应索引，实现查问减速。典型实现如Kylin、Druid。预计算零碎特点是性能较高，但灵活性较差，个别对数据模型调整会波及到历史数据的重跑，保护艰难。

从上表可知，目前业界还没有一个OLAP引擎可能同时兼顾性能和灵活性的要求，京东能源管理平台在做技术选型的时候，综合思考了模型的灵活性、部署的难易水平、开发成本、可维护性以及是否适宜云端部署等因素，最终决定应用基于MPP架构的ClickHouse作为咱们的OLAP引擎。

ClickHouse的利用

1.零碎架构

京东能源管理平台次要是对各种表计（水表、电表、天然气表等）设施上报的计数进行多维度剖析统计、AI诊断和出具能耗报表等。表计的原始数据通常都是累计值，如电量度数就是一个从电表装置以来，所有耗电量的一个累计。因而，咱们在数据接入前会引入一个差分器对数据进行预处理，使得进入ClickHouse的指标数据变成可间接累加的指标，不便利用SQL对接ClickHouse实现多维的查问服务。架构图如下：

阐明：

物管平台：对设施的治理，治理物模型及设施状态、采集设施数据。
音讯总线：kafka音讯队列，利用JSON格局数据实现物管平台和能平台的数据交互。
差分器：对每次上报的累计值同上一次上报的累计值做差值计算，失去可累加指标。
异样规定链：提供一个异样规定集，用于差分器断定上报数据是否异样，如异样则进行记录，数据不作解决。
OLAP引擎：基于ClickHouse实现的OLAP引擎。
多维分析服务：提供通用的数据多维分析查问服务，可能通过对立的API实现各种维度和指标的组合查问。
政府和企业界面：政企客户的WEB界面。

2.ClickHouse利用

通过下面的架构图能够看出，能源平台采纳ClickHouse作为OLAP引擎提供多维查问服务。上面重点从数据的接入、存储以及通用化接口设计方面谈一谈

ClickHouse的利用：

数据接入

ClickHouse基于kafka引擎表的数据接入能够看做是一个典型的ETL过程，数据的抽取（Extract）是通过建设一张kafka引擎表，产生生产端订阅kafka topic实现；数据的转换（Transform）通过物化视图实现；数据最终加载（Load）进MergeTree表，实现理论数据存储。

创立Kafka示意例：

1CREATE TABLE statistics_kafka ON CLUSTER ‘{cluster}’ (

2 timestamp UInt64,

3 level String,

4 message String

5 ) ENGINE = Kafka SETTINGS kafka_broker_list = ‘kafka.jd.com:9092’,

6 kafka_topic_list = ‘statistics’,

7 kafka_group_name = ‘gpst’,

8 kafka_format = ‘JSONEachRow’,

9 kafka_skip_broken_messages = 1,

10 kafka_num_consumers = 3;

kafka_broker_list: kafka broker地址。
kafka_topic_list：生产的topic。
kafka_group_name：生产groupId。
kafka_format：数据格式JSONEachRow示意音讯体为JSON格局。
kafka_skip_broken_messages：示意疏忽的kafka异样音讯条数，默认为0。
kafka_num_consumers：消费者个数，默认值为1，倡议同kafka分区数对应。

创立物化视图示例：

1 CREATE MATERIALIZED VIEW statistics_view ON CLUSTER ‘{cluster}’ TO statistics_replica AS

2 SELECT timestamp,

3 level,

4 message5FROM statistics_kafka;

创立MergeTree引擎示意例：

1 CREATE TABLE statistics_replica ON CLUSTER ‘{cluster}'{

2 timestamp UInt64,

3 dt String,

4 deviceId String,

5 level String,

6 message String

7} ENGINE = ReplicatedMergeTree(‘/clickhouse/tables/{shard}/statistics_replica’,'{replica}’)

8 PARTITION BY dt

9 ORDER BY (dt,deviceId,level);

存储

i.ClickHouse表类型

本地表：理论数据存储的表，如上示例表statistics_replica。

分布式表：一个逻辑上的表, 能够了解为数据库中的视图, 个别查问都查问分布式表. 分布式表引擎会将咱们的查问申请路由本地表进行查问, 而后进行汇总最终返回给用户。创立分布式示意例：

1CREATE TABLE statistics ON CLUSTER ‘{cluster}’ AS statistics_replica

2ENGINE = Distributed(ck_cluster_1,test,events_local,rand());

ii.Replication和Sharding

Replication是ClickHouse提供的正本机制，对于Replicated MergeTree 系列复制表，能够设置每个表有多份齐全一样的数据寄存在不同的计算节点上，每一份数据都是残缺的，并且称为一个正本。

Shard：将表中的数据依照肯定的规定拆分为多个局部，每个局部的数据均存储在不同的计算节点上，每个计算节点上的数据称为一个分片。

ClickHouse基于Replicated MergeTree引擎与Zookeeper实现了复制表机制，在创立表时，能够决定表是否高可用。上一节的statistics_replica表，其中/clickhouse/tables/{shard}/statistics_replica示意Zookeeper中对应正本表的node。当数据写入ReplicatedMergeTree表时，过程如下：

某一个ClickHouse节点接管到数据写入申请。
通过interserver HTTP port端口同步到其余实例。
更新Zookeeper集群上的node信息。

3.OLAP通用接口设计

ClickHouse提供规范的SQL查问引擎，通过JDBC援用程序能够实现多ClickHouse的基本操作。OLAP的惯例操作如上卷、下钻和切片会波及到多种维度自由组合、多种指标穿插分析的过程，如果服务端采纳Mybatis或JPA等惯例ORM操作，工程师很容易依据不同的查问场景要求设计出对应的接口，亦或是依据大量的分支操作设计出简单的断定性接口，鉴于此，作者从mdx思维取得启发，设计一套对OLAP优化的通用多维服务查问接口。

首先，一个典型的剖析类SQL语句如下：

1 SELECT day_str,

2 factory_name,

3 workshop_name,

4 prodline_name,

5 device_id,

6 SUM(w_total) AS total

7 FROM statistics

8 WHERE day_str BETWEEN ‘2020-10-01’ AND ‘2020-12-31’

9 GROUP BY day_str,factory_name,workshop_name,prodline_name,device_id

10 ORDER BY day_str ASC;

如上语句，咱们翻译成业务语言为『别离查问2020年4季度全厂所有设施的耗电量』，从这里咱们能够分明的晓得这里的维度是指『设施名称』，指标为『耗电量』，基于此，能够进一步归类，维度通常呈现在SQL语句的SELECT、WHERE、GROUP BY和ORDER BY前面，指标则通常呈现在SELECT前面，也就是能够总结如下模式：

1 SELECT {维度},{指标}

2 FROM table_name

3 WHERE {维度}=’xxx’

4 GROUP BY {维度}

5 ORDER BY {维度};

因而，咱们能够设计如下通用接口办法：

1//通用办法

2List<Map<String,Object>> queryStatisticsResult(Query query);

4//Query类

5public class Query {

6 private static final long serialVersionUID = 4904019884726531900L;

7 /**

8 * 维度

9 */

10 private List<String> dimensions;

11 /**

12 * 指标

13 */

14 private List<Measure> measures;

15 /**

16 * 过滤条件

17 */

18 private List<Filter> where;

19}

21//Measure类

22public class Measure implements Serializable

24 private static final long serialVersionUID = -8556179136317748835L;

25 /**

26 * 指标名称

27 */

28 @NonNull

29 private String name;

30 /**

31 * 列名

32 */

33 @NonNull

34 private String field;

35 /**

36 * 聚合类型

37 */

38 @NonNull

39 private AggregationEnum

40}

42//聚合枚举

43public enum AggregationEnum {

44 SUM,AVG,COUNT,MIN,MAX,COUNT_DISTINCT,PERCENTILE;

45}

总结

本文重点介绍了京东综合能源管理平台多维数据分析引擎的架构和设计，从数据接入、存储和多维分析服务设计的角度，论述了ClickHouse的一种典型利用场景。心愿通过本文让读者在应答大数据实时OLAP畛域，提供一种思路和办法。当然，限于篇幅和自己程度无限，没有进一步开展论述更多的可能性计划，随着咱们对于业务的深刻，零碎的迭代降级，合适于未来更优计划势必会步步推出，也请期待。

举荐浏览

如何应用ClickHouse实现时序数据管理和开掘？
撑持2715亿元海量订单揭秘京东大促背地的数据库基石
ClickHouse最佳实战之散布表写入流程剖析

欢送点击【京东科技】，理解开发者社区

更多精彩技术实际与独家干货解析

欢送关注【京东科技开发者】公众号

关于数据库:大数据丨ClickHouse在京东能源管理平台的实践

业务介绍

技术选型

ClickHouse的利用

1.零碎架构

2.ClickHouse利用

3.OLAP通用接口设计

总结

举荐浏览

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:大数据丨ClickHouse在京东能源管理平台的实践

业务介绍

技术选型

ClickHouse的利用

1.零碎架构

2.ClickHouse利用

3.OLAP通用接口设计

总结

举荐浏览

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复