Clickhouse

关于clickhouse:ClickHouse07ClickHouse数据库引擎解析

这里会介绍ClickHouse几种数据库引擎，曾经对应的特点和利用的场景。数据库引擎容许您解决数据表。默认状况下，ClickHouse应用Atomic数据库引擎。它提供了可配置的table engines和SQL dialect。目前的数据库引擎： MySQLMaterializeMySQLLazyAtomicPostgreSQLMaterializedPostgreSQLReplicatedSQLiteAtomic反对非阻塞的DROP TABLE和RENAME TABLE查问和原子的EXCHANGE TABLES t1 AND t2查问。默认状况下应用Atomic数据库引擎。建表语句 CREATE DATABASE test[ ENGINE = Atomic];个性Table UUID数据库Atomic中的所有表都有惟一的UUID，并将数据存储在目录/clickhouse_path/store/xxx/xxxyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy/，其中xxxyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy是该表的UUID。通常，UUID是主动生成的，但用户也能够在创立表时以雷同的形式显式指定UUID(不倡议这样做)。例如: CREATE TABLE name UUID '28f1c61c-2970-457a-bffe-454156ddcfef' (n UInt64) ENGINE = ...;RENAME TABLESRENAME查问是在不更改UUID和挪动表数据的状况下执行的。这些查问不会期待应用表的查问实现，而是会立刻执行。 DROP/DETACH TABLES在DROP TABLE上，不删除任何数据，数据库Atomic只是通过将元数据挪动到/clickhouse_path/metadata_dropped/将表标记为已删除，并告诉后盾线程。最终表数据删除前的提早由database_atomic_delay_before_drop_table_sec设置指定。能够应用SYNC修饰符指定同步模式。应用database_atomic_wait_for_drop_and_detach_synchronously设置执行此操作。 EXCHANGE TABLESEXCHANGE以原子形式替换表。 -- 非原子操作RENAME TABLE new_table TO tmp, old_table TO new_table, tmp TO old_table;--原子操作EXCHANGE TABLES new_table AND old_table;ReplicatedMergeTree in Atomic Database对于ReplicatedMergeTree表，倡议不要在ZooKeeper和正本名称中指定engine-path的参数。在这种状况下，将应用配置的参数default_replica_path和default_replica_name。如果要显式指定引擎的参数，倡议应用{uuid}宏。这是十分有用的，以便为ZooKeeper中的每个表主动生成惟一的门路。 MySQLMySQL引擎用于将近程的MySQL服务器中的表映射到ClickHouse中，并容许您对表进行INSERT和SELECT查问，以不便您在ClickHouse与MySQL之间进行数据交换。 MySQL数据库引擎会将对其的查问转换为MySQL语法并发送到MySQL服务器中，因而您能够执行诸如SHOW TABLES或SHOW CREATE TABLE之类的操作。但无奈对其执行操作：RENAME、CREATE TABLE和ALTER。创立数据库CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster]ENGINE = MySQL('host:port', ['database' | database], 'user', 'password')引擎参数 ...

关于clickhouse:ClickHouse-使用-tokenbfv1-索引加速日志查询

依据监控日志的特点，咱们对 message 字段增加了 tokenbf_v1 索引。 tokenbf_v1 索引的工作原理如下：对于每个列，ClickHouse 会生成一个 tokenbf_v1 过滤器。当插入新数据行时，ClickHouse 会将所有列的值分成独自的标记，并将这些标记增加到相应的 tokenbf_v1 过滤器中。在执行查问时，如果查问蕴含 WHERE 子句并应用了反对 tokenbf_v1 索引的列，则 ClickHouse 将从 tokenbf_v1 过滤器中获取所有相干的标记，并查看这些标记是否存在于该列的值中。如果标记存在于 tokenbf_v1 过滤器中但不存在于列的值中，则该行数据不合乎查问条件，因而能够疾速被过滤掉。因为 tokenbf_v1 索引应用了布隆过滤器算法，因而其大小绝对较小，能够无效地缩小文件 I/O 和内存开销。同时，它还反对多列索引和复合索引，使得在简单查问中也可能实现高效率的数据拜访。在Bloom filter设置之前须要一个额定的参数，即要索引的ngram的大小。一个ngram是长度为n的任何字符串，比方如果n是4，A short string会被宰割为'A sh', ' sho', 'shor', 'hort', 'ort ', 'rt s', 't st', ' str', 'stri', 'trin', 'ring'。这个索引对于文本搜寻也很有用，特地是没有单词间断的语言，比方中文。布隆过滤器参数与成果的查问：https://hur.st/bloomfilter/ 依据评估不过过滤器的大小咱们设置为 30720 ，hash次数 3；加了 tokenbf_v1 索引的表构造： CREATE TABLE monitor.qunhe_log( `timestamp` DateTime64(3, 'Asia/Shanghai'), `hostGroup` String, `ip` String, `podname` String, `level` String, `cls` String, `behavior` String, `message` String, `id` String DEFAULT '', INDEX message_index message TYPE tokenbf_v1(30720, 3, 0) GRANULARITY 1)ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/qunhelog', '{replica}')PARTITION BY toYYYYMMDD(timestamp)ORDER BY (level, hostGroup, podname, ip, timestamp)SETTINGS storage_policy = 'hdd0_hdd1_only', index_granularity = 8192 反对的函数：尽管反对 like 函数，然而像 like '%hunter%' 这样的查问显然是不会走索引的，因为clickhouse 不晓得 hunter 是不是一个词。当应用 like 'hunter' 时等同于 = 办法，就会索引； ...

关于clickhouse:ClickHouse数据表迁移实战之remote方式-京东云技术团队

1 引言ClickHouse是一个用于联机剖析(OLAP)的列式数据库管理系统(DBMS)。咱们外部很多的报表、数据看板都基于它进行开发。明天为大家带来remote形式的ClickHouse数据表迁徙的残缺过程介绍，如有谬误，还请各位大佬斧正。以下sql语句为测试应用，如需应用请依据理论状况批改。 2 背景咱们应用的是京东云提供的分布式数据库 JCHDB，原ClickHouse是两个部门共用的，因波及相干业务、治理及费用划分等问题，需进行ClickHouse集群的拆散。原ClickHouse面蕴含表有：业务A订单表与业务B大屏数据表；拆分后须要将业务B的大屏数据表迁徙到新ClickHouse集群中去。 3 迁徙形式经查阅，迁徙形式有如下几种： 1.通过remote函数进行数据迁徙 2.通过文件导出导入形式进行数据迁徙 3.通过CSV文件导出导入 4.通过Linux pipe管道进行流式导出导入通过与云JCHDB负责运维共事沟通及调研，因数据量目前不大，比拟适宜采纳remote形式进行迁徙，留神remote应用的前提要求即可。如果数量过大请参考其余迁徙形式。 remote形式应用前，请减少max_partitions_per_insert_block参数值，防止语句执行失败，示例报如下谬误：报错：Too many partitions for single INSERT block (more than 100). The limit is controlled by 'max_partitions_per_insert_block' setting起因：clickhouse 要求每次写入的数据不能逾越特地多的 partitions，具体受参数 max_partitions_per_insert_block 管制，调整该参数即可。4 步骤创立新clickhouse集群：请到云管平台申请，请先预估好业务将来数据量，再去填写申请的容量配置；创立数据库：CREATE DATABASE IF NOT EXISTS new_database on cluster default;留神前面的on cluster default;必须带上。创立表：依据理论表字段、表引擎编写sql。参考：https://clickhouse.com/docs/zh/sql-reference/statements/creat... 建设测试表CREATE TABLE IF NOT EXISTS new_database.test_ck_01_local ON CLUSTER default( id String COMMENT '随机主键', dt Date COMMENT '分区字段') ENGINE = ReplicatedReplacingMergeTree('/clickhouse/new_database/tables/{shard}/test_ck_01_local', '{replica}')PARTITION BY toYYYYMMDD(dt) ORDER BY id;CREATE TABLEIF NOT EXISTS new_database.test_ck_01 ON CLUSTER default AS new_database.test_ck_01_localENGINE=Distributed(default, new_database, test_ck_01_local, rand());写入测试数据：在原clickhouse里执行写入数据语句：INSERT INTO old_database.test_ck_01 values('1',NOW());INSERT INTO old_database.test_ck_01 values('2',NOW());依据理论状况多些一些数据即可。从新ClickHouse集群客户端里执行查问语句：（如不胜利阐明网络不通）SELECT * from remote('老集群地址',old_database.test_ck_01,'user','password')测试迁徙命令：INSERT INTO new_database.test_ck_01SELECT * from remote('老集群地址',old_database.test_ck_01,'user','password')正式迁徙步骤如下：•提前批改代码里的clickhouse地址，替换新地址； ...

关于clickhouse:ClickHouse技术研究及语法简介-京东云技术团队

本文对Clickhouse架构原理、语法、性能特点做肯定钻研，同时将其与mysql、elasticsearch、tidb做横向比照，并重点剖析与mysql的语法差别，为有mysql迁徙clickhouse场景需要的技术预研及参考。 1 根底概念Clickhouse是一个用于联机剖析（OLAP）的列式数据库管理系统（DBMS)。 1.1 集群架构ClickHouse 采纳典型的分组式的分布式架构，具体集群架构如下图所示： []() Shard：集群内划分为多个分片或分组（Shard 0 … Shard N），通过 Shard 的线性扩大能力，反对海量数据的分布式存储计算。Node：每个 Shard 内蕴含肯定数量的节点（Node，即过程），同一 Shard 内的节点互为正本，保障数据牢靠。ClickHouse 中正本数可按需建设，且逻辑上不同 Shard 内的正本数可不同。ZooKeeper Service：集群所有节点对等，节点间通过 ZooKeeper 服务进行分布式协调。1.2 数据分区Clickhouse是分布式系统，其数据表的创立，与mysql是有差别的，能够类比的是在mysql上实现分库分表的形式。 Clichhouse先在每个 Shard 每个节点上创立本地表（即 Shard 的正本），本地表只在对应节点内可见；而后再创立分布式表[Distributed]，映射到后面创立的本地表。用户在拜访分布式表时，ClickHouse 会主动依据集群架构信息，把申请转发给对应的本地表。 []() 1.3 列式存储绝对于关系型数据库（RDBMS），是按行存储的。以mysql中innodb的主键索引为例，构建主键索引的B+树中，每个叶子节点存储的就是一行记录。而列式数据库，是将一个表，按column的保护进行存储，“单次磁盘I/O拿到的是一列的数据”。 []() 列式存储的长处在查问时，只会读取波及到的列，会大大减少IO次数/开销。并且clickhouse在存储时会按指定顺序排列数据，因而只须要按where条件指定列进行程序扫描、多个列的扫描后果合并，即可找到满足条件的数据。但因为insert数据时，是按行写入的，因而存储的过程会麻烦一些。查问时的区别：列存储：仅从存储系统中读取必要的列数据（select + where 波及到的），无用列不读取，速度十分快。行存储：从存储系统读取所有满足条件的行数据，而后在内存中过滤出须要的字段，速度较慢。1.4 数据排序每个数据分区外部，所有列的数据是依照排序键（ORDER BY 列）进行排序的。能够了解为：对于生成这个分区的原始记录行，先按排序键进行排序，而后再按列拆分存储。 1.5 数据分块每个列的数据文件中，理论是分块存储的，不便数据压缩及查问裁剪，每个块中的记录数不超过 index_granularity，默认 8192，当达到index_granularity的值，数据会分文件。 1.6 向量化执行在反对列存的根底上，ClickHouse 实现了一套面向向量化解决的计算引擎，大量的解决操作都是向量化执行的。向量化解决的计算引擎：基于数据存储模型，叠加批量解决模式，利用SIMD指令集，升高函数调用次数，升高硬件开销（比方各级硬件缓存），晋升多核CPU利用率。再加上分布式架构，多机器、多节点、多线程、批量操作数据的指令，最大限度利用硬件资源，提高效率。注：SIMD指令，单指令多数据流，也就是说在同一个指令周期能够同时解决多个数据。(例如：在一个指令周期内就能够实现多个数据单元的比拟). 1.7 编码压缩因为 ClickHouse 采纳列存储，雷同列的数据间断存储，且底层数据在存储时是通过排序的，这样数据的部分规律性十分强，有利于取得更高的数据压缩比。同时，超高的压缩比又能够升高存储读取开销、晋升零碎缓存能力，从而进步查问性能。 ...

关于clickhouse:浅谈-ByteHouse-Projection-优化实践

预聚合是 OLAP 零碎中罕用的一种优化伎俩，在通过在加载数据时就进行局部聚合计算，生成聚合后的两头表或视图，从而在查问时间接应用这些事后计算好的聚合后果，进步查问性能，实现这种预聚合办法大多都应用物化视图来实现。 Clickhouse 社区实现的 Projection 性能相似于物化视图，原始的概念来源于 Vertica，在原始表数据加载时，依据聚合 SQL 定义的表达式，计算写入数据的聚合数据与原始数据同步写入存储。在数据查问的过程中，如果查问 SQL 通过匹配剖析能够通过聚合数据计算失去，间接查问聚合数据缩小计算开销，大幅晋升查问性能。 Clickhouse Projection 是针对物化视图现有问题，在查问匹配，数据一致性上扩大了应用场景：反对 normal projection，依照不同列进行数据重排，对于不同条件疾速过滤数据反对 aggregate projection, 应用聚合查问在源表上间接定义出预聚合模型查问剖析能依据查问代价，主动抉择最优 Projection 进行查问优化，无需改写查问projeciton 数据存储于原始 part 目录下，在任一时刻针对任一数据变换操作均提供一致性保障保护简略，不需另外定义新表，在原始表增加 projection 属性ByteHouse 是火山引擎基于 ClickHouse 研发的一款剖析型数据库产品，是同时反对实时和离线导入的自助数据分析平台，可能对 PB 级海量数据进行高效剖析。具备实在时剖析、存储-计算拆散、多级资源隔离、云上全托管服务四大特点，为了更好的兼容社区的 projection 性能，扩大 projection 应用场景，ByteHouse 对 Projection 进行了匹配场景和架构上进行了优化。在 ByteHouse 商业客户性能测试 projection 的性能测试，在 1.2 亿条的理论生产数据集中进行测试，查问并发能力晋升 10～20 倍，上面从 projeciton 在优化器查问改写和基于 ByteHouse 框架改良两个方面谈一谈目前的优化工作。 Projection 应用为了进步 ByteHouse 对社区有很好的兼容性，ByteHouse 保留了原有语法的反对，projection 操作分为创立，删除，物化，删除数据几个操作。为了便于了解前面的优化应用行为剖析零碎例子作为剖析的对象。语法-- 新增projection定义ALTER TABLE [db].table ADD PROJECTION name ( SELECT <COLUMN LIST EXPR> [GROUP BY] [ORDER BY] )-- 删除projection定义并且删除projection数据 ALTER TABLE [db].table DROP PROJECTION name -- 物化原表的某个partition数据ALTER TABLE [db.]table MATERIALIZE PROJECTION name IN PARTITION partition_name-- 删除projection数据但不删除projection定义ALTER TABLE [db.]table CLEAR PROJECTION name IN PARTITION partition_name 实例CREATE DATABASE IF NOT EXISTS tea_data;创立原始数据表CREATE TABLE tea_data.events( app_id UInt32, user_id UInt64, event_type UInt64, cost UInt64, action_duration UInt64, display_time UInt64, event_date Date) ENGINE = CnchMergeTree PARTITION BY toDate(event_date)ORDER BY (app_id, user_id, event_type);创立projection前写入2023-05-28分区测试数据INSERT INTO tea_data.eventsSELECT number / 100, number % 10, number % 3357, number % 166, number % 5, number % 40, '2023-05-28 05:11:55'FROM system.numbers LIMIT 100000;创立聚合projectionALTER TABLE tea_data.events ADD PROJECTION agg_sum_proj_1(SELECT app_id, user_id, event_date, sum(action_duration) GROUP BY app_id, user_id, event_date);创立projection后写入2023-05-29分区测试数据INSERT INTO tea_data.eventsSELECT number / 100, number % 10, number % 3357, number % 166, number % 5, number % 40, '2023-05-29 05:11:55'FROM system.numbers LIMIT 100000;Note：CnchMergeTree是Bytehouse特有的引擎Query Optimizer 扩大 Projection 改写Bytehouse 优化器ByteHouse 优化器为业界目前惟一的 ClickHouse 优化器计划。ByteHouse 优化器的能力简略总结如下： ...

关于clickhouse:clickhouse的BACKUPRESTORE命令介绍

clickhouse的数据备份和复原性能在大数据运维中是十分罕用的性能，目前也有很多比拟优良的开源计划可供选择，比方clickhouse-backup，以及clickhouse自带的clickhouse-copier。本文介绍应用clickhouse自带的BACKUP和RESTORE命令进行备份和复原。我认为，一个比拟好的备份复原工具，至多须要满足以下几个性能：能够批量抉择表能够增量备份能够比拟不便地对数据进行复原反对集群操作能够抉择多个备份目的地，如Local、S3、HDFS等为了不便复原，元数据也须要一起备份根本语法BACKUP|RESTORE TABLE [db.]table_name [AS [db.]table_name_in_backup] [PARTITION[S] partition_expr [,...]] | DICTIONARY [db.]dictionary_name [AS [db.]name_in_backup] | DATABASE database_name [AS database_name_in_backup] [EXCEPT TABLES ...] | TEMPORARY TABLE table_name [AS table_name_in_backup] | VIEW view_name [AS view_name_in_backup] ALL TEMPORARY TABLES [EXCEPT ...] | ALL DATABASES [EXCEPT ...] } [,...] [ON CLUSTER 'cluster_name'] TO|FROM File('<path>/<filename>') | Disk('<disk_name>', '<path>/') | S3('<S3 endpoint>/<path>', '<Access key ID>', '<Secret access key>') [SETTINGS base_backup = File('<path>/<filename>') | Disk(...) | S3('<S3 endpoint>/<path>', '<Access key ID>', '<Secret access key>')]从该语法中，咱们大抵能读到以下信息： ...

关于clickhouse:万字长文详述ClickHouse在京喜达实时数据的探索与实践-京东云技术团队

1 前言京喜达技术部在社区团购场景下采纳JDQ+Flink+Elasticsearch架构来打造实时数据报表。随着业务的倒退 Elasticsearch开始暴露出一些弊病，不适宜大批量的数据查问，高频次深度分页导出导致ES宕机、不能准确去重统计，多个字段聚合计算时性能降落显著。所以引入ClickHouse来解决这些弊病。数据写入链路是业务数据(binlog)通过解决转换成固定格局的MQ音讯，Flink订阅不同Topic来接管不同生产零碎的表数据，进行关联、计算、过滤、补充根底数据等加工关联汇总成宽表，最初将加工后的DataStream数据流双写入ES和ClickHouse。查问服务通过JSF和物流网关对外裸露提供给内部进行展现，因为ClickHouse将所有计算能力都用在一次查问上，所以不善于高并发查问。咱们通过对局部实时聚合指标接口减少缓存，或者定时工作查问ClickHosue计算指标存储到ES，局部指标不再实时查ClickHouse而是查ES中计算好的指标来抗住并发，并且这种形式可能极大进步开发效率，易保护，可能对立指标口径。在引入ClickHouse过程中经验各种艰难，消耗大量精力去摸索并一一解决，在这里记录一下心愿可能给没有接触过ClickHouse的同学提供一些方向上的指引防止多走弯路，如果文中有谬误也心愿多蕴含给出指导，欢送大家一起探讨ClickHouse相干的话题。本文偏长但全是干货，请预留40\~60分钟进行浏览。 []()2 遇到的问题前文说到遇到了很多艰难，上面这些遇到的问题是本文讲述的重点内容。咱们该应用什么表引擎Flink如何写入到ClickHouse查问ClickHouse为什么要比查问ES慢1\~2分钟写入分布式表还是本地表为什么只有某个分片CPU使用率高如何定位是哪些SQL在耗费CPU，这么多慢SQL，我怎么晓得是哪个SQL引起的找到了慢SQL，如何进行优化如何抗住高并发、保障ClickHouse可用性[]()3 表引擎抉择与查问计划在抉择表引擎以及查问计划之前，先把需要捋分明。前言中说到咱们是在Flink中结构宽表，在业务上会波及到数据的更新的操作，会呈现同一个业务单号屡次写入数据库。ES的upsert反对这种须要笼罩之前数据的操作，ClickHouse中没有upsert，所以须要摸索出可能反对upsert的计划。带着这个需要来看一下ClickHouse的表引擎以及查问计划。 ClickHouse有很多表引擎，表引擎决定了数据以什么形式存储，以什么形式加载，以及数据表领有什么样的个性。目前ClickHouse表引擎一共分为四个系列，别离是Log、MergeTree、Integration、Special。 Log系列：实用于大量数据(小于一百万行)的场景，不反对索引，所以对于范畴查问效率不高。Integration系列：次要用于导入内部数据到ClickHouse，或者在ClickHouse中间接操作内部数据，反对Kafka、HDFS、JDBC、Mysql等。Special系列：比方Memory将数据存储在内存，重启后会失落数据，查问性能极好，File间接将本地文件作为数据存储等大多是为了特定场景而定制的。MergeTree系列：MergeTree家族本身领有多种引擎的变种，其中MergeTree作为家族中最根底的引擎提供主键索引、数据分区、数据正本和数据采样等能力并且反对极大量的数据写入，家族中其余引擎在MergeTree引擎的根底上各有千秋。Log、Special、Integration次要用于非凡用处，场景绝对无限。其中最能体现ClickHouse性能特点的是MergeTree及其家族表引擎，也是官网主推的存储引擎，简直反对所有ClickHouse外围性能，在生产环境的大部分场景中都会应用此系列的表引擎。咱们的业务也不例外须要应用主键索引，日数据增量在2500多万的增量，所以MergeTree系列是咱们须要摸索的指标。 MergeTree系列的表引擎是为插入大量数据而生，数据是以数据片段的模式一个接一个的疾速写入，ClickHouse为了防止数据片段过多会在后盾依照肯定的规定进行合并造成新的段，相比在插入时一直的批改曾经存储在磁盘的数据，这种插入后合并再合并的策略效率要高很多。这种数据片段重复合并的特点，也正是MergeTree系列(合并树家族)名称的由来。为了防止造成过多的数据片段，须要进行批量写入。MergeTree系列蕴含MergeTree、ReplacingMergeTree、CollapsingMergeTree、VersionedCollapsingMergeTree、SummingMergeTree、AggregatingMergeTree引擎，上面就介绍下这几种引擎。 []()3.1 MergeTree：合并树MergeTree反对所有ClickHouse SQL语法。大部分性能点和咱们相熟的MySQL是相似的，然而有些性能差别比拟大，比方主键，MergeTree系列的主键并不用于去重，MySQL中一个表中不能存在两条雷同主键的数据，然而ClickHouse中是能够的。上面建表语句中，定义了订单号，商品数量，创立工夫，更新工夫。依照创立工夫进行数据分区，orderNo作为主键(primary key)，orderNo也作为排序键(order by)，默认状况下主键和排序键雷同，大部分状况不须要再专门指定primary key，这个例子中指定只是为了阐明下主键和排序键的关系。当然排序键能够与的主键字段不同，然而主键必须为排序键的子集，例如主键(a,b), 排序键必须为(a,b, , )，并且组成主键的字段必须在排序键字段中的最左侧。 CREATE TABLE test_MergeTree ( orderNo String, number Int16, createTime DateTime, updateTime DateTime) ENGINE = MergeTree()PARTITION BY createTimeORDER BY (orderNo)PRIMARY KEY (orderNo);insert into test_MergeTree values('1', '20', '2021-01-01 00:00:00', '2021-01-01 00:00:00');insert into test_MergeTree values('1', '30', '2021-01-01 00:00:00', '2021-01-01 01:00:00');留神这里写入的两条数据主键orderNo都是1的两条数据，这个场景是咱们先创立订单，再更新了订单的商品数量为30和更新工夫，此时业务理论订单量为1，商品件量是30。插入主键雷同的数据不会产生抵触，并且查问数据两条雷同主键的数据都存在。下图是查问后果，因为每次插入都会造成一个part，第一次insert生成了1609430400\_1\_1\_0 数据分区文件，第二次insert生成了1609430400\_2\_2\_0 数据分区文件，后盾还没触发合并，所以在clickhouse-client上的展现后果是离开两个表格的(图形化查问工具DBeaver、DataGrip不能看出是两个表格，能够通过docker搭建ClickHouse环境通过client形式执行语句，文末有搭建CK环境文档)。预期后果应该是number从20更新成30，updateTime也会更新成相应的值，同一个业务主键只存在一行数据，可是最终是保留了两条。Clickhouse中的这种解决逻辑会导致咱们查问进去的数据是不正确的。比方去重统计订单数量，count(orderNo)，统计下单件数sum(number)。上面尝试将两行数据进行合并。进行强制的分段合并后，还是有两条数据，并不是咱们预期的保留最初一条商品数量为30的数据。然而两行数据合并到了一个表格中，其中的起因是1609430400\_1\_1\_0，1609430400\_2\_2\_0 的partitionID雷同合并成了1609430400\_1\_2\_1这一个文件。合并实现后其中1609430400\_1\_1\_0，1609430400\_2\_2\_0会在肯定工夫(默认8min)后被后盾删除。下图是分区文件的命名规定，partitionID：1609430400 = 2021-01-01 00:00:00，MinBolckNum、MaxBolckNum：是最小数据块最大数据块，是一个整形自增的编号。Level：0能够了解为分区合并过的次数，默认值是0，每次合并过后生成的新的分区后会加1。 ...

关于clickhouse:助力企业数据飞轮转起来火山引擎云原生数仓-ByteHouse-全面大促中

用数据驱动业务晋升，早已成为各类企业突破增长瓶颈，推动转型降级的统一共识。在大环境继续推动数字化转型的政策搀扶下，企业依然须要一个可借鉴的成熟教训模式，来彻底了解和实际数据驱动到底应该“怎么动”、“从哪里开始动”。而字节跳动内部长达 10 年所积淀出的数据驱动教训模式——数据飞轮，无疑为这些问题提供了一个适宜大部分企业，且能够一直复刻的门路。去年，字节跳动正式将本身数据驱动能力，通过火山引擎数智平台 VeDI 全面向外凋谢，为企业提供了丰盛的数据能力工具；而在往年四月举办的秋季 FORCE 原动力大会上，火山引擎正式对外公布了数据飞轮模式，进一步解析了数据驱动的增长实质——在数据驱动业务晋升的同时，业务晋升也在倒逼数据提效，造成良性循环。图：数据飞轮模式图及火山引擎数智平台 VeDI 产品矩阵面对多方起源且庞杂的海量数据，领有稳固、高速的实时数据处理能力，是企业跑通数据飞轮模式下“数据多样交融”环节的必要步骤之一。云原生数据仓库 ByteHouse 是火山引擎旗下基于开源 ClickHouse 的企业级剖析型数据库，在字节跳动外部积淀迭代多年后，凭借新一代的云原生架构，高效不便的运维模式，以及高性能更灵便的实时查问能力，于 2021 年正式通过火山引擎提供对外服务。近日，为了更好的帮忙企业落地数据飞轮模式，抓稳数智化发展时机，ByteHouse 特地推出了包年折扣、版本专属、套餐购买折上折三大优惠活动。首先，企业通过本次大促购买 ByteHouse 服务（不分版本），可享包年优惠活动，包年 1 年可享 8.3 折，包年 2 年可享 7 折，包年 3 年可享 5 折。其次，在包年优惠活动的根底上，企业版及云数仓版的用户还能够进一步享受不同的版本专属优惠。企业版用户可叠加享受“你买我送”优惠活动。大量额定资源收费赠送，买二送一，买三送二，买五送三。（赠送资源与包年应用期限统一）云数仓版用户可叠加享受“收费升舱”优惠活动。官网将收费为企业降级型号，同时赠送翻倍计算资源，降级详情如下图。最初，在享受包年优惠的根底上，ByteHouse 与其余产品搭配套餐购买还可享折上折优惠。包年购买 Kafka 和 ByteHouse 企业版，Kafka 再享专属 6 折优惠。折扣详情如图：折扣计算示例：某客户购买了 kafka.n5.x2.medium，外加 1000GiB 的存储空间。原有的包 1 年折扣优惠是：（9093+1000）120.83（包 1 年折扣）=100526.28 元。应用折上折优惠后是：（9093+1000）120.83（包 1 年折扣）*0.6（折上折优惠）=60315.7 元搭配购买 ByteHouse 与火山引擎营销套件（蕴含 DataFinder 增长剖析、DataTester A/B 测试、CDP 客户数据平台、DataWind 智能数据洞察），还能够享受专属折扣优惠。截至目前，中国地震台网核心、海王团体等都已与火山引擎 ByteHouse 达成单干，率先通过海量数据实时剖析的极速体验，辅助决策落地，减速业务洞察，实现本身数字化降级的进一步减速。除此之外，火山引擎还面向汽车、金融、大生产等行业推出了专属的“行业数据飞轮”，让不同行业借助数据飞轮模式实现更疾速的增长。

关于clickhouse:Clickhouse添加bitmap分页函数水了个PR

起因在做标签引擎的时候，咱们在采纳了bitmap存储对象id，根底的构造如下标签类型标签值对象id bitmap性别男[1,2,3]性别女[8,9,10]表如下： create table if not exists label_string_local on cluster clickhouse_cluster( label_type String comment '标签id', label_value String comment '标签值', object_bitmap AggregateFunction(groupBitmap, UInt32) comment '标签值') engine = AggregatingMergeTree PARTITION BY label_type ORDER BY (label_type, label_value) SETTINGS index_granularity = 8192;到前面需要要求对对象id分页返回，问题就来了，clickhouse的官网没有bitmap的分页函数，最原始的解决方案就是把bitmap整个返回，在应用层对bitmap进行切割，这样导致接口的性能急剧下降。开始萌发了个大胆的想法，给clickhouse增加bitmap分页函数开干通过浏览Clickhouse的源码，步骤如下：实现分页在Clickhouse中bitmap指向的class是RoaringBitmapWithSmallSet ，bitmap底层应用的是RoaringBitmap，github地址：https://github.com/RoaringBitmap/CRoaring.git ，RoaringBitmapWithSmallSet对rb进行了包装，在这个类下增加分页函数 UInt64 rb_offset_limit(UInt64 offset, UInt64 limit, RoaringBitmapWithSmallSet & r1) const { if (limit == 0 || offset >= size()) return 0; if (isSmall()) { UInt64 count = 0; UInt64 offset_count = 0; auto it = small.begin(); for (;it != small.end() && offset_count < offset; ++it) ++offset_count; for (;it != small.end() && count < limit; ++it, ++count) r1.add(it->getValue()); return count; } else { UInt64 count = 0; UInt64 offset_count = 0; auto it = rb->begin(); for (;it != rb->end() && offset_count < offset; ++it) ++offset_count; for (;it != rb->end() && count < limit; ++it, ++count) r1.add(*it); return count; } }Clickhouse函数定义在FunctionsBitmap.h定义Clickhouse函数 ...

关于clickhouse:Clickhouse-MergeTree系列

1、AggregatingMergeTree继承自 MergeTree，存储上和根底的MergeTree其实没有任何差别，而是在数据Merge的过程中退出了“额定的合并逻辑”,AggregatingMergeTree 会将雷同主键的所有行（在一个数据片段内）替换为单个存储一系列聚合函数状态的行。以文章结尾局部的表构造为例,应用AggregatingMergeTree表引擎的建表语句如下： https://tech.qimao.com/clickhouseshi-xian-shu-ju-de-you-xian-...https://tech.qimao.com/clickhousezhi-wu-hua-shi-tu/ CREATE TABLE IF NOT EXISTS whatever_table ON CLUSTER default( user_id UInt64, city_level SimpleAggregateFunction(anyLast, Nullable(Enum('一线城市' = 0, '二线城市' = 1, '三线城市' = 2, '四线城市' = 3))), gender SimpleAggregateFunction(anyLast, Nullable(Enum('女' = 0, '男' = 1))), interest_sports SimpleAggregateFunction(anyLast, Nullable(Enum('否' = 0, '是' = 1))), reg_date SimpleAggregateFunction(anyLast, Datetime), comment_like_cnt SimpleAggregateFunction(anyLast, Nullable(UInt32)), last30d_share_cnt SimpleAggregateFunction(anyLast, Nullable(UInt32)), user_like_consume_trend_type SimpleAggregateFunction(anyLast, Nullable(String)), province SimpleAggregateFunction(anyLast, Nullable(String)), last_access_version SimpleAggregateFunction(anyLast, Nullable(String)), others SimpleAggregateFunction(anyLast,Array(String)))ENGINE = AggregatingMergeTree() partition by toYYYYMMDD(reg_date) ORDER BY user_id;就以上建标语句开展剖析，AggregatingMergeTree会将除主键（user）外的其余列,配合anyLast函数，替换每行数据为一种预聚合状态。其中anyLast聚合函数申明聚合策略为保留最初一次的更新数据。 ...

关于clickhouse:操作演示使用-NineData-GUI-创建与修改-ClickHouse-表结构

随着ClickHouse的疾速倒退，越来越多的开发者关注并在业务中应用ClickHouse。作为开发人员除了在利用中拜访数据库、进行业务数据的剖析跟进，还有很重要的一个库表构造的设计。但在ClickHouse官网文档举荐的泛滥第三方开发的可视化管理工具中，不论是商业的还是开源的，绝大多数只关注在其数据的查问、剖析、报表出现、性能等畛域，对表构造变更的可视化治理仅DBeaver、DBM有大量反对。明天咱们重点来介绍一下如何通过 NineData 帮忙开发者，通过GUI的形式创立、批改来治理ClickHouse的数据库表构造。 https://www.bilibili.com/vide...

关于clickhouse:ClickHouse-使用-EXPLAIN-分析-SQL-执行计划

EXPLAIN 罕用语句类型如下: 1.EXPLAIN AST: 用于查看形象语法树（Abstract Syntax Tree）。反对查看所有类型的语句，不光是SELECT语句。2.EXPLAIN SYNTAX: 查问通过AST层优化后的 SQL 语句；3.EXPLAIN PLAN: 用于查看执行打算（Execution Plan），等价于间接应用EXPLAIN 4.EXPLAIN PIPELINE: 用于查看 Pipeline 打算，能够指定三个参数；文章参考:https://blog.csdn.net/wtl1992...

关于clickhouse:NineData强大的-ClickHouse-图形客户端工具

在过来的几年 ClickHouse 始终在疾速的增长，也受到大量开发者的认可，但长久以来，并没有特地趁手的工具产品来拜访和治理，所以，在实现 MySQL 反对之后，NineData抉择优先反对 ClickHouse。本文将介绍，如何应用 NineData 帮忙开发者，通过 GUI 的形式拜访和治理 ClickHouse 数据库。 ClickHouse 简介ClickHouse 凭借着其杰出的剖析查问性能，尤其是在日志解决上的劣势，十分无效的解决了关系型数据库在海量数据场景下的剖析查问短板问题。其语法与应用习惯也与当下最风行的数据库 MySQL 相似，迭代速度和对社区的响应也十分快，在过来的几年，ClickHouse 收到大量开发者的认可。通过几年社区快速增长之后，在2021年 ClickHouse Inc 的成立也让该剖析型数据库进入了开源与商业化一起倒退的阶段。从目前的数据来看，将来 ClickHouse 还将是快速增长的剖析型数据库之一。应用 NineData 拜访 ClickHouse整个应用过程也较为简单。首先，须要在 NineData 数据源页面创立 ClickHouse 数据源。须要留神的是： NineData 应用 http/https 协定拜访和治理 ClickHouse，所以这里须要填写对应的 http/https 端口（而不是 Native 的端口）如果应用了 SSL 加密（ ClickHouse Cloud 的强制要求），则须要关上上面 SSL 加密选项（如果没有开启 SSL 加密，则无需关上该选项）"接入地区"能够抉择一个尽可能离服务器近一些的地区，能够适当减少访问速度在填好连贯信息之后，能够点击“连贯测试”按钮，验证是否能够失常拜访 ClickHouse，如果信息都正确的话，则会提醒上图右上角的“连贯胜利”信息。在实现数据源配置之后，就能够通过 SQL 窗口性能拜访该数据源了。应用导航树查看数据库外部的对象下图即为 NineData 所提供的 ClickHouse 导航对象树。较具体的展现了 ClickHouse 数据库外部的对象，除了常见的表对象外，NineData 还提供了视图、字典、ROW POLICY等数据库对象，在服务器层面，则反对了用户、角色、QUOTA、自定义函数等对象的展现。相比于同类的产品，例如，Arctype、DBeaver、DataGrip、阿里云 DMS、ClickHouse 本人提供的 local play 等（注：目前最新的 Navicat Premium 16 版本还不反对ClickHouse），NineData 反对是最残缺，最粗疏的。另外，NineData 导航树还反对表对象的搜寻性能，能够帮忙开发者不便的搜寻到关注的数据表。 ...

关于clickhouse:技术分享-ClickHouse-StarRocks-使用经验分享

作者：许天云本文起源：原创投稿 *爱可生开源社区出品，原创内容未经受权不得随便应用，转载请分割小编并注明起源。一. 纲要本篇分享下集体在实时数仓方向的一些应用教训，次要蕴含了ClickHouse 和 StarRocks 这两款目前比拟风行的实时数仓，文章仅代表集体高见，有问题欢送指出，Thanks♪(･･)ﾉ对于实时数仓，是目前在互联网上比拟火的概念，不同于传统的 T+1 的离线数仓（Hadoop 之类），实时数仓更加谋求于数据的实时剖析能力，也更加合乎现阶段各类剖析场景对于数据及时性的诉求，例如：ClickHouse 、StarRocks 等都是这一计划的典型代表。先简略介绍下本篇探讨的两款实时数仓产品： ClickHouse：由 Yandex(俄罗斯最大的搜索引擎)开源的一个用于实时数据分析的基于列存储的数据库。StarRocks：新一代的国产MPP数据库，由 Apache Doris 数据库演进而来，并且进行了商业化反对。二. 调研过程简述2.1. 调研诉求我的项目上因为 MySQL 中的数据量极速增长后，MySQL 本身无奈承当一些实时的olap查问，所以须要调研一款实时数仓来解决。我这的业务诉求比较简单，大抵有以下几点：实时数仓须要兼容 MySQL 协定与 SQL 语法，开发不须要额定的学习老本，能够疾速上手。日志类数据(只会追加)须要撑持亿级别实时剖析，而业务类数据(不断更新)须要撑持千万级别实时剖析并且对于 JOIN 性能要比拟好，因为存在很多 JOIN 查问。整体架构要比较简单，因为很多我的项目硬件资源绝对缓和，并且同步提早放弃在30秒内。数据同步过程中并不需要荡涤转换，只须要将 MySQL 中的数据镜像复制到 MPP 中即可。根本架构如下图所示： 2.2. ClickHouse 调研带着上述的调研诉求，咱们首先调研的是 ClickHouse ，因为这是一款以单机性能强悍著称的 OLAP 数据库，而且过后在IT圈里也十分风行。通过咱们的调研测试后，发现 ClickHouse 只适宜于日志类流数据的剖析，而日志流数据最大的特点就是数据只会追加而不会变更删除，即所谓的append流。咱们用一台单机的 ClickHouse 就能够撑持上亿的日志聚合剖析，成果比较满意，局部查问场景还能够配合物化视图达到更极速的剖析。针对于另外一种业务类数据的剖析场景，因为数据会一直的更新，即所谓的change流，和日志流数据不太雷同，因而咱们尝试了用ReplacingMergeTree引擎的主动合并去重能力，再加上查问时显示指定final关键字去达到准确查问的成果，然而性能方面不尽如人意，特地是 JOIN 场景。对于 ClickHouse 的集群模式，因为须要援用 zookeeper 实现分布式协调，并且还须要创立分布式表，集体感觉比较复杂，而且测试下来，对于更新场景成果还是不好，其余准确查问的形式也不太便捷，因而临时放弃应用ClickHouse实现业务数据的即时剖析，更举荐ClickHous去解决日志流数据。兼容性方面，ClickHouse 兼容 MySQL 协定，SQL 语法方面和 MySQL 相似，然而局部根本函数名称变了，而且列名大小写敏感，除这2点比拟恶心外，其余根本无问题，后续咱们也次要用 ClickHouse 去解决我的项目上的日志剖析，成果还能够。 ...

关于clickhouse:clickhouse学习1clickhouse安装卸载

1. centos7下卸载删除:yum list installed | grep clickhouseyum remove -y clickhouse-common-staticyum remove -y clickhouse-server-commonrm -rf /var/lib/clickhouserm -rf /etc/clickhouse-*rm -rf /var/log/clickhouse-server2. centos7装置clickhouse2.1 装置:sudo yum install -y yum-utilssudo yum-config-manager --add-repo https://packages.clickhouse.com/rpm/clickhouse.reposudo yum install -y clickhouse-server clickhouse-clientsudo /etc/init.d/clickhouse-server startclickhouse-client # or "clickhouse-client --password" if you set up a password.2.2 查问以后版本:SELECT version()Query id: 8c3867fc-df94-456e-9b2c-863459a6d03b ┌─version()─┐│ 22.12.3.5 │└───────────┘ 1 row in set. Elapsed: 0.002 sec. 3. 创立用户创立一个新用户 niewj/246810 有所有权限: vim /etc/clickhouse-server/users.xml3.1 配置批改access_management88 <access_management>1</access_management>重启/etc/init.d/clickhouse-server restart如果不批改就创立, 会报错如下: ...

关于clickhouse:Clickhouse表引擎探究ReplacingMergeTree

作者：耿宏宇1 表引擎简述1.1 官网形容MergeTree 系列的引擎被设计用于插入极大量的数据到一张表当中。数据能够以数据片段的模式一个接着一个的疾速写入，数据片段在后盾依照肯定的规定进行合并。相比在插入时一直批改（重写）已存储的数据，这种策略会高效很多。 ReplacingMergeTree 引擎和 MergeTree 的不同之处在于它会删除排序键值雷同的反复项。数据的去重只会在数据合并期间进行。合并会在后盾一个不确定的工夫进行，因而你无奈事后作出打算。有一些数据可能仍未被解决。只管你能够调用 OPTIMIZE 语句发动计划外的合并，但请不要依附它，因为 OPTIMIZE 语句会引发对数据的大量读写。 1.2 本地表语法CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster](name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],...) ENGINE = ReplacingMergeTree([ver])[PARTITION BY expr][PRIMARY KEY expr][ORDER BY expr][SAMPLE BY expr][TTL expr [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'], ...][SETTINGS name=value, ...]参数介绍 ver — 版本列。类型为 UInt*, Date 或 DateTime。可选参数。在数据合并的时候，ReplacingMergeTree 从所有具备雷同排序键的行中抉择一行留下： 1.如果 ver 列未指定，保留最初一条。 2.如果 ver 列已指定，保留 ver 值最大的版本。PRIMARY KEY expr 主键。如果要抉择与排序键不同的主键，在这里指定，可选项。默认状况下主键跟排序键（由 ORDER BY 子句指定）雷同。因而，大部分状况下不须要再专门指定一个 PRIMARY KEY 子句。SAMPLE BY EXPR 用于抽样的表达式，可选项PARTITION BY expr 分区键ORDER BY expr 排序键 ...

关于clickhouse:使用-ClickHouse-构建通用日志系统

序言ClickHouse 是一款罕用于大数据分析的 DBMS，因为其压缩存储，高性能，丰盛的函数等个性，近期有很多尝试 ClickHouse 做日志零碎的案例。本文将分享如何用 ClickHouse 做出通用日志零碎。日志零碎简述在聊为什么 ClickHouse 适宜做日志零碎之前，咱们先谈谈日志零碎的特点。大数据量。对开发者来说日志最不便的观测伎俩，而且很多状况下会间接打印 HTTP、RPC 的申请响应日志，这基本上就是把网络流量复制了一份。非固定检索模式。用户有可能应用日志中的任意关键字任意字段来查问。老本要低。日志零碎不宜在 IT 老本中占比过高。即席查问。日志对时效性要求广泛较高。数据量大，检索模式不固定，既要快，还得便宜。所以日志是一道难解的题，它的需要简直违反了计算机的根本准则，不过幸好它还留了一扇窗，就是对并发要求不高。大部分查问是人为即兴的，即便做一些定时查问，所检索的范畴也肯定无限。现有日志计划ElasticSearchES 肯定是最深入人心的日志零碎了，它能够满足大数据量、全文检索的需要，但在老本与查问效率上很难均衡。ES 对老本过于敏感，配置低了查问速度会降落得十分厉害，保障查问速度又会大幅提高老本。 LokiGrafana 推出的日志零碎。理念上比拟合乎日志零碎的需要，但当初还只是个玩具而已。不适宜大规模应用。三方日志服务国内比拟卓越的有阿里云日志服务，国外的 Humio、DataDog 等，都是摈弃了 ES 技术体系，从存储上重做。国内还有观测云，只不过其存储还是 ES，没什么技术冲破。值得一提的是阿里云日志服务，它对接了诸如 OpenTracing、OpenTelemetry 等规范，能够接入监控、链路数据。因为链路数据与日志具备很高的相似性，齐全能够用同一套技术栈搞定。三方服务长处是日志摄入形式、查问性能、数据分析、监控告警、冷热拆散、数据备份等性能完备，不须要用户自行开发保护。毛病是贵，尽管都说比 ES 便宜，但那是在雷同性能下，正常人不会堆这么多机器谋求高性能。最初是要把日志数据交给他人，怎么想都不太释怀。 ClickHouse 适宜做日志吗？从第一性准则来剖析，看看 ClickHouse 与日志场景是否符合。大数据量，ClickHouse 作为大数据产品显然是合乎的。非固定模式检索，其自身就是张表，如果只输出关键字没有列名的话，搜寻所有列对 ClickHouse 来说显然是效率低下的。但此问题也有解，后文会提到。成本低，ClickHouse 的压缩存储可将磁盘需要缩小一个数量级，并能进步检索速度。与之相比，ES 还须要大量空间保护索引。即席查问，即席有两个方面，一个是数据可见工夫，ClickHouse 写入的能力较 ES 更强，且写入实现即可见，而ES 须要 refresh_interval 配置起码 30s 来保障写入性能；另一方面是查问速度，通常单台 ClickHouse 每秒钟可扫描数百万行数据。 ClickHouse 日志计划比照很多公司如京东、唯品会、携程等等都在尝试，也写了很多文章，然而大部分都不是「通用日志零碎」，只是针对一种固定类型的日志，如 APP 日志，拜访日志。所以这类计划不具备普适性，没有效仿施行的必要，在我看来他们只是传播了一个信息，就是 ClickHouse 能够做日志，并且老本的确有升高。只有 Uber 的日志计划真正值得参考，他们将本来基于 ELK 的日志零碎全面替换成了 ClickHouse，并承接了零碎内的所有日志。咱们的日志计划也是从 Uber 登程，应用 ClickHouse 作为存储，同时参考了三方日志服务中的优良性能，从前到后构建了一套通用日志零碎。ClickHouse 就像一块璞玉，像 ELK 日志零碎中的 Lucene，尽管它底子不过，但还须要大量的工作。 ...

关于clickhouse:Clickhouse-查询去重

clickhouse FINAL 关键字应用 FINAL关键字 (针对 ReplacingMergeTree 引擎) ClickHouse会在返回后果之前齐全合并数据，从而执行给定表引擎合并期间产生的所有数据转换。留神： 1、select语句+final的话，会对表的order字段进行排序去重。留神主键要加上分区字段（尽管跨分区不会去重，但select会合并后果）（试验过）。 2、在大多数状况下，防止应用 FINAL. 常见的办法是应用假如后盾过程的不同查问 MergeTree 引擎还没有产生，并通过利用聚合（例如，抛弃反复项）来解决它。 3、join 去重表 final 这样不会去重，join(select * from 去重表 final)这样能力去重。分布式表能够加final，能够实现去重。要确定好分布式表的sharding_key(肯定是主键的第一个)，确保雷同的数据去到同一个节点。解决：换用ReplacingMergeTree引擎建表ReplacingMergeTree建表语法参考：（依据 id + code 分组去重） create table replace_test( id String, code String, create_time DateTime)ENGINE = ReplacingMergeTree()PARTITION BY toYYYYMM(create_time)ORDER BY (id,code)PRIMARY key id; 参考:https://blog.csdn.net/qbm1234... https://blog.csdn.net/qq_3830...

关于clickhouse:全球第一新一代云原生实时数仓-SelectDB-登顶-ClickBench-榜单

近期，在 ClickHouse 发动的剖析型数据库性能测试排行榜 ClickBench 中，新一代云原生数仓 SelectDB 强势登顶，性能体现超过一众国内外产品，多项指标排行前列，并在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下排行寰球第一！在 ClickBench 性能排行榜中，测试数据均取自实在生产环境、涵盖数据类型多样、笼罩了即席查问和统计报表等典型场景，能实在反映各大数据库在生产环境中的性能，因而吸引了 Snowflake、Redshift、Athena、Greenplum、Druid 等国内出名数据库的参加。所评测的指标为特定机型下导入雷同数据集的工夫、所占用的存储空间大小以及执行 SQL 的耗时长短，别离用以掂量数据导入性能、数据压缩比以及查问性能。所有测试后果中体现最优的一条会成为基线，雷同测试项的指标会与基线数据进行比照并得出比值，通过这一比值来体现与行业最优的差距。当有新的测试后果超过原有的基线后，将主动成为新的基线。就查问性能而言，会别离对每条 SQL 执行 Hot Run 和 Cold Run 来统计时长，即反复执行 3 次 SQL 并取其中耗时最短的一次以及启动并清理内存后间接执行，最终对所有 SQL 的执行耗时与基线的比值进行几何平均，即为最终测试后果。因而 ClickBench 更关注的是数据库在所有测试场景下都有着优异的体现，而非某一个或某几个场景，这使得数据库须要全方位的能力晋升。在本次提交的测试后果中，SelectDB 以强悍的查问性能体现强势登顶。在未进行任何调优的状况下，SelectDB 查问性能在 c6a.4xlarge, 500gb gp2 同机型的所有产品中位列第一， Hot Run 和 Cold Run 性能体现别离当先第二位 35% 和 25%。在全副 43 个 SQL 中，有近半数的查问语句 SelectDB 性能体现最优，成为新的性能标杆。与此同时，SelectDB 数据写入效率在同机型所有产品中位列第二，压缩前 70G 数据写入仅耗时 482s，单节点写入速度超过 140MB/s，在实现极致查问性能的同时也保障了高效的写入效率。从查问耗时的角度来看，SelectDB 相较于排行前列的其余产品，总体查问耗时别离升高了 63%、75%、78%、99% 以及 459%，性能大幅当先于同类产品。 ...

关于clickhouse:火山引擎在行为分析场景下的ClickHouse-JOIN优化

更多技术交换、求职机会，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群背景火山引擎增长剖析DataFinder基于ClickHouse来进行行为日志的剖析，ClickHouse的次要版本是基于社区版改良开发的字节外部版本。次要的表构造：事件表：存储用户行为数据，以用户ID分shard存储。 --列出了次要的字段信息CREATE TABLE tob_apps_all( `tea_app_id` UInt32, --利用ID `device_id` String DEFAULT '', --设施ID `time` UInt64,--事件日志承受工夫 `event` String,--事件名称 `user_unique_id` String,--用户ID `event_date` Date,--事件日志日期，由time转换而来 `hash_uid` UInt64 --用户ID hash过后的id，用来join升高内存耗费)│用户表：存储用户的属性数据，以用户ID分shard存储。 --列出了次要的字段信息CREATE TABLE users_unique_all( `tea_app_id` UInt32, --利用ID `user_unique_id` String DEFAULT '', -- 用户ID `device_id` String DEFAULT '', -- 用户最近的设施ID `hash_uid` UInt64,--用户ID hash过后的id，用来join升高内存耗费 `update_time` UInt64,--最近一次更新工夫 `last_active_date` Date --用户最初沉闷日期)设施表：存储设备相干的数据，以设施ID分shard存储。 --列出了次要的字段信息CREATE TABLE devices_all( `tea_app_id` UInt32, --利用ID `device_id` String DEFAULT '', --设施ID `update_time` UInt64, --最近一次更新工夫 `last_active_date` Date --用户最初沉闷日期)业务对象表：存储业务对象相干的数据，每个shard存储全量的数据 --列出了次要的字段信息CREATE TABLE rangers.items_all( `tea_app_id` UInt32, `hash_item_id` Int64, `item_name` String, --业务对象名称。比方商品 `item_id` String, --业务对象ID。比方商品id 1000001 `last_active_date` Date) 业务挑战随着接入利用以及利用的DAU日益减少，ClickHouse表的事件量增长迅速；并且基于行为数据须要剖析的业务指标越来越简单，须要JOIN的表增多；咱们遇到有一些波及到JOIN的简单SQL执行效率低，内存和CPU资源占用高，导致剖析接口响应时延和错误率减少。 ...

关于clickhouse:docker-安装-clickhouse

参考文章: https://www.jianshu.com/p/921... 如果呈现 Err:2 http://security.ubuntu.com/ub... focal-security InRelease Temporary failure resolving 'security.ubuntu.com' 问题间接执行这个命令 echo "nameserver 8.8.8.8" > /etc/resolv.conf

关于clickhouse:字节跳动基于ClickHouse优化实践之高可用

更多技术交换、求职机会，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群置信大家都对赫赫有名的ClickHouse有肯定的理解了，它弱小的数据分析性能让人印象粗浅。但在字节大量生产应用中，发现了ClickHouse仍然存在了肯定的限度。本篇将具体介绍咱们是如何为ClickHouse加强高可用能力的。字节遇到的ClickHouse可用性问题随着字节业务的疾速倒退，产品疾速扩张，承载业务的ClickHouse集群节点数也疾速减少。另一方面，依照天进行的数据分区也疾速减少，一个集群治理的库表特地多，开始呈现元数据不统一的状况。两方面联合，导致集群的可用性极速降落，以至于到了业务难以承受的水平。直观的问题有三类： 1、故障变多典型的例子如硬件故障，简直每天都会呈现。另外，当集群达到肯定的规模，Zookeeper会成为瓶颈，减少故障产生频率。 2、故障复原工夫长因为数据分区变多，导致一旦产生故障，复原工夫常常会须要1个小时以上，这是业务方齐全不能承受的。 3、运维复杂度晋升以往只须要一个人负责运维的集群，因为节点减少和分区变多，运维复杂度和难度成倍的减少，目前运维人数减少了几人也仍然拙荆见肘，仍然难保障集群的稳固运行。可用性问题曾经成为制约业务倒退的重要问题，因而咱们决定将影响高可用的问题一一拆解，并一一解决。晋升高可用能力的计划一、升高Zookeeper压力问题所在：原生ClickHouse 应用 ReplicatedMergeTree 引擎来实现数据同步。原理上，ReplicatedMergeTree 基于 ZooKeeper 实现多正本的选主、数据同步、故障复原等性能。因为 ReplicatedMergeTree 对 ZooKeeper 的应用比拟重，除了每组正本一些表级别的元信息，还存储了逻辑日志、part 信息等潜在数量级较大的信息。Zookeeper并不是一个能做到良好线性扩大的零碎，当ZooKeeper 在绝对较高的负载状况下运行时，往往性能体现并不佳，甚至会呈现正本无奈写入，数据也无奈同步的状况。在字节外部理论应用和运维 ClickHouse 的过程中，ZooKeeper 也是非常容易成为一个瓶颈的组件。革新思路： ReplicatedMergeTree 反对 insert_quorum，insert_quorum 是指如果正本数为3，insert_quorum=2，要胜利写入至多两个正本才会返回写入胜利。新分区在正本之间复制的流程如下：能够看到，重复在 zookeeper 中进行散发日志、数据交换等步骤，这正是引起瓶颈的起因之一。为了升高对 ZooKeeper 的负载，在ByteHouse中从新实现了一套 HaMergeTree 引擎。通过HaMergeTree升高对 ZooKeeper 的申请次数，缩小在 ZooKeeper 上存储的数据量，新的 HaMergeTree 同步引擎： 1）保留ZooKeeper上表级别的元信息；2）简化逻辑日志的调配；3）将 part 信息从 ZooKeeper 日志移除。 HaMergeTree 缩小了操作日志等信息在zookeeper外面的寄存，来缩小zookeeper的负载，zookeeper外面只是寄存log LSN, 具体日志在正本之间通过gossip协定同步回放。在放弃和ReplicatedMergeTree齐全兼容的前提下，新的 HaMergeTree 极大加重了对 ZooKeeper 的负载，实现了 ZooKeeper 集群的压力与数据量不相干。上线后，因Zookeeper导致的异样大量缩小。无论是单集群几百甚至上千节点，还是单节点上万张表，都能保障良好的稳定性。二、晋升故障恢复能力问题所在：尽管所有数据从业者都在做各种致力，想要保障线上生产环境不出故障，然而事实中还是难以避免会遇到各式各样的问题。次要是由上面这几种因素引起的：软件缺陷：软件设计自身的Bug引起的零碎非正常终止，或依赖的组件兼容引发的问题。硬件故障：常见的有磁盘损坏、内容故障、CPU故障等，当集群规模扩充后产生的频率也线性减少。内存溢出导致过程被进行：在OLAP数据库中常常产生。意外因素：如断电、误操作等引发的问题。因为原生ClickHouse心愿达到极致性能的初衷，所以在ClickHouse零碎中元数据常驻于内存中，这导致了ClickHouse server重启工夫十分长。因此当故障产生后，复原的工夫也很长，动辄一到两个小时，相当于业务也要中断一到两个小时。当故障频繁呈现，造成的业务损失是无法估量的。革新思路：为了解决上述问题，在ByteHouse中采纳了元数据长久化的计划，将元数据长久化到RocksDB， Server启动时间接从RocksDB加载元数据，内存中也仅仅寄存必要的Part信息。因而能够缩小元数据对内存的占用，以及减速集群的启动以及故障复原工夫。 ...

关于clickhouse:故障分析-ClickHouse-物化视图插入时间变为19700101-080000问题复盘

作者：大睿大睿，DBA，喜好减肥，瘦了30多斤，负责公司数据库集群的治理和保护。本文起源：原创投稿 *爱可生开源社区出品，原创内容未经受权不得随便应用，转载请分割小编并注明起源。物化视图应用to的形式写入到存储表中，即如下： CREATE MATERIALIZED VIEW[IF NOT EXISTS][db.]table_name[ON CLUSTER] TO[db.]nameASSELECT ...指定了存储的表，所以物化视图的创立也不须要指定 engine ，在查问中，查物化视图和查理论的存储表失去一样的数据，因为都是来自于同一份存储数据。物化视图是计算每次写入原表的数据，通过聚合之后写入到指标表。比方，有依照 1s 一次记录的明细表，同时须要依照分钟级做数据的聚合统计pv（相似的须要），则能够通过创立物化视图的形式将聚合后的数据写到 1min 的表中（这种感觉有点像触发器）范例1s记录的明细表 CREATE TABLE dba_test.t_1s( `ctime` DateTime64(0), `pv` Int64)ENGINE = MergeTreePARTITION BY toDate(ctime)ORDER BY ctimeSETTINGS index_granularity = 81921min 记录的聚合数据 CREATE TABLE dba_test.t_1m( `ctime` DateTime64(0), `pv` Int64)ENGINE = SummingMergeTreePARTITION BY toDate(ctime)ORDER BY ctimeSETTINGS index_granularity = 8192物化视图t_1m_mv，查问条件是从1s的表(t_1s)，依照分钟级(toStartOfMinute)聚合查问后果，从新写入到1min的表(t_1m)中物化视图CREATE MATERIALIZED VIEW dba_test.t_1m_mv TO dba_test.t_1m( `toStartOfMinute(ctime)` DateTime, `pv` Int64) ASSELECT toStartOfMinute(ctime), sum(pv) AS pvFROM dba_test.t_1sGROUP BY ctime写入测试dba-clickhouse-001 :) insert into t_1s values('2022-01-01 00:10:01',1),('2022-01-01 00:10:01',1),('2022-01-01 00:20:01',2),('2022-01-01 00:20:01',2),('2022-01-01 00:30:01',3);INSERT INTO t_1s VALUESQuery id: 0bf16844-0123-4e25-a3d4-f9b5a5c8db37Ok.5 rows in set. Elapsed: 0.003 sec.dba-clickhouse-001 :) select * from t_1s;SELECT *FROM t_1sQuery id: cb442100-37a6-4de7-b6f3-f80f084710dc┌───────────────ctime─┬─pv─┐│ 2022-01-01 00:10:01 │ 1 ││ 2022-01-01 00:10:01 │ 1 ││ 2022-01-01 00:20:01 │ 2 ││ 2022-01-01 00:20:01 │ 2 ││ 2022-01-01 00:30:01 │ 3 │└─────────────────────┴────┘5 rows in set. Elapsed: 0.002 sec.dba-clickhouse-001 :) select * from t_1m;SELECT *FROM t_1mQuery id: f9d2d05d-8ad7-44a4-b66a-ea8c3c758f1f┌───────────────ctime─┬─pv─┐│ 1970-01-01 08:00:00 │ 9 │└─────────────────────┴────┘1 rows in set. Elapsed: 0.002 sec.插入的工夫居然是1970-01-01 08:00:00 开始验证是否是查问语句有误查看物化视图中的查问后果是否合乎预期 dba-clickhouse-001 :) SELECT:-] toStartOfMinute(ctime),:-] sum(pv) AS pv:-] FROM dba_test.t_1s:-] GROUP BY ctime;SELECT toStartOfMinute(ctime), sum(pv) AS pvFROM dba_test.t_1sGROUP BY ctimeQuery id: 1ecaf07e-c766-40b7-bfa2-0f87ee54abad┌─toStartOfMinute(ctime)─┬─pv─┐│ 2022-01-01 00:20:00 │ 4 ││ 2022-01-01 00:30:00 │ 3 ││ 2022-01-01 00:10:00 │ 2 │└────────────────────────┴────┘3 rows in set. Elapsed: 0.002 sec.查问后果合乎预期间接通过insert ...select...形式确认下插入数据是否合乎预期 dba-clickhouse-001 :) insert into t_1m SELECT:-] toStartOfMinute(ctime),:-] sum(pv) AS pv:-] FROM dba_test.t_1s:-] GROUP BY ctime;INSERT INTO t_1m SELECT toStartOfMinute(ctime), sum(pv) AS pvFROM dba_test.t_1sGROUP BY ctimeQuery id: 5db8279a-ffb1-4174-843c-80cee48b448cOk.0 rows in set. Elapsed: 0.002 sec.dba-clickhouse-001 :) select * from t_1m;SELECT *FROM t_1mQuery id: acd79ea7-dc82-49f1-bb71-430a05895f19┌───────────────ctime─┬─pv─┐│ 1970-01-01 08:00:00 │ 9 │└─────────────────────┴────┘┌───────────────ctime─┬─pv─┐│ 2022-01-01 00:10:00 │ 2 ││ 2022-01-01 00:20:00 │ 4 ││ 2022-01-01 00:30:00 │ 3 │└─────────────────────┴────┘4 rows in set. Elapsed: 0.002 sec.直接插入，数据正确，工夫没有被转化。能够确认物化视图的查问局部是没有问题，那只能是在写入的时候呈现了问题，换个思路去想一下，工夫戳的开始工夫是1970-01-01 00:00:00，而这里插入的工夫是1970-01-01 08:00:00多了8小时，也就是说因为时区的起因导致工夫推延了。那会不会是因为插入的数据不标准，或者是“空”被转化了呢。验证 dba-clickhouse-001 :) insert into t_1m values('',100);INSERT INTO t_1m VALUESQuery id: af1785ef-dca1-467b-84c6-27f9da6547f6Ok.1 rows in set. Elapsed: 0.002 sec.dba-clickhouse-001 :) select * from t_1m;SELECT *FROM t_1mQuery id: 34db2057-7274-4859-898e-6132f8df4465┌───────────────ctime─┬─pv─┐│ 1970-01-01 08:00:00 │ 9 │└─────────────────────┴────┘┌───────────────ctime─┬─pv─┐│ 2022-01-01 00:10:00 │ 2 ││ 2022-01-01 00:20:00 │ 4 ││ 2022-01-01 00:30:00 │ 3 │└─────────────────────┴────┘┌───────────────ctime─┬──pv─┐│ 1970-01-01 08:00:00 │ 100 │└─────────────────────┴─────┘5 rows in set. Elapsed: 0.002 sec.果然，当插入的数据为空的时候，工夫被重置了。比照下物化视图和指标的聚合表的构造 dba-clickhouse-001 :) desc t_1m;DESCRIBE TABLE t_1mQuery id: 96c6a5ca-e42a-47e1-8212-cbcfefa6ffa4┌─name──┬─type──────────┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─┐│ ctime │ DateTime64(0) │ │ │ │ │ ││ pv │ Int64 │ │ │ │ │ │└───────┴───────────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────┘2 rows in set. Elapsed: 0.001 sec.dba-clickhouse-001 :) desc t_1m_mv;DESCRIBE TABLE t_1m_mvQuery id: a258f6b5-f195-4386-a9bb-4ec86e7e9bd1┌─name───────────────────┬─type─────┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─┐│ toStartOfMinute(ctime) │ DateTime │ │ │ │ │ ││ pv │ Int64 │ │ │ │ │ │└────────────────────────┴──────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────┘2 rows in set. Elapsed: 0.001 sec.聚合表工夫字段名叫ctime，物化视图的则是toStartOfMinute(ctime) 从新调整物化视图的写法，并清理t_1m表中的数据 dba-clickhouse-001 :) show create table t_1m_mv\Gstatement: CREATE MATERIALIZED VIEW dba_test.t_1m_mv TO dba_test.t_1m( `ctime` DateTime, `pv` Int64) ASSELECT toStartOfTenMinutes(ctime) AS ctime, sum(pv) AS pvFROM dba_test.t_1sGROUP BY ctimedba-clickhouse-001 :) insert into t_1s values('2022-01-01 00:10:01',1),('2022-01-01 00:10:01',1),('2022-01-01 00:20:01',2),('2022-01-01 00:20:01',2),('2022-01-01 00:30:01',3);INSERT INTO t_1s VALUESQuery id: 812d1bbd-55f3-4a8f-b9f7-bbbe93e694afOk.5 rows in set. Elapsed: 0.003 sec.dba-clickhouse-001 :) select * from t_1m;SELECT *FROM t_1mQuery id: 2d1a045a-4e53-4f94-bb6a-fe5e5d58f5c7┌───────────────ctime─┬─pv─┐│ 2022-01-01 00:10:00 │ 2 ││ 2022-01-01 00:20:00 │ 4 ││ 2022-01-01 00:30:00 │ 3 │└─────────────────────┴────┘3 rows in set. Elapsed: 0.002 sec.论断物化视图的字段(t_1m_mv)要与指标表(t_1m)的字段名对齐（表白不是很谨严，大略是下面的意思）

关于clickhouse:Clickhouse查询性能优化

尽管clickhouse在大数据量查问速度会比关系型数据库如mysql或者postrges快很多，但还是有很多中央须要去理解和配置，达到提供最低资源获取最大产出以下内容次要来源于clickhouse官网中文文档索引设计关系型数据库设计主索引采纳B+Tree的数据结构进行疾速定位所在行，搜寻一个条目标均匀工夫复杂度为O(log2n)，对于一个有1000万行的表，这意味着须要23步来定位任何索引条目额定的磁盘和内存开销向表中增加新行和向索引中增加条目时更高的插入老本(有时还须要从新均衡B-Tree)clickhouse索引依照主键列的程序将一组行存储在磁盘，一组数据行（称为颗粒（granule），大小是index_granularity定义配置的，默认8192）构建一个索引条目，即稠密索引稠密主索引容许它疾速(通过对索引项进行二分查找)辨认可能匹配查问的行组，而后潜在的匹配行组(颗粒)以并行的形式被加载到ClickHouse引擎中，以便找到匹配的行Clickhouse的颗粒与查问出于数据处理的目标，表的列值在逻辑上被划分为多个颗粒，颗粒是流进ClickHouse进行数据处理的最小的不可分割数据集，这意味着，ClickHouse不是读取独自的行，而是始终读取(以流形式并并行地)整个行组（颗粒）。下表的建表语句copy from ClickHouse主键索引最佳实际 CREATE TABLE hits_UserID_URL( `UserID` UInt32, `URL` String, `EventTime` DateTime)ENGINE = MergeTreePRIMARY KEY (UserID, URL)ORDER BY (UserID, URL, EventTime)SETTINGS index_granularity = 8192, index_granularity_bytes = 0;如下图所示，每8192行数属于一个颗粒（图片来源于clickhouse官网文档）其中主索引是UserID 查问第一阶段：颗粒抉择 Clickhouse通过稠密主索引来疾速(二分查找算法)抉择可能蕴含匹配查问的行的颗粒。查问第二阶段：数据读取 ClickHouse定位所选的颗粒，以便将它们的所有行流到ClickHouse引擎中，以便找到理论匹配查问的行数据表主键以及排序字段优化基数概念数据库中某个表的某个列中不反复行的总个数对于mysql等关系型数据库，对于索引列，基数越大，查问成果越好，基数越小，查问成果越差，现实的索引列满足：基数/理论行=1，比方user表当中如果username是全表惟一的，那么在username下面利用的索引在命中索引前提下查问成果最好clickhouse表上表中指定的主键是(UserID, URL)，排序键是(UserID, URL, EventTime)，留神，排序键指定之后不能更改排序键的值，排序键也不能是空，主键必须是排序键的前缀字段基数的排列程序是UserID,URL，EventTime，即UserID去重数量不多（低基数），URL去重之后数量较多，EventTime去重之后数量最多(高基数) 所以最佳的主键设计是(UserID, URL)，在Clickhouse的索引文件当中就是先依照雷同UserID排序，具备雷同的UserID状况下再依照URL排序主键或者排序键的最佳设计就是放弃前缀主键低基数，在这样的状况下会有起码的颗粒流入Clickhouse引擎理论利用的限度业务场景中会常常要求依照工夫倒序排列的需要计划一放弃前缀主键低基数的数据库设计，在数据库查问的时候指定ORDER BY EventTime DESC 该计划在理论测试中发现该查问会常常导致全表扫描以至于速度十分慢，在千万级数据表下面查问常常大于5秒计划二排序键就定义为ORDER BY -EventTime，这样就违反了前缀主键低基数的优化设计了，然而查问的时候不必在sql语句当中显式指定工夫倒排了，所以在这种状况下就须要应用到Clickhouse的跳数索引Clickhouse跳数索引类型以下文档copy from clickhouse的章节深刻了解ClickHouse跳数索引 minmax 这种轻量级索引类型不须要参数。它存储每个块的索引表达式的最小值和最大值(如果表达式是一个元组，它别离存储元组元素的每个成员的值)。对于偏向于按值涣散排序的列，这种类型十分现实。在查询处理期间，这种索引类型的开销通常是最小的。这种类型的索引只实用于标量或元组表达式——索引永远不适用于返回数组或map数据类型的表达式。 set 这种轻量级索引类型承受单个参数max_size，即每个块的值集(0容许有限数量的离散值)。这个汇合蕴含块中的所有值(如果值的数量超过max_size则为空)。这种索引类型实用于每组颗粒中基数较低(实质上是“汇集在一起”)但总体基数较高的列。该索引的老本、性能和有效性取决于块中的基数。如果每个块蕴含大量惟一值，那么针对大型索引集计算查问条件将十分低廉，或者因为索引超过max_size而为空，因而索引将不利用。 Bloom Filter Types Bloom filter是一种数据结构，它容许对汇合成员进行高效的是否存在测试，但代价是有轻微的误报。在跳数索引的应用场景，假阳性不是一个大问题，因为惟一的问题只是读取一些不必要的块。潜在的假阳性意味着索引表达式应该为真，否则无效的数据可能会被跳过。因为Bloom filter能够更无效地解决大量离散值的测试，所以它们能够实用于大量条件表达式判断的场景。特地的是Bloom filter索引能够利用于数组，数组中的每个值都被测试，也能够利用于map，通过应用mapKeys或mapValues函数将键或值转换为数组。 ...

关于clickhouse:字节跳动基于ClickHouse优化实践之多表关联查询

更多技术交换、求职机会、试用福利，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群置信大家都对赫赫有名的ClickHouse有肯定的理解了，它弱小的数据分析性能让人印象粗浅。但在字节大量生产应用中，发现了ClickHouse仍然存在了肯定的限度。例如：短少残缺的upsert和delete操作多表关联查问能力弱集群规模较大时可用性降落（对字节尤其如此）没有资源隔离能力因而，咱们决定将ClickHouse能力进行全方位增强，打造一款更弱小的数据分析平台。本篇将具体介绍咱们是如何增强ClickHouse多表关联查问能力。大宽表的局限数据分析的倒退历程，能够看作是一直谋求剖析效率和剖析灵便的过程。剖析效率是十分重要的，然而并不是须要有限晋升的。1秒返回后果和1分钟返回后果的体验是天壤之别，然而0.1秒返回后果和1秒返回后果的差距就没那么大了。因而，在满足了肯定时效的状况下，剖析的灵活性就显得额定重要了。起初，数据分析都采纳了固定报表的模式，格局更新频率低，依赖定制化的开发，查问逻辑是写死的。对于业务和数据需要绝对稳固、不会频繁变动的场景来说固定报表的确就足够了，然而以现在的视角来看，齐全固定的查问逻辑不能充分发挥数据的价值，只有通过灵便的数据分析，能力帮忙业务人员化被动为被动，摸索各数据间的相干关系，疾速找到问题背地的起因，极大地晋升工作效率。前面，基于预计算思维的cube建模计划被提出。通过将数据ETL加工后存储在cube中，保障领导和业务人员可能疾速失去剖析后果根底上，取得了肯定的剖析灵活性。不过因为维度固定，以及数据聚合后根本无奈查问明细数据，仍然无奈满足Adhoc这类即席查问的场景需要。近些年，以ClickHouse为代表的具备弱小单表性能的查问引擎，带来了大宽表剖析的风潮。所谓的大宽表，就是在数据加工的过程中，将多张表通过一些关联字段打平成一张宽表，通过一张表对外提供剖析能力。基于ClickHouse单表性能撑持的大宽表模式，既能晋升剖析时效性又能进步数据查问和剖析操作的灵活性，是目前十分风行的一种模式。然而大宽表仍然有它的局限性，具体有：生成每一张大宽表都须要数据开发人员不小的工作量，而且生成过程也须要肯定的工夫生成宽表会产生大量的数据冗余方才有提到，数据分析的倒退历程能够看作是一直谋求剖析效率和剖析灵便的过程，那么大宽表的下一个阶段呢？如果ClickHouse的多表关联查问能力足够强，是不是连“将数据打平成宽表”这个步骤也能够省略，只须要保护好对外服务的接口，任何业务人员的需要都现场间接关联查问就能够了呢？如何强化多表关联查问能力的？ClickHouse 的执行模式绝对比较简单，其根本查问模式分为 2 个阶段：ByteHouse 进行多表关联的简单查问时，采纳分 Stage 的形式，替换目前 ClickHouse的2阶段执行形式。将一个简单的 Query 依照数据交换状况切分成多个 Stage，Stage 和 Stage 之间通过 exchange 实现数据的替换，单个 Stage 内不存在数据交换。Stage 间的数据交换次要有以下三种模式：依照单（多）个 key 进行 Shuffle由 1 个或者多个节点汇聚到一个节点 (咱们称为 gather)同一份数据复制到多个节点(也称为 broadcast 或者说播送)单个 Stage 执行会持续复用 ClickHouse 的底层的执行形式。依照不同的性能切分不同的模块，设计指标如下：各个模块约定好接口，尽量减少彼此的依赖和耦合。一旦某个模块有变动不会影响别的模块，例如 Stage 生成逻辑的调整不影响调度的逻辑。模块采纳插件的架构，容许模块依据配置灵便反对不同的策略。依据数据的规模和散布，ByteHouse反对了多种关联查问的实现，目前曾经反对的有： Shuffle Join，最通用的 JoinBroadcast Join，针对大表 Join 小表的场景，通过把右表播送到左表的所有 worker 节点来缩小左表的传输Colocate Join，针对左右表依照 Join key 放弃相通散布的场景，缩小左右表数据传输Join 算子通常是 OLAP 引擎中最耗时的算子。如果想优化 Join 算子，能够有两种思路，一方面能够晋升 Join 算子的性能，例如更好的 Hash Table 实现和 Hash 算法，以及更好的并行。另一方面能够尽可能减少参加 Join 计算的数据。 ...

关于clickhouse:字节跳动基于ClickHouse优化实践之Upsert

更多技术交换、求职机会、试用福利，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群置信大家都对赫赫有名的ClickHouse有肯定的理解，它弱小的数据分析性能让人印象粗浅。但在字节大量生产应用中，发现了ClickHouse仍然存在了肯定的限度。例如：短少残缺的upsert和delete操作多表关联查问能力弱集群规模较大时可用性降落（对字节尤其如此）没有资源隔离能力因而，咱们决定将ClickHouse能力进行全方位增强，打造一款更弱小的数据分析平台。本篇将具体介绍咱们是如何为ClickHouse补全更新删除能力的。实时人群圈选场景遇到的难题在电商业务中，人群圈选是十分常见的一个场景。字节原有的离线圈选的计划是以T+1的形式更新数据，而不是实时更新，这很影响业务侧的体验。当初心愿可能基于实时标签，在数据管理平台中构建实时人群圈选的能力。整体数据链路如下：为了保障实时数据和离线数据同时提供服务，在标签接入结束后，在ClickHouse中实现宽表加工工作。然而原生ClickHouse只反对追加写的能力，只有ReplacingMergeTree这种计划。然而选用ReplacingMergeTree引擎的限度比拟多，不能满足业务的需要，次要体现在：性能降落重大，ReplacingMergeTree采纳的是写优先的设计逻辑，这导致读性能损失重大。体现是在进行查问时性能较ClickHouse其余引擎的性能降落重大，波及ReplacingMergeTree的查问响应工夫过慢。ReplacingMergeTree引擎只反对数据的更新，并不反对数据的删除。只能通过额定的定制解决来实现数据革除，但这样会进一步拖慢了查问的性能。ReplacingMergeTree中的去重是 Merge 触发的，在刚导入的数据时是不去重的，过一段时间后才会在分区内去重。解决方案：UniqueMergeTree在这种状况下，字节在ByteHouse（字节基于ClickHouse能力加强的版本）中开发了一种反对实时更新删除的表引擎：UniqueMergeTree。UniqueMergeTree与以往的表引擎有什么差异呢？上面介绍两种反对实时更新的常见技术计划：原生ClickHouse抉择的技术计划原生ClickHouse的更新表引擎ReplacingMergeTree应用Merge on Read的实现逻辑，整个思维比拟相似LSMTree。对于写入，数据先依据key排序，而后生成对应的列存文件。每个Batch写入的文件对应一个版本号，版本号能用来示意数据的写入程序。同一批次的数据不蕴含反复key，但不同批次的数据蕴含反复key，这就须要在读的时候去做合并，对key雷同的数据返回去最新版本的值，所以叫merge on read计划。原生ClickHouse ReplacingMergeTree用的就是这种计划。大家能够看到，它的写门路是非常简单的，是一个很典型的写优化计划。它的问题是读性能比拟差，有几方面的起因。首先，key-based merge通常是单线程的，比拟难并行。其次merge过程须要十分多的内存比拟和内存拷贝。最初这种计划对谓词下推也会有一些限度。大家用过ReplacingMergeTree的话，应该对读性能问题深有体会。这个计划也有一些变种，比如说能够保护一些index来减速merge过程，不必每次merge都去做key的比拟。面向读优化的新计划UniqueMergeTree应用的技术计划Mark-Delete + Insert计划刚好反过来，是一个读优化计划。在这个计划中，更新是通过先删除再插入的形式实现的。Ref “Enhancements to SQLServer Column Stores”上面以SQLServer的Column Stores为例介绍下这个计划。图中，每个RowGroup对应一个不可变的列存文件，并用Bitmap来记录每个RowGroup中被标记删除的行号，即DeleteBitmap。解决更新的时候，先查找key所属的RowGroup以及它在RowGroup中行号，更新RowGroup的DeleteBitmap，最初将更新后的数据写入Delta Store。查问的时候，不同RowGroup的扫描能够齐全并行，只须要基于行号过滤掉属于DeleteBitmap的数据即可。这个计划均衡了写和读的性能。一方面写入时须要去定位key的具体位置，另一方面须要解决write-write抵触问题。这个计划也有一些变种。比如说写入时先不去查找更新key的地位，而是先将这些key记录到一个buffer中，应用后台任务将这些key转成DeleteBitmap。而后在查问的时候通过merge on read的形式解决buffer中的增量key。 Upsert和Delete应用示例首先咱们建了一张UniqueMergeTree的表，表引擎的参数和ReplacingMergeTree是一样的，不同点是能够通过UNIQUE KEY关键词来指定这张表的惟一键，它能够是多个字段，能够蕴含表达式等等。上面对这张表做写入操作就会用到upsert的语义，比如说第6行写了四条数据，但只蕴含1和2两个key，所以对于第7行的select，每个key只会返回最高版本的数据。对于第11行的写入，key 2是一个曾经存在的key，所以会把key 2对应的name更新成B3; key 3是新key，所以直接插入。最初对于行删除操作，咱们减少了一个delete flag的虚构列，用户能够通过这个虚构列标记Batch中哪些是要删除，哪些是要upsert。 UniqueMergeTree表引擎的亮点对于Unique表的写入，咱们会采纳upsert的语义，即如果写入的是新key，那就直接插入数据；如果写入的key曾经存在，那就更新对应的数据。UniqueMergeTree表引擎既反对行更新的模式，也反对局部列更新的模式，用户能够依据业务要求开启或敞开。ByteHouse也反对指定Unique Key的value来删除数据，满足实时行删除的需要。反对指定一个版本字段来解决回溯场景可能呈现的低版本数据笼罩高版本数据的问题。最初ByteHouse也反对数据在多正本的同步，防止整体零碎存在单点故障。在性能方面，咱们对UniqueMergeTree的写入和查问性能做了性能测试，后果如下图（箭头前是ReplacingMergeTree的耗费工夫，箭头后是UniqueMergeTree的耗费工夫）。能够看到，与ReplacingMergeTree相比，UniqueMergeTree的写入性能尽管略有降落，但在查问性能上获得了数量级的晋升。咱们进一步比照了UniqueMergeTree和一般MergeTree的查问性能，发现两者是十分靠近的。加强后的施行人群圈选通过UniqueMergeTree的加持，在原有架构不变的状况下，完满的满足了实时人群圈选场景的要求。1、通过Unique Key配置惟一键，提供upsert更新写语义，查问主动返回每个惟一键的最新值2、性能：单shard写入吞吐能够达到10k+行/s；查问性能与原生CH表简直雷同3、反对依据Unique Key实时删除数据此外，ByteHouse还通过UniqueMergeTree反对了一些其余个性：1、惟一键反对多字段和表达式2、反对分区级别惟一和表级别惟一两种模式3、反对自定义版本字段，写入低版本数据时主动疏忽4、反对多正本部署，通过主备异步复制保障数据可靠性不仅在实时人群圈选场景，ByteHouse提供的upsert能力曾经服务于字节外部泛滥利用，线上利用的表数量无数千张，受到实时类利用的宽泛欢送。除Upsert能力外，ByteHouse在为原生ClickHouse的企业级能力进行了全方位的加强。立刻跳转火山引擎BytHouse官网理解详情！

关于clickhouse:记一次-ClickHouse-性能测试

前言在工作场景中，咱们会采集工厂设施数据用于智能管制，数据的存储用了 InfluxDB，随着数据规模越来越大，InfluxDB 的性能越来越差，故思考引入 ClickHouse 分担 InfluxDB 大数据分析的压力，再加上咱们业务上也用到了 MySQL ，所以本文就来比照下 MySQL、InfluxDB、ClickHouse 在千万数据量下的写入耗时、聚合查问耗时、磁盘占用等各方面性能指标。论断后行最终的论断是，间接应用 ClickHouse 官网提供的 6600w 数据集来做比照测试，在 MySQL、InfluxDB、ClickHouse 同样调配 4c16g 资源的状况下，ClickHouse 无论是导入速度、磁盘占用、查问性能都齐全碾压 MySQL 和 InfluxDB，具体比照指标如以下表格： MySQLInfluxDBClickHouse导入耗时大略耗时70分钟大略耗时35分钟75秒磁盘空间12.35 G5.9 G2.66 G全表count24366 ms11674 ms100 ms全表max/min27023 ms26829 ms186 ms全表平均值24841 ms12043 ms123 ms全表方差24600 msOOM113 ms简单查问130260 msOOM385 ms简单查问2470 ms200 ms8 ms为了确保测试后果绝对精确，以上每条sql起码执行5次，而后取两头值。其中 InfluxDB 体现比设想中的要差，甚至还不如 MySQL，可能是数据样本和测试用例不太适宜 InfluxDB 场景导致的，如果大家对测试后果有疑难，能够 git clone [https://github.com/stone0090/clickhouse-test.git](https://github.com/stone0090/clickhouse-test.git)我的项目，残缺验证以上比照全过程。数据库简介MySQLMySQL 是一个关系型数据库管理系统，由瑞典 MySQL AB 公司开发，属于 Oracle 旗下产品，是最风行的关系型数据库管理系统之一。它所应用的 SQL 语言是用于拜访数据库的最罕用标准化语言。它采纳了双受权政策，分为社区版和商业版，因为其体积小、速度快、总体领有成本低，尤其是开放源码这一特点，个别中小型和大型网站的开发都抉择 MySQL 作为网站数据库。《高性能MySQL》一书中开篇明义讲到的最外围的一句话是“MySQL并不完满，然而却足够灵便”，它是架构中的万金油，庞杂非繁多的我的项目中总会有它的用武之地。 InfluxDBInfluxDB 是一个由 InfluxData 公司开发的开源时序型数据库，专一于海量时序数据的高性能读、高性能写、高效存储与实时剖析，在 DB-Engines Ranking 时序型数据库排行榜上位列榜首，广泛应用于DevOps监控、IoT监控、实时剖析等场景。传统数据库通常记录数据的以后值，时序型数据库则记录所有的历史数据，在解决以后时序数据时又要一直接管新的时序数据，同时时序数据的查问也总是以工夫为根底查问条件，并专一于解决以下海量数据场景的问题： ...

关于clickhouse:ClickHouse-源码泛读

ClickHouse 源码泛读前言首先从最整体的视角看下ClickHouse的解决流程：入口函数TCP/HTTP/RPCHandler::runImpl 构建pipelinestate.io = executeQuery() 调度执行pipeline, reply to clientif(state.io.pipeline.pushing()) { processInsertQuery();} else if (state.io.pipeline.pulling()) { processOrdinaryQueryWithProcessors();} else if ... { ...}整体分为两大块：解析sql，构建pipeline。而后依据pipeline的特点（insert or other）抉择对应的调度器执行pipeline，拿到后果返回给客户端。对于第二局部能够参考我之前写的文章：ClickHouse之Pipeline执行引擎，这篇文章次要剖析第一局部。executeQuery地位：src/Interpreters/executeQuery.cpp 1073 转发到executeQueryImpl。 executeQueryImpl地位：src/Interpreters/executeQuery.cpp 358 解析SQL，并依据sql类型结构对应的Interpreter，调用Interpreter的execute()函数，取得pipeline，本文以Select语句为例进行剖析。 InterpreterSelectQuery::execute地位：src/Interpreters/InterpreterSelectQuery.cpp 684 结构QueryPlan依据QueryPlan结构QueryPipelineBuilder依据builder结构pipeline其中第二局部和第三局部的逻辑比较简单，本文暂且略过不表，重点剖析第一局部。 InterpreterSelectQuery::buildQueryPlan地位：src/Interpreters/InterpreterSelectQuery.cpp 656 次要工作转发到executeImpl InterpreterSelectQuery::executeImpl地位：src/Interpreters/InterpreterSelectQuery.cpp 1105 /// Read the data from Storage. from_stage - to what stage the request was completed in Storage.executeFetchColumns(from_stage, query_plan);/// 依据解析后的ast以及其余信息向query_plan中一直增加各种类型的QueryPlanStep，注：QueryPlan实际上是一个树状构造，树节点类型为QueryPlanStep。这里将executeFetchColumns独自列出来，因为这里波及到构建从存储引擎读取数据的QueryPlanStep，本文着重剖析这里。 InterpreterSelectQuery::executeFetchColumns地位：src/Interpreters/InterpreterSelectQuery.cpp 1926 函数前半部分设计很多优化相干以及各种参数的获取，在刚开始浏览源码的时候这些内容能够暂且跳过，首先梳理分明整个我的项目的枝干，由粗到细缓缓剖析，否则很容易迷失在繁冗的细节中。关注2159行这里： storage->read(query_plan, required_columns, storage_snapshot, query_info, context, processing_stage, max_block_size, max_streams);StorageMergeTree::read地位：src/Storages/StorageMergeTree.cpp 215 ...

关于clickhouse:ClickHouse-Mysql引擎-POPULATE-导入数据丢失链接

错误信息Mysql 失落链接 Code: 1000. DB::Exception: Received from localhost:9000. DB::Exception: mysqlxx::Exception: Lost connection to MySQL server during query (127.0.0.1:3306). (POCO_EXCEPTION)解决方案设置Mysql innodb_buffer_pool_size 参数，使得innodb_buffer_pool_size可用内存空间大于须要导入的数据表占用内存大小。查问innodb_buffer_pool_size可应用内存大小，单位字节SELECT @@innodb_buffer_pool_size;长期更改 Mysql innodb_buffer_pool_size内存大小。set global innodb_buffer_pool_size = 6442450944;猜想

关于clickhouse:解决clickhouse服务器启动异常Suspiciously-many-broken-parts-to-remove

产生起因服务重启与断电起因最近遇到一个对于clickhouse服务启动失败问题，报错输入如下 Application: DB::Exception: Suspiciously many (32) broken parts to remove.****这个是产生在机器断电场景下的报错，查找起因是说因为写入数据造成的元数据和数据不统一问题 clickhouse在重启服务的时候会从新加载MergeTree表引擎数据，数据可能存在损坏状况 clickhouse配置起因配置参数当中蕴含一个参数max_suspicious_broken_parts，默认值是10，可选值范畴是任意正整数，如果单个分区中的损坏局部数量超过max_suspicious_broken_parts 配置的值，则回绝主动修复或者回绝删除损坏局部的数据，并且服务启动时候间接报错退出目前须要尽量避免该谬误免得服务启动失败，举荐把该参数配置为1000或者更大的值解决方案单表配置形式在创立MergeTree表的时候特地配置一下max_suspicious_broken_parts参数 CREATE TABLE foo( `A` Int64)ENGINE = MergeTreeORDER BY tuple()SETTINGS max_suspicious_broken_parts = 1000;命令行形式应用ALTER TABLE ... MODIFY SETTING命令批改 ALTER TABLE foo MODIFY SETTING max_suspicious_broken_parts = 1000;-- 复原默认值-- reset to default (use value from system.merge_tree_settings)ALTER TABLE foo RESET SETTING max_suspicious_broken_parts;配置文件形式如果服务起不来了，就只能应用这个形式解决新建文件max_suspicious_broken_parts.xml写入如下内容 <?xml version="1.0"?><yandex> <merge_tree> <max_suspicious_broken_parts>1000</max_suspicious_broken_parts> </merge_tree></yandex>clickhouse的配置文件举荐搁置在/etc/clickhouse-server/config.d/文件夹下失效如果是在Ubuntu或者Centos下面以DEB或RPM安装包的模式启动的，须要把该文件放到/etc/clickhouse-server/config.d/，最初重启clickhouse就能够了如果是docker compose形式启动批改compose.yaml配置如下，次要也是把对应文件挂载进入容器外部相应地位 services: clickhouse: image: clickhouse/clickhouse-server ulimits: nofile: soft: 262144 hard: 262144 restart: always container_name: demo-clickhouse environment: - CLICKHOUSE_USER=demo - CLICKHOUSE_PASSWORD=demo-pass - CLICKHOUSE_DB=demo ports: - "8123:8123" - "9000:9000" volumes: - ./max_suspicious_broken_parts.xml:/etc/clickhouse-server/config.d/max_suspicious_broken_parts.xml - demo-clickhouse:/var/lib/clickhouse healthcheck: test: 'wget -O - http://127.0.0.1:8123 || exit 1' volumes: demo-clickhouse: {}最初运行如下命令，容器就能够失常启动了 ...

关于clickhouse:数据分析引擎百花齐放为什么要大力投入ClickHouse

更多技术交换、求职机会、试用福利，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群近年来，OLAP产品的竞争日渐强烈，目前企业间风行的既有Impala、Greenplum等上一代较为成熟的数据分析产品，也有ClickHouse、Kylin、Druid、Doris、StarRocks等在不同场景各具特色的新一代剖析引擎。这些产品各有胜场，用户在进行抉择时须要对各产品有全面的理解，并且要求产品常识紧跟最新版本，能力精确的选出适宜本人公司的产品。字节跳动旗下抖音、今日头条等产品的成长速度很快，须要剖析解决的数据也随之指数级的快速增长，这对剖析的实时性有极高的要求。在抉择OLAP引擎时，字节也尝试过Kylin、Druid、Spark等，并且其余产品也做了宽泛的调研。通过一直尝试和思考，字节从性能、稳固、可复用等角度考量，最终抉择了ClickHouse作为主剖析引擎，承载字节跳动宽泛的业务增长剖析工作。以后，字节跳动外部的ClickHouse节点总数曾经超过 18000 个，治理总数据量超过 700PB，最大的集群规模在 2400 余个节点，是全国乃至于全世界最大的ClickHouse用户之一。字节跳动的OLAP演进起初时，最大需要的是“快”，所以字节团队尝试了Kylin，它的长处是可能提供毫秒级别的查问延时。但同时Kylin也存在须要预聚合、须要提前定义数据模型和无奈进行交互式剖析等问题，随着数据质变大反而会导致返回后果慢。随后团队又心愿用Spark来解决问题。但Spark同样存在不少问题困扰着团队，比方查问速度不够快、资源使用率高、稳定性不够好，以及无奈反对更长时间的数据等。通过认真思考，字节决定从以下角度来抉择OLAP剖析引擎：一是对 OLAP 十分奢侈又简略的要求：高可用和强性能。不管给 OLAP 加上多少复用、赋予多少身份，最外围且首要的诉求是能存储足够多的数据、足够稳固，并且能够十分快地查到数据。这是第一个要求——要好用，即满足海量数据下交互式剖析的性能要求，达到秒级响应。二是复用。在好用的根底上，团队心愿能尽量用一套技术栈解决大部分问题甚至是所有问题，这就须要引擎是可定制的，能让开发人员在这套技术栈上搭建各种面向场景化的利用。三是易用，能让用户更加自主地把产品应用起来。最终，通过对过后市面上已有的多款开源引擎的调研和测试，团队最终抉择采纳 ClickHouse 作为 OLAP 查问引擎，并开始基于此一直迭代。 ClickHouse简介ClickHouse是一个用于联机剖析(OLAP)的列式数据库管理系统(DBMS)。于2016年开源，以性能强悍著称。其具备列式存储、向量化执行引擎、高压缩比、多核并行计算等个性。性能强号称最快的OLAP引擎，在1亿数据量级雷同服务器的性能比照如下：图片功能丰富ClickHouse反对数据统计分析各种场景：反对类SQL查问；反对繁多库函数（例如IP转化，URL剖析等，预估计算/HyperLoglog等）；反对数组(Array)和嵌套数据结构(Nested Data Structure)；反对数据库异地复制部署。数据导入速度快ClickHouse应用大规模并行计算框架，超高吞吐的实时写入能力，每秒在50-200M量级。 ClickHouse采纳类LSM Tree的构造，数据写入后定期在后盾Compaction。通过类 LSM tree的构造， ClickHouse在数据导入时全副是程序append写，写入后数据段不可更改，在后盾compaction时也是多个段merge sort后程序写回磁盘。程序写的个性，充分利用了磁盘的吞吐能力。发展前景好自2016年开源以来，ClickHouse凭借其数倍于其余顶尖交互式剖析数据库的极致性能，倒退速度十分迅猛。目前，ClickHouse已在Github上取得24.2K Star，1000+的Contributors。 ClickHouse的毛病没有任何一个数据引擎是白璧无瑕的，在大量应用过程中，字节也发现了ClickHouse的一些毛病：关联查问能力差ClickHouse的劣势在单表查问性能，然而在一些要求灵便查问的场景，ClickHouse多表关联能力的有余就裸露了进去，难以满足这类场景。依赖ZookeeperZookeeper在ClickHouse中次要用于正本表数据的同步（ReplicatedMergeTree引擎）以及分布式表（Distributed）的操作上。然而对Zookeeper的不当应用很容易引起ClickHouse集群的不稳固。不反对upsertClickHouse仅反对批量删除或批改数据，ReplacingMergeTree须要依赖merge异步去重。运维简单ClickHouse扩缩容时须要创立新表从新导数据，非常不不便。ClickHouse集群不能主动感知集群拓扑变动，也不能主动balance数据。当集群数据量较大，复制表和分布式表过多时、想做到表维度、或者集群之间的数据均衡会导致运维老本很高。立刻跳转火山引擎ByteHouse官网理解详情！欢送下载《从ClickHouse到ByteHouse》白皮书理解更多~

关于clickhouse:分布式-浅谈-dble-引入-ClickHouse-的配置操作

作者：阙秀平爱可生 dble 团队测试成员，次要负责 dble 需要测试，自动化编写和社区问题解答。热衷rua雍正。本文起源：原创投稿 *爱可生开源社区出品，原创内容未经受权不得随便应用，转载请分割小编并注明起源。一、性能背景咱们晓得, dble 是基于 MySQL 的⾼可扩展性的分布式中间件，而 MySQL 善于的是联机事务处理（OLTP），那么面对越来越多的联机剖析(OLAP)需要，MySQL 就显得有些顾此失彼了。为了可能提供良好的联机剖析(OLAP)能力，dble 在 3.22.01 版本提供了解决方案，能够在后端节点反对 ClickHouse ，借助 ClickHouse 的能力，提供弱小的联机剖析(OLAP)服务。那什么是 ClickHouse？为什么抉择ClickHouse呢？ClickHouse是一个用于联机剖析(OLAP)的列式数据库管理系统(DBMS)。绝对于行式数据库 MySQL ，对于大多数查问而言，列式数据库处理速度至多进步100倍。那 dble 是怎么实现的呢？上面来简略操作一下。二、环境筹备服务器上部署四个 docker 容器： 1.部署两个 5.7.25 版本的 MySQL 数据库。 2.部署 3.22.01 版本 dble 环境，装置可参考：【0.3 疾速开始 · dble manual】（https://actiontech.github.io/...） 3.部署 22.6.1 版本 ClickHouse 数据库，装置可参考：【装置 | ClickHouse Docs】（https://clickhouse.com/docs/z...），验证 ClickHosue 可用。 # clickhouse-client -u test --password password -h 127.0.0.1ClickHouse client version 22.6.1.1985 (official build).Connecting to 127.0.0.1:9000 as user test.Connected to ClickHouse server version 22.6.1 revision 54455.clickhouse-1 :) show databases;SHOW DATABASESQuery id: b2a417e7-7a76-4461-896d-961540eb60a1┌─name─────────┐│ INFORMATION_SCHEMA ││ default ││ information_schema ││ system │└────────────┘4 rows in set. Elapsed: 0.003 sec.三、dble+ClickHouse1.进入{install_dir}/dble/conf/user.xml ，新增用户 analysisUser 。 ...

关于clickhouse:字节跳动数据平台技术揭秘基于-ClickHouse-的复杂查询实现与优化

更多技术交换、求职机会、试用福利，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群ClickHouse 作为目前业内支流的列式存储数据库(DBMS)之一，领有着同类型 DBMS 难以企及的查问速度。作为该畛域中的后起之秀，ClickHouse 已凭借其性能劣势引领了业内新一轮剖析型数据库的热潮。但随着企业业务数据量的不断扩大，在简单 query 场景下，ClickHouse 容易存在查问异样问题，影响业务失常推动。字节跳动作为国内最大规模的 ClickHouse 使用者，在对 ClickHouse 的利用与优化过程中积攒了大量技术教训。本文将分享字节跳动解决 ClickHouse 简单查问问题的优化思路与技术细节。我的项目背景ClickHouse 的执行模式与 Druid、ES 等大数据引擎相似，其根本的查问模式可分为两个阶段。第一阶段，Coordinator 在收到查问后，将申请发送给对应的 Worker 节点。第二阶段，Worker 节点实现计算，Coordinator 在收到各 Worker 节点的数据后进行汇聚和解决，并将解决后的后果返回。两阶段的执行模式可能较为高效地反对目前许多常见的业务场景，例如各类大宽表单的查问，这也是 ClickHouse 最善于的场景。ClickHouse 的长处是简略、高效，通常来说，简略就意味着高效。但随着企业业务的继续倒退，更加简单的业务场景对 ClickHouse 提出了以下三类挑战。第一类，当一阶段返回的数据较多，且二阶段计算较为简单时，Coordinator 会接受较大压力，容易成为 Query 的瓶颈。例如一些重计算的 Agg 算子，如 Count Distinct，若采纳哈希表的形式进行去重，第二阶段需在 Coordinator 单机下来合并各个 Worker 的哈希表。这个计算量会很重且无奈并行。第二类，因为目前 ClickHouse 模式并不反对 Shuffle，因而对于 Join 而言，右表必须为全量数据。无论是一般 Join 还是 Global Join，当右表的数据量较大时，若将数据都放到内存中，会比拟容易 OOM。若将数据 spill 到磁盘，尽管能够解决内存问题，但因为有磁盘 IO 和数据序列化、反序列化的代价，因而查问的性能会受到影响。特地是当 Join 采纳 Hash Join 时，如果右表是一张大表，构建也会比较慢。针对构建问题，近期社区也进行了一些右表并行构建的优化，数据依照 Join key 进行 Split 来并行地构建多个 Hash Table，但额定的代价是左右表都须要减少一次 Split 操作。 ...

关于clickhouse:用-ClickHouse-的-SummingMergeTree-实现准实时看板qbit

前言本文测试环境 ClickHouse 版本为 22.3 LTSSummingMergeTree 官网文档：https://clickhouse.com/docs/e...初始化测试数据生成创立库 CREATE DATABASE qbit;创立表 CREATE TABLE download ( userid UInt32, when DateTime, size Float32) ENGINE = MergeTree PARTITION BY toYYYYMM(when)ORDER BY(userid, when);插入数据 INSERT INTO qbit.downloadSELECT rand() % 5, now() + number * 60 as when, rand() % 100000000FROM system.numbersLIMIT 5000;查看数据 SELECT * FROM qbit.download LIMIT 10; 查看每天的下载量（扫描 10000 条数据） SELECT userid, toYYYYMMDD(when) AS day, count() AS cnt, sum(size) AS sizeFROM qbit.downloadGROUP BY userid, dayORDER BY cnt DESC ...

关于clickhouse:ClickHouse-数据表导出和导入qbit

本文对 ClickHouse 22.3 实用导出语句 clickhouse-client -h 127.0.0.1 --port 9000 -u default --password XXX -d mylog \ --query "SELECT * from mylog.mylog" --format Native > 2021.native导入语句 clickhouse-client -h 127.0.0.1 --port 9000 -u default --password XXX -d mylog \--query "INSERT INTO mylog.mylog FORMAT Native" < 2021.native本文出自 qbit snap

关于clickhouse:UniqueMergeTree支持实时更新删除的-ClickHouse-表引擎

UniqueMergeTree 开发的业务背景首先，咱们看一下哪些场景须要用到实时更新。咱们总结了三类场景：第一类是业务须要对它的交易类数据进行实时剖析，须要把数据流同步到 ClickHouse 这类 OLAP 数据库中。大家晓得，业务数据诸如订单数据天生是存在更新的，所以须要 OLAP 数据库去反对实时更新。第二个场景和第一类比拟相似，业务心愿把 TP 数据库的表实时同步到 ClickHouse，而后借助 ClickHouse 弱小的剖析能力进行实时剖析，这就须要反对实时的更新和删除。最初一类场景的数据尽管不存在更新，但须要去重。大家晓得在开发实时数据的时候，很难保障数据流里没有反复数据，因而通常须要存储系统反对数据的幂等写入。咱们能够总结一下这三类场景的共同点：从数据的新鲜度看这三个场景其实都不须要亚秒级的新鲜度，往往做到秒级或者分钟级的数据新鲜度就能够了，因而能够采纳 mini-batch 的实时同步计划。从应用上看这三类场景都能够通过提供基于惟一键的 upsert 性能来实现，不论是更新还是幂等解决的需要。从读写要求上看因为大家用 OLAP 数据库最外围的诉求是心愿查问能够有一个非常低的提早，所以对读的性能要求是十分高的。对于写，尽管也须要高吞吐，但更多关注 Scalability，即是否通过加资源来进步数据流的写吞吐。从高可用性上看这三个场景都须要能反对多正本，来防止整个零碎存在单点故障。以上就是咱们开发 UniqueMergeTree 的背景。常见的列存储实时更新计划上面介绍下在列存储里反对实时更新的常见技术计划。 key-based merge on read第一个计划叫 key-based merge on read，它的整个思维比拟相似 LSMTree。对于写入，数据先依据 key 排序，而后生成对应的列存文件。每个 Batch 写入的文件对应一个版本号，版本号能用来示意数据的写入程序。同一批次的数据不蕴含反复 key，但不同批次的数据蕴含反复 key，这就须要在读的时候去做合并，对 key 雷同的数据返回去最新版本的值，所以叫 merge on read 计划。ClickHouse 的 ReplacingMergeTree 和 Doris 用的就是这种计划。大家能够看到，它的写门路是非常简单的，是一个很典型的写优化计划。它的问题是读性能比拟差，有几方面的起因。首先，key-based merge 通常是单线程的，比拟难并行。其次 merge 过程须要十分多的内存比拟和内存拷贝。最初这种计划对谓词下推也会有一些限度。大家用过 ReplacingMergeTree 的话，应该对读性能问题深有体会。这个计划也有一些变种，比如说能够保护一些 index 来减速 merge 过程，不必每次 merge 都去做 key 的比拟。 ...

关于clickhouse:ClickHouse-逻辑集群介绍

什么是逻辑集群ClickHouse作为一个基于OLAP场景的数据库，对于集群的反对天然也是天经地义的。咱们通常所说的ClickHouse集群，指的是物理集群。即集群各节点之间被同一个zookeeper集群治理，数据的各种DDL操作都是针对整个集群无效的。与物理集群绝对应的，还有一类集群，咱们叫它逻辑集群。它是指在物理上没有肯定的必然关系的物理集群，彼此又组成了一个逻辑集群。能够用上面这幅图形象地表白物理集群和逻辑集群的关系。如上图所示，三个物理集群各自是互相独立的，对cluster1的各种数据操作，cluster2和cluster3并无奈感知，然而对于logic集群来说，任何一个物理集群的数据变动，逻辑集群都能通过查问获取到。为什么须要逻辑集群那么，既然有了物理集群，为什么还要逻辑集群呢？它能解决用户什么痛点？又能带来哪些益处？首先，逻辑集群能解决zookeeper压力问题咱们晓得，ClickHouse集群的数据一致性是通过Zookeeper集群来保障的。当集群的数据量特地大或者操作特地频繁的时候，带来的就是zookeeper的znode节点数量多，更新频繁。而zookeeper的压力是有下限的，如果集群过大，或者一个zookeeper集群治理的clickhouse集群过多的话，很容易造成zookeeper解体或者卡死。正是因为“天下苦zookeeper久矣”，逻辑集群的呈现正好能解决这一问题。比方，某个物理集群的数据量特地宏大，宏大到繁多的zookeeper集群无奈撑持其元数据管理，这时候咱们能够将这个物理集群拆分成多个物理集群，别离应用不同的zookeeper集群去治理，而后通过逻辑集群去查问数据。这样既分担了zookeeper的压力，也保留了各个物理集群之间的业务关联性，不影响业务数据的查问。其次，逻辑集群解决了多数据中心问题还有一种比拟常见的场景是多数据中心。随着企业数据规模的扩张，不可能把所有的数据都寄存在一个数据中心，面对这样的多数据中心的场景，如果只建设一个物理集群，那么首先面临的是网络的提早问题，其次还有昂扬的流量费用，这都是须要思考的问题。那么比拟好的做法是在每一个数据中心都别离建设各自的物理集群，这样无论是数据的插入还是查问，都极大缩小了网络上的限度，从而把提早做到最小。然而咱们思考这样一个场景：某银行机构在上海和合肥各有一个数据中心，别离建设了两个物理集群，叫做bench_shanghai和bench_hefei，当初总行机构须要综合上海和合肥的两个数据中心的数据做数据分析。那么咱们还必须别离查问上海的集群和合肥的集群，而后再进行汇总。如果数据中心比拟多，那么查问的次数也就特地多，这样显然是事倍功半的。如果咱们建设一个逻辑集群，将上海的集群和合肥的集群蕴含在内，咱们就叫它bench集群，这样咱们只须要查问bench集群，就能一次将数据全副查出来，如下图所示：再次，逻辑集群能节约老本逻辑集群节约老本是必定的。当然次要是网络流量方面的老本。尤其是云上的服务器，流量贵得惊人。构想一下，如果上海和合肥两个数据中心只有一个物理集群，而恰好一个shard中的不同正本又别离位于不同的数据中心，当每天数TB级别的数据写入数据库，在做正本之间数据同步的时候，产生的流量当有如许可怕。逻辑集群能做什么咱们不倡议在逻辑集群进行mutation的相干操作。不倡议对数据进行插入、删除等。这些操作都应该在物理集群去实现。事实上，逻辑集群天生也不善于做下面这些操作。这次要取决于以下这几层限度：逻辑集群可能蕴含多个物理集群，这些物理集群不肯定在同一个zookeeper上，因而，不论是建表还是插入数据，一致性是肯定不能保障的。即便逻辑集群的多个物理集群应用同一个zookeeper，依然无奈创立逻辑集群层面上的分布式表。因为有可能物理集群A应用了正本，创立的本地表引擎是ReplicatedMergeTree，然而物理集群B没有应用正本，创立的本地表是MergeTree，这样即便本地表构造截然不同，也无奈在逻辑集群上创立分布式表。再退一步，就算物理集群A和B都应用了正本，建表的schema截然不同，应用的都是ReplicatedMergeTree引擎，在逻辑集群上创立分布式表依然不可避免问题。因为为了避免集群之间互相烦扰，咱们个别定义zookeeper的门路时，都会带上集群的名字，比方上面这样：CREATE TABLE default.t1( `@time` DateTime, `@item_guid` String, `@metric_name` LowCardinality(String), `@alg_name` LowCardinality(String))ENGINE = ReplicatedReplacingMergeTree('/clickhouse/tables/{cluster}/{shard}/default/t1', '{replica}')PARTITION BY toYYYYMMDD(`@time`)ORDER BY (`@time`, `@item_guid`, `@metric_name`)SETTINGS index_granularity = 8192 因而不同的物理集群在zookeeper的门路其实是不同的，而分布式表之所以可能应用ON CLUSTER xxx这种语法创立，次要就是因为在zookeeper的task queue中保留了DDL语句，而不同的集群task queue的门路不同，就无奈做到同步。因而创立分布式表也会失败。因而，逻辑集群存在的意义次要是用来查问。这也是它惟一能做的事件。那么，既然逻辑集群在创立分布式表上有这么多的限度（简直就是不可能创立胜利），为什么咱们还能应用逻辑集群进行查问呢？这不是自圆其说的么？事实上，咱们能够在物理集群上别离创立跨逻辑集群的分布式表，只有表的schema一样，是能够实现查问的。如上面这样的写法： --上海集群创立： CREATE TABLE default.dist_logic_t123 on cluster bench_shanghai as t123 ENGINE = Distributed('bench', 'default', 't123', rand()); --合肥集群创立 CREATE TABLE default.dist_logic_t123 on cluster bench_hefei as t123 ENGINE = Distributed('bench', 'default', 't123', rand());这样不论是往上海集群还是合肥集群插入数据，咱们都能从dist_logic_t123表中查问进去。 ...

关于clickhouse:关于clickhouse的一些学习记录-这篇文章适合初学者

开始文章前先扯个淡最近在思考统计性能的时候，一开始是寻思着用程序配合mysql来进行存储，然而如果用mysql来存一些比拟细节话的数据而后再做统计，数据量会十分宏大，而后又思考用mysql存储数据，而后用定时脚本或队列来依照具体要求更新到redis中，这样查问就很快了。起初想起咱们自身用的plausible来记录数据，而后寻思着用plausible的event来记录自定义的goals，发现确实可行，模仿了500万数据之后，体现良好，感觉本人棒棒哒。谁晓得数据量起来之后，2000万的数据就能让服务炸了。期间，也遇到了一些其余问题，也给官网提了一些倡议，逼不得已不得不学了elixir，当然这是后话了。这里提一嘴这个plausible次要是给后来者提个醒，如果也想用plausible来做自定义的一些统计性能，最好是放弃掉，改为间接用ClickHouse来解决。最初没有方法，我察看了plausible的数据存储构造，发现根本原因就是event的存储类型导致的，性能误会，从而萌发了去钻研一下ClickHouse，看看本人实现能不能失去很好的性能，于是便有了这篇文章，如果对大家有用，欢送探讨，如果了解有错的话，欢送各位给我斧正。行式数据库 vs 列式数据库构造比照以下先以官网文档的表格来抛砖引玉，记录一下这段时间对于clickhouse的学习成绩。行式数据库 RowWatchIDJavaEnableTitleGoodEventEventTime#0893543506621Investor Relations12016-05-18 05:19:20#1903295099580Contact us12016-05-18 08:10:20#2899537060541Mission12016-05-18 07:38:00#N……………列式数据库 Row:#0#1#2#NWatchID:893543506629032950995889953706054…JavaEnable:101…Title:Investor RelationsContact usMission…GoodEvent:111…EventTime:2016-05-18 05:19:202016-05-18 08:10:202016-05-18 07:38:00…从表格上看，一下子比拟难以了解，行式数据库和咱们电子表格看到的体现一样，然而存储是一行一行的存储，列式数据库是以一列一列的存储。以下是以文件存储构造来做一个示例：也就是说，对于行数据库，一行数据是造成一个残缺的文件（理论底层具体存储不是这样子，这里是不便阐明整个思维），这个文件蕴含了这一整行的每个数据字段，取到这一行就能拿到残缺的数据。而对于列式存储来说，一列数据为一个文件，如以上所展现的，WatchId 的数据全副存在WatchId文件外面。而后我做了个脑图再次对这个构造做个比照。以下用json来形容两种数据结构的区别：行式数据库存储构造 [ { "id": 1, "title": "t1", "content": "c1" }, { "id": 2, "title": "t2", "content": "c2" }, { "id": 2, "title": "t2", "content": "c2" }, { "id": 3, "title": "t3", "content": "c3" }]列式数据库构造 { "id": [ 1, 2, 3, 4 ], "title": [ "t1", "t2", "t3", "t4" ], "content": [ "c1", "c2", "c3", "c4" ]}列式数据库次要利用场景列式数据库次要使用场景为OLAP(联机剖析)，也就是说次要利用于数据分析这一块，通常不用来解决具体的业务数据存储。行式数据库次要用于解决业务数据的存储，业务数据的特点是对单条数据常常会产生更新，会对数据一致性有十分严格的要求。对于OLAP来说，数据很少会有变动，所以通常来说，列式数据库次要目标是为了更快的写入以及更快的数据查问和统计。 ...

关于clickhouse:技术分享-ClickHouseKeeper-初探

作者：陈宇现任爱可生南区项目经理，负责我的项目整体品质、平安、进度、老本治理的责任保证体系。对开源技术执着，为客户负责，喜爱极限运动，足球。本文起源：原创投稿 *爱可生开源社区出品，原创内容未经受权不得随便应用，转载请分割小编并注明起源。一、ClickHouse-Keeper 是什么：ClickHouse 社区在 21.8 版本中开始引入了 ClickHouse-Keeper ，直至 ClickHouse 21.12 发布公告提到 ClickHouse Keeper 性能根本实现。 ClickHouse Keeper 是 ZooKeeper 的替代品，与 ZooKeeper 不同，ClickHouse Keeper 是用 C++ 编写的，并应用 RAFT 算法实现，该算法容许对读写具备线性化能力，具备多种不同语言的开源实现。二、Zookeeper与ClickHouse-Keeper一些场景比照为什么要引入 ClickHouse-Keeper 呢？次要是 ClickHouse 应用 Zookeeper 有着泛滥痛点：应用java开发运维不便要求独立部署zxid overflow 问题snapshot 和 log 没有通过压缩不反对读的线性一致性而 ClickHouse-Keeper 存在着以下长处：应用 C++ 开发，技术栈与 ClickHouse 对立即可独立部署，又可集成到 ClickHouse 中没有 zxid overflow 问题读性能更好，写性能相当反对对 snapshot 和 log 的压缩和校验反对读写的线性一致性三、配置形式相较之前的集群配置，没有太大区别，而 ClickHouse-Keeper 仅当<keeper_server>标签存在于配置中时才会运行，配置模板如下: 四、启动命令clickhouse-keeper --config /etc/your_path_to_config/config.xml五、参数阐明tcp_port：客户端连贯的端口（ZooKeeper 的默认值为2181）tcp_port_secure：用于客户端和 keeper-server 之间 SSL 连贯的平安端口server_id：Keeper集群的每个节点惟一IDlog_storage_path：日志门路，最好将日志存储在IO性能强设施snapshot_storage_path：快照门路<keeper_server>.<coordination_settings>局部 ...

关于clickhouse:ClickHouse-在-UBA-系统中的字典编码优化实践

ClickHouse UBA 版本是字节跳动外部在开源版本根底上为火山引擎增长剖析专门深度定制优化的版本。本文介绍在字典编码方向上的优化实际，作者系字节跳动数据平台研发工程师 Jet He，长期致力于 OLAP 引擎开发优化，在 OLAP 畛域、用户行为在线剖析等有丰盛的教训。背景尽管 ClickHouse 列存曾经有比拟好的存储压缩率，但面对海量数据时，磁盘空间的占用跟罕用的 Parquet 格局相比依然有不少差距。特地是对于低基数列时，Parquet 的存储空间会更加有劣势。同时，大多这类数据的事件属性都有低基数的特色，例如事件属性中的城市、性别、品牌等等。Parquet 会主动对低基数列做字典编码，因而会取得更高的存储效率。同时 ClickHouse 官网也提供了一种字典编码的解决方案即 LowCardinality 类型，网上也有一些测试 Benchmark 数据，成果不错，能够进一步升高存储空间和晋升查问、IO 性能。上图是外部 LowCardinality 的存储构造，写入过程中，会构建一个字典，列数据通过 Positions 示意，数值是字典中每个 Unique 值的 Index。其余更加具体的介绍能够参考官网文档。但在外部环境中通过验证测试发现，原始的 LowCardinality 列存在以下两个致命问题：在 LowCardinality 列比拟多的状况下(均匀 300+)，Part Merge 耗时重大，在大量实时写入的场景下，Merge 速度跟不上写入速度，最终会导致集群不可用；用户数据中事件属性多种多样，UBA 版本通过动静 Map 列实现用户属性的自在上报，也会导致某些属性基数十分大，不再适宜做字典编码，否则会同时导致存储、计算性能降落。如果以上两个问题得不到解决，那么字典编码性能就无奈上线应用。须要一种解决方案，可能做到反对大量的列做字典编码的同时须要保障外部 Part 的 Merge 速度，另外就是面对高基数列时须要一个 Fall back 计划，让高基数列时不再做字典编码，改用原始列存储。原作者在做字典编码技术分享时也提到了针对高基数列时 Fall back 到原始列的构想，但社区版本中目前没有付诸实现。解决方案首先来看针对 LowCardinality 列 Part Merge 的优化计划。这里先介绍下 ClickHouse 的 Part Merge 过程。ClickHouse 的数据组织是以 Part 模式存在的，每个 Part 对应磁盘的一个数据目录，每次写入都会生成一个 Part，Part 目录下蕴含各个列的数据文件。因而每次写入的时候最好是大批量的写入，能力有较好的写入吞吐。 ...

关于clickhouse:clickhousemysql数据同步

clickhouse版本：22.1.2.2 1.Mysql引擎（不举荐）CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster]ENGINE = MySQL('host:port', ['database' | database], 'user', 'password')引擎参数 host:port — MySQL服务地址database — MySQL数据库名称user — MySQL用户名password — MySQL用户明码这个引擎十分不举荐应用，MySQL引擎将近程的MySQL服务器中的表映射到ClickHouse中，MySQL数据库引擎会将对其的查问转换为MySQL语法并发送到MySQL服务器中（吐槽：这跟间接用mysql有什么区别，无语） 2.MaterializedMySQL（不举荐）这个引擎创立ClickHouse数据库，蕴含MySQL中所有的表，以及这些表中的所有数据。ClickHouse服务器作为MySQL正本工作。它读取binlog并执行DDL和DML查问。 CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster]ENGINE = MaterializeMySQL('host:port', ['database' | database], 'user', 'password') [SETTINGS ...]引擎参数 host:port — MySQL服务地址database — MySQL数据库名称user — MySQL用户名password — MySQL用户明码引擎配置 max_rows_in_buffer — 容许数据缓存到内存中的最大行数(对于单个表和无奈查问的缓存数据)。当超过行数时，数据将被物化。默认值: 65505。max_bytes_in_buffer — 容许在内存中缓存数据的最大字节数(对于单个表和无奈查问的缓存数据)。当超过行数时，数据将被物化。默认值: 1048576.max_rows_in_buffers — 容许数据缓存到内存中的最大行数(对于数据库和无奈查问的缓存数据)。当超过行数时，数据将被物化。默认值: 65505.max_bytes_in_buffers — 容许在内存中缓存数据的最大字节数(对于数据库和无奈查问的缓存数据)。当超过行数时，数据将被物化。默认值: 1048576.max_flush_data_time — 容许数据在内存中缓存的最大毫秒数(对于数据库和无奈查问的缓存数据)。当超过这个工夫时，数据将被物化。默认值: 1000.max_wait_time_when_mysql_unavailable — 当MySQL不可用时重试距离(毫秒)。负值禁止重试。默认值: 1000.allows_query_when_mysql_lost — 当mysql失落时，容许查问物化表。默认值: 0 (false).eg： ...

关于clickhouse:clickhousedocker安装

1.docker装置命令docker run --rm -d --name=ch-server \--ulimit nofile=262144:262144 \-p 8123:8123 -p 9009:9009 -p 9090:9000 \yandex/clickhouse-server:22.1.2.2留神：1.肯定要把clickhouse的理论存储目录挂载进去(不是data目录，理论存储的是store)，不然会很大的，导致前面docker磁盘不够用的 2.挂载的存储目录要有权限，我这里间接简略的运行命令 chmod -R 777 /data/docker/store 3.如果clickhouse 起不来能够应用docker logs <CONTAINER ID>查看问题 2.设置明码进入docker批改users.xml中password，无需重启即可失效 3.连贯docker自己应用DataGrip和dbeaver 作为clickhouse的连贯工具默认账户default 明码为空 4.挂载目录如果要把配置文件和日志文件目录挂载进去，要先装置一次docker，应用最简略的命令装置一次，把配置文件复制一下，再把原来的容器删除 docker run --rm -d --name=ch-server \--ulimit nofile=262144:262144 \-p 8123:8123 -p 9009:9009 -p 9090:9000 \yandex/clickhouse-server:22.1.2.2复制配置文件到指定目录 docker cp clickhouse-server:/etc/clickhouse-server/config.xml /data/clickhouse/conf/config.xmldocker cp clickhouse-server:/etc/clickhouse-server/users.xml /data/clickhouse/conf/users.xml启动命令 docker run -d --name=clickhouse-server \-p 8123:8123 -p 9009:9009 -p 9090:9000 \--ulimit nofile=262144:262144 \-v /data/clickhouse/conf/config.xml:/etc/clickhouse-server/config.xml \-v /data/clickhouse/conf/users.xml:/etc/clickhouse-server/users.xml \-v /data/clickhouse/log:/var/log/clickhouse-server \-v /data/docker/store:/var/lib/clickhouse/store \yandex/clickhouse-server:22.1.2.2

关于clickhouse:极客星球｜Clickhouse在数据智能公司的应用与实践

前言：Clickhouse数据库作为OLAP畛域内的一匹黑马，目前在泛滥大厂曾经宽泛的被应用。MobTech在2020年开始尝试应用Clickhouse，并且具备肯定的数据规模，目前线上Clickhouse集群数据规模为100亿左右。一、Clickhouse是什么？Clickhouse(https://Clickhouse.tech/)是俄罗斯最大的搜索引擎厂商Yandex开发的一款OLAP数据库，是一款面向列式存储的近实时数据库系统。它的特点就是快，实用场景如下：1.数据量比拟大，亿级别以上；2.数据不须要更新；3.没有事务要求；4.查问并发要求不高。 Clickhouse为什么这么快？次要是以下两个起因：1.对于OLAP数据库，每次查问并不需要拜访所有的列。应用列存储可能极大缩小IO，晋升数据查问速度。另外应用列式存储也便于进行压缩，缩小数据体积；2.Clickhouse 执行引擎应用CPU向量执行模型，可能极大进步计算速度。二、Clickhouse与其余OLAP零碎的优劣势比照？目前在OLAP畛域内应用比拟多的零碎次要有：Presto、Druid、Kylin、Doris和Clickhouse等其余。整个OLAP零碎次要分为两大类型：预聚合和实时聚合，这两种类型都有各自的优缺点。预聚合数据库特点：1.查问速度比拟快，因为曾经预聚合局部数据，整体的数据集会绝对缩小；2.数据通过预聚合会导致明细数据失落，这也是一大问题；3.数据须要事后聚合，查问灵活性比拟低，也会导致维度收缩整体数据量偏大。实时聚合数据库特点：1.存储所有明细数据，查问响应工夫会略微偏大；2.不须要预聚合，查问灵便度比拟高。上述数据库Druid，Kylin属于预聚合类型，而Presto，Doris，Clickhouse属于实时聚合类型。MobTech支流应用的OLAP零碎为Presto，上面介绍下Presto的特点： Presto是一个计算和存储拆散的OLAP零碎，反对规范SQL查问，齐全基于内存运行，动静编译执行打算。Presto查问引擎是主从架构，由一个协调节点，一个发现节点，多个工作节点组成。通常状况下，发现节点和协调节点运行在同一个过程内，协调节点负责SQL解析，生成执行打算，散发工作到工作节点，工作节点负责理论的查问工作执行。 MobTech在应用Presto过程中存在不少问题，如：1.无法控制资源使用量，导致不同业务线之间资源抢占比较严重；2.查问速度比较慢；3.Presto是纯内存计算，对资源耗费比拟大。三、Clickhouse外围之MergeTree表引擎MergeTree系列表引擎，是Clickhouse最外围的表引擎。存储的数据程序按主键排序，能够应用数据分区，反对数据正本个性和数据抽样。官网提供了包含MergeTree、ReplacingMergeTree、SummingMergeTree、AggregatingMergeTree、CollapsingMergeTree、VersionCollapsingMergeTree、GraphiteMergeTree等7种引擎。以下为每种表引擎的简略介绍： ReplacingMergeTree：该引擎会在后盾数据合并时移除具备雷同排序键的记录；SummingMergeTree：在合并数据时，会把具备雷同主键的记录合并为一条记录。并依据主键进行数据聚合；3.AggregatingMergeTree：在合并数据时，把具备雷同主键的记录依据指定的聚合函数进行聚合；4.CollapsingMergeTree：在合并数据时，把具备雷同主键的记录进行折叠。折叠规定依据设定的sign字段，该字段值为1时保留，-1时删除；5.VersionCollapsingMergeTree: 在合并数据时，把具备雷同主键的记录合并，合并规定是依据指定的version字段。这些表引擎在解决数据聚合和合并时，都只在同一个分区内。在应用MergeTree表引擎有一点须要留神，Clickhouse的主键并不惟一，意味着数据可能反复。另外MergeTree表引擎数据分区，每个分区都是一个独自的物理文件目录。在查问时指定分区，要比不指定分区查问快数倍。 ReplicatedMergeTree表引擎能够设定数据正本存储。在线上应用时，咱们是要求必须应用 ReplicatedMergeTree引擎，避免单点问题。四、Clickhouse在MobTech的利用与实际业务需要场景：每天大数据会离线跑出一批数据，每天数据量最多达到2亿，业务须要可能实时查问这些数据明细，并进行相干数据统计，每天新导入的数据是一个新的分区。因为大数据工作会呈现提早的状况，在这样的状况下须要可能查问前一天的数据。针对这样的状况，咱们在每次查问数据前会查出该表最新的分区，而后在具体查问SQL中指定最新分区进行查问。最开始咱们抉择了Elasticsearch作为存储系统，因为大数据工作在导入数据时会导致Elasticsearch大量磁盘读写，甚至导致Elasticsearch宕机状况呈现。在这样的状况下，咱们急须要一种新的数据库来撑持业务。在理解到Clickhouse的个性和综合业务相干状况，咱们最终抉择了Clickhouse。通过比照各种表引擎后，抉择了ReplicatedMergeTree引擎，将罕用的查问字段作为主键索引。另外因为业务须要每天还会有大量的在线数据入库，应用Kafka表引擎接管在线实时数据。通过物化视图的形式，将Kafka表数据写入到指标表。Clickhouse既可能撑持离线数据的导入，也反对实时数据写入，并且具备良好的查问性能。实际总结：目前线上Clickhouse单表最大记录数为20亿左右，只应用了2台8核16G的机器就实现了TP99 1s内查问响应。目前线上应用的是单分片加数据正本的模式，可能充分利用Clickhouse单机弱小的能力，又能保障线上数据安全。Clickhouse也有一些毛病，比方：数据更新比拟麻烦，大规模集群没有较好的管理工具等问题存在。总的来说，Clickhouse可能以较低的老本实现大量数据查问和剖析需要，并且保持稳定。

关于clickhouse:ClickHouse集群数据均衡方案分享

导语ClickHouse集群数据在写入时，尽管能够通过Distributed引擎的sharding_key指定策略，从而保障肯定水平的数据平衡，但这并不是最终解决方案。比方rand()平衡策略尽管能够保证数据的绝对平衡，然而可能会毁坏数据的外在业务逻辑。举个简略的例子，咱们想要将kafka的数据写入clickhouse集群，如果采纳rand()的策略，则可能将同一个partition的数据拆分到clickhouse集群不同的shard中，为后续的数据分析等造成了肯定的麻烦。尽管有相似clickhouse-sinker之类的数据导入工具，能够做到数据导入时的平衡，然而一旦集群扩大了节点，依然无奈将存量数据平衡到新减少的节点中去。这样就造成了存量节点的数据依然很多，新增节点的数据绝对较少，并不能起到很好的负载平衡的作用。数据平衡计划探讨咱们在探讨数据平衡计划的时候，首先须要明确两个前提：针对clickhouse集群，而不是单点针对MergeTree家族的引擎数据（其余引擎的数据表因为无奈通过分布式表去读写，因而也不具备数据平衡的意义）咱们晓得，clickhouse存储数据是完完全全的列式存储，这也就意味着，在同一个partition下，数据很难再一条条的进行拆分（尽管能够做到，但比拟麻烦）。因而，数据平衡最迷信的计划是以partition为单位，整个partition进行搬迁。这也就意味着，分区的粒度越小，最终的数据越靠近平衡。另一个咱们要思考的问题就是，如果其中某一个分区咱们始终在写入数据，咱们是无奈获取该分区的理论大小的（因为始终在变动）。那么，如果该分区数据也参数数据平衡的话，可能参加平衡的partition并不是一个残缺的分区，就会导致分区数据被拆散，从而造成不可预知的问题。所以，咱们心愿最新的一个分区，不参加数据平衡的运算。如何能获取到最新的分区呢？其实能够通过SQL查问到： SELECT argMax(partition, modification_time) FROM system.parts WHERE database='?' AND table='?'以上SQL查问进去的，就是指定的数据库表最新的分区。将这个分区排除在外，那么剩下的分区就是都能够参加数据平衡的分区了。另一个外围问题是，如何将partition数据在不同节点之间进行挪动？咱们很容易想到 attach 和detach，但attach和detach的前提是，咱们必须要设置配置文件中以后操作用户allow_drop_detached标记为1。对于带正本的集群，咱们总能通过zookeeper的门路十分不便地将分区数据在不同节点间fetch过去。 -- 在指标节点执行 ALTER TABLE {{.tbname}} FETCH PARTITION '{{.partition}}' FROM '{{.zoopath}}' ALTER TABLE {{.tbname}} ATTACH PARTITION '{{.partition}}' -- 在原始节点执行 ALTER TABLE {{.tbname}} DROP PARTITION '{{.partition}}'然而对于非正本模式的集群则没那么简略了。因为咱们无奈晓得zoopath，所以不能通过fetch的形式获取到数据，因而，只能应用物理的形式将数据进行传输（比方scp, rsync等）到指定节点上。思考到传输效率，这里咱们应用rsync的形式。 -- 原始节点执行ALTER TABLE {{.tbname}} DETACH PARTITION '{{.partition}}'# 原始节点执行rsync -e "ssh -o StrictHostKeyChecking=false" -avp /{{.datapath}}/clickhouse/data/{{.database}}/{{.table}}/detached dstHost:/{{.datapath}}/clickhouse/data/{{.database}}/{{.table}}/detachedrm -fr /{{.datapath}}/clickhouse/data/{{.database}}/{{.table}}/detached-- 指标节点执行ALTER TABLE {{.tbname}} ATTACH PARTITION '{{.partition}}'-- 原始节点执行ALTER TABLE {{.tbname}} DROP DETACHED PARTITION '{{.partition}}'然而，通过rsync的形式须要有前提，那就是首先必须在各个节点上曾经装置过rsync工具了，如果没有装置，可通过上面的命令装置： ...

关于clickhouse:ClickHouse用户资源隔离在-GrowingIO-的实践

业务场景对 ClickHouse 做多租户，是一个十分必要的场景。如果不加限度，用户可能会适度耗费数据库服务的资源，影响其余用户应用。本文尝试在硬件级别的隔离之外，给大家展现另外一种绝对便宜的办法。本文先形容 ClickHouse 提供哪些资源限度的机制，再形容 GrowingIO 的实际。因为用户资源应用限度是用户治理的一种，本文也会退出用户治理的内容。 Hello World个别通过 systemd 托管 ClickHouse，应用工具渲染模板得出配置文件，因为咱们的目标只是演示，所以简化了相干步骤和配置。在 /etc/clickhouse目录创立 2 个文件： ── conf ├── config.xml └── users.xml而后在任意目录运行： clickhouse server --config=/etc/clickhouse/conf/config.xml就让 ClickHouse 依照配置文件运行，同时 ClickHouse 监听配置文件，如有变动，不须要重启就能按新的配置运行。 The server tracks changes in config files... and reloads the settings for users and clusters on the fly (https://clickhouse.com/docs/e...)这是简洁版的 config.xml 的配置 demo： <?xml version="1.0"?><yandex> <logger> <level>trace</level> <log>/tmp/log/clickhouse-server.log</log> <errorlog>/tmp/log/clickhouse-server.err.log</errorlog> <size>1000M</size> <count>10</count> </logger> <query_log> <database>system</database> <table>query_log</table> <partition_by>toYYYYMM(event_date)</partition_by> <flush_interval_milliseconds>1000</flush_interval_milliseconds> </query_log> <tcp_port>9000</tcp_port> <listen_host>127.0.0.1</listen_host> <access_control_path>/tmp/ledzeppelin/</access_control_path> <max_concurrent_queries>500</max_concurrent_queries> <mark_cache_size>5368709120</mark_cache_size> <path>./clickhouse/</path> <users_config>users.xml</users_config></yandex>留神到 <users_config>users.xml</users_config> 绑定了 config.xml 当前目录的 users.xml ...

关于clickhouse:ClickHouse连接IPv6

概述IPv6是Internet Protocol Version 6的缩写，是代替IPv4的下一代协定。因为IPv4所能表白的网络地址资源无限，随着网络的全世界遍及，曾经越来越不够用，因而，IPv6的推广势在必行。尤其是政府银行机构，更是将IPv6的反对作为推广亮点，呈现在手机App的首页。 ClickHouse 作为支流的OLAP列式存储数据库，在大数据的利用中越来越失去用户的青眼和认可，那么对IPv6的反对也是牵强附会的事件。本文次要解说ClickHouse如何通过IPv6进行连贯。前置工作如何查看服务器是否反对ipv6随着IPv6的遍及以及政府对IPv6的反对力度加大，当初大部分设施都曾经反对IPv6。能够通过ifconfig命令查看：如上图所示，如果有inet6这一项，则示意以后机器反对ipv6。如果是Linux服务器，也能够通过查看目录下是否有/proc/net/if_inet6文件，来判断是否反对IPv6。如何配置使ClickHouse反对ipv6连贯在应用IPv6地址连贯ClickHouse之前，须要在ClickHouse的服务器中做一些配置，次要是配置listen_host选项。官网阐明如下：      <!-- <listen_host>::1</listen_host> <listen_host>127.0.0.1</listen_host>总结起来就是，默认配置的::1只反对本机连贯，如果要放开近程连贯，则要应用::或者0.0.0.0。其中::同时反对IPv6和IPv4连贯，而0.0.0.0只反对IPv4连贯。因而，这里须要将listen_host配置成::。有人说，既然::同时反对IPv6和IPv4连贯，那间接配置成::不就完了，为什么还要有配置成0.0.0.0这种形式呢？ ...

关于clickhouse:ClickHouse学习一

0、数据拜访的场景须要思考的点不同的数据存储形式实用不同的业务场景，数据拜访的场景包含：进行了何种查问、多久查问一次以及各类查问的比例；每种类型的查问(行、列和字节)读取多少数据；读取数据和更新之间的关系；应用的数据集大小以及如何应用本地的数据集；是否应用事务,以及它们是如何进行隔离的；数据的复制机制与数据的完整性要求；每种类型的查问要求的提早与吞吐量等等。 1、什么是ClickHouse1)ck定义ClickHouse是一个用于联机剖析(OLAP)的列式数据库管理系统(DBMS)。来自不同列的值被独自存储，来自同一列的数据被存储在一起。 2)、OLAP（联机剖析）场景的要害特色绝大多数是读申请数据以相当大的批次(> 1000行)更新，而不是单行更新;或者基本没有更新。已增加到数据库的数据不能批改。对于读取，从数据库中提取相当多的行，但只提取列的一小部分。宽表，即每个表蕴含着大量的列查问绝对较少(通常每台服务器每秒查问数百次或更少)对于简略查问，容许提早大概50毫秒列中的数据绝对较小：数字和短字符串(例如，每个URL 60个字节)解决单个查问时须要高吞吐量(每台服务器每秒可达数十亿行)事务不是必须的对数据一致性要求低每个查问有一个大表。除了他以外，其余的都很小。查问后果显著小于源数据。换句话说，数据通过过滤或聚合，因而后果适宜于单个服务器的RAM中很容易能够看出，OLAP场景与其余通常业务场景(例如,OLTP或K/V)有很大的不同，因而想要应用OLTP或Key-Value数据库去高效的解决剖析查问场景，并不是十分完满的实用计划。例如，应用OLAP数据库去解决剖析申请通常要优于应用MongoDB或Redis去解决剖析申请。 2、ClickHouse的个性1）长处真正的列式数据库管理系统。ClickHouse不单单是一个数据库，它是一个数据库管理系统，因为它容许在运行时创立表和数据库、加载数据和运行查问，而无需重新配置或重启服务数据压缩除了在磁盘空间和CPU耗费之间进行不同衡量的高效通用压缩编解码器之外，ClickHouse还提供针对特定类型数据的专用编解码器，这使得ClickHouse可能与更小的数据库(如工夫序列数据库)竞争并超过它们。多外围并行处理多服务器分布式解决反对SQLClickHouse反对一种基于SQL的申明式查询语言，它在许多状况下与ANSI SQL规范雷同。反对的查问GROUP BY, ORDER BY, FROM, JOIN, IN以及非相干子查问。向量引擎实时的数据更新索引适宜在线查问反对近似计算Adaptive Join Algorithm ，反对join多个表反对数据复制和数据完整性角色的访问控制2）毛病没有残缺的事务反对。短少高频率，低提早的批改或删除已存在数据的能力。仅能用于批量删除或批改数据，但这合乎 GDPR。稠密索引使得ClickHouse不适宜通过其键检索单行的点查问。3、拜访接口ck像es一样裸露两个端口，一个tcp的，一个http的。tcp默认端口：9000 ,http默认端口：8123。个别咱们并不间接通过这些端口与ck交互，而是应用一些客户端，这些客户端能够是： Command-line Client 通过它能够链接ck,而后进行根本的crud操作，还能够导入数据到ck 。它应用tcp端口链接ckhttp interface : 能像es一样，通过rest形式，依照ck本人的语法，提交crudjdbc driverodbc driver 4、输出、输入格局1)定义ClickHouse能够承受和返回各种格局的数据。受反对的输出格局可用于提交给INSERT语句、从文件表(File,URL,HDFS或者内部目录)执行SELECT语句，受反对的输入格局可用于格式化SELECT语句的返回后果，或者通过INSERT写入到文件表。反对的格局参考：https://clickhouse.com/docs/z... 2)例子比方插入数据时，指定数据源的格局为JSONEachRow INSERT INTO UserActivity FORMAT JSONEachRow {"PageViews":5, "UserID":"4324182021466249494", "Duration":146,"Sign":-1} {"UserID":"4324182021466249494","PageViews":6,"Duration":185,"Sign":1}读取数据时，指定格局为JSONEachRow SELECT * FROM UserActivity FORMAT JSONEachRow值得注意的时指定这些格局应该是ck解析或生成的格局，并不是ck最终的的存储格局，ck应该还是按本人的列式格局进行存储。参考：1）https://clickhouse.com/docs/zh/2）https://segmentfault.com/a/11...3）https://blog.csdn.net/ruizhan...

关于clickhouse:源码分析-ClickHouse和他的朋友们15Group-By-为什么这么快

本文首发于 2021-01-26 21:31:12 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2021/01/2...以下为注释。在揭秘 ClickHouse Group By 之前，先聊聊数据库的性能比照测试问题。在虎哥看来，一个“讲武德”的性能比照测试应该提供什么信息呢？首先要尊重客观事实，在什么场景下，x 比 y 快？其次是为什么 x 会比 y 快？如果以上两条都做到了，还有一点也比拟重要： x 的劣势能够撑持多久？是架构等带来的长期劣势，还是一袋烟的优化所得，是否能继续跟上本人的灵魂。如果只是贴几个妖艳的数字，算不上是 benchmark，而是 benchmarket。好了，回到 Group By 正题。置信很多同学曾经体验到 ClickHouse Group By 的杰出性能，本篇就来剖析下快的起因。首先刺激一下，ClickHouse 的 Group By 并没有应用高大上的黑科技，只是摸索了一条绝对较优的计划。一条 SQLSELECT sum(number) FROM numbers(10) GROUP BY number % 3咱们就以这条简略的 SQL 作为线索，看看 ClickHouse 怎么实现 Group By 聚合。 1. 生成 ASTEXPLAIN ASTSELECT sum(number)FROM numbers(10)GROUP BY number % 3┌─explain─────────────────────────────────────┐│ SelectWithUnionQuery (children 1) ││ ExpressionList (children 1) ││ SelectQuery (children 3) ││ ExpressionList (children 1) ││ Function sum (children 1) │ // sum 聚合│ ExpressionList (children 1) ││ Identifier number ││ TablesInSelectQuery (children 1) ││ TablesInSelectQueryElement (children 1) ││ TableExpression (children 1) ││ Function numbers (children 1) ││ ExpressionList (children 1) ││ Literal UInt64_10 ││ ExpressionList (children 1) ││ Function modulo (children 1) │ // number % 3 函数│ ExpressionList (children 2) ││ Identifier number ││ Literal UInt64_3 │└─────────────────────────────────────────────┘2. 生成 Query PlanEXPLAINSELECT sum(number)FROM numbers(10)GROUP BY number % 3┌─explain───────────────────────────────────────────────────────────────────────┐│ Expression ((Projection + Before ORDER BY)) │ │ Aggregating │ // sum 聚合│ Expression (Before GROUP BY) │ // number % 3│ SettingQuotaAndLimits (Set limits and quota after reading from storage) ││ ReadFromStorage (SystemNumbers) │└───────────────────────────────────────────────────────────────────────────────┘代码次要在 InterpreterSelectQuery::executeImpl@Interpreters/InterpreterSelectQuery.cpp ...

关于clickhouse:源码分析-ClickHouse和他的朋友们14存储计算分离方案与实现

本文首发于 2020-09-21 22:01:12 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/09/1...以下为注释。如果多个 ClickHouse server 能够挂载同一份数据(分布式存储等)，并且每个 server 都可写，这样会有什么益处呢？首先，咱们能够把正本机制交给分布式存储来保障，下层架构变得简略奢侈；其次，clickhouse-server 能够在任意机器上减少、缩小，使存储和计算能力失去充分发挥。本文就来探讨一下 ClickHouse 的存储计算拆散计划，实现上并不简单。 1. 问题ClickHouse 运行时数据由两局部组成：内存元数据和磁盘数据。咱们先看写流程： w1. 开始写入数据w2. 生成内存part信息，并保护part metadata列表w3. 把part数据写到磁盘再来看读流程： r1. 从part metadata定位须要读取的partr2. 从磁盘读取part数据r3. 返回给下层数据这样，如果 server1 写了一条数据，只会更新本人内存的 part metadata，其余 server 是感知不到的，这样也就无奈查问到刚写入的数据。存储计算拆散，首先要解决的就是内存状态数据的同步问题。在 ClickHouse 里，咱们须要解决的是内存中 part metadata 同步问题。 2. 内存数据同步在上篇 <ReplicatedMergeTree表引擎及同步机制> 中，咱们晓得正本间的数据同步机制：首先同步元数据，再通过元数据获取相应part数据。这里，咱们借用 ReplicatedMergeTree 同步通道，而后再做减法，同步完元数据后跳过 part 数据的同步，因为磁盘数据只需一个 server 做更新(须要 fsync 语义)即可。外围代码：MergeTreeData::renameTempPartAndReplace if (!share_storage) part->renameTo(part_name, true);3. 演示demodemo视频 script：首先起 2 个 clickhouse-server，它们都挂载同一份数据 <path>/home/bohu/work/cluster/d1/datas/</path>通过 clickhouse-server1(port 9101) 写入一条记录:(111, 3333)通过 clickhouse-server2(port 9102) 进行查问失常通过 clickhouse-server2(port 9102) truncate 表通过 clickhouse-server1(port 9101) 查问失常4. 代码实现原型 ...

关于clickhouse:源码分析-ClickHouse和他的朋友们13ReplicatedMergeTree表引擎及同步机制

本文首发于 2020-09-15 20:15:14 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/09/1...以下为注释。在 MySQL 里，为了保障高可用以及数据安全性会采取主从模式，数据通过 binlog 来进行同步。在 ClickHouse 里，咱们能够应用 ReplicatedMergeTree 引擎，数据同步通过 zookeeper 实现。本文先从搭建一个多 replica 集群开始，而后一窥底层的机制，简略吃两口。 1. 集群搭建搭建一个 2 replica 测试集群，因为条件无限，这里在同一台物理机上起 clickhouse-server(2个 replica) + zookeeper(1个)，为了防止端口抵触，两个 replica 端口会有所不同。 1.1 zookeeperdocker run -p 2181:2181 --name some-zookeeper --restart always -d zookeeper1.2 replica集群replica-1 config.xml: <zookeeper> <node index="1"> <host>172.17.0.2</host> <port>2181</port> </node></zookeeper><remote_servers> <mycluster_1> <shard_1> <internal_replication>true</internal_replication> <replica> <host>s1</host> <port>9000</port> </replica> <replica> <host>s2</host> <port>9001</port> </replica> </shard_1> </mycluster_1></remote_servers><macros> <cluster>mycluster_1</cluster> <shard>1</shard> <replica>s1</replica></macros><tcp_port>9101</tcp_port><interserver_http_port>9009</interserver_http_port><path>/cluster/d1/datas/</path>replica-2 config.xml: <zookeeper> <node index="1"> <host>172.17.0.2</host> <port>2181</port> </node></zookeeper><remote_servers> <mycluster_1> <shard_1> <internal_replication>true</internal_replication> <replica> <host>s1</host> <port>9000</port> </replica> <replica> <host>s2</host> <port>9001</port> </replica> </shard_1> </mycluster_1></remote_servers><macros> <cluster>mycluster_1</cluster> <shard>1</shard> <replica>s2</replica></macros><tcp_port>9102</tcp_port><interserver_http_port>9010</interserver_http_port><path>/cluster/d2/datas/</path>1.3 创立测试表CREATE TABLE default.rtest1 ON CLUSTER 'mycluster_1'( `id` Int64, `p` Int16)ENGINE = ReplicatedMergeTree('/clickhouse/tables/replicated/test', '{replica}')PARTITION BY pORDER BY id1.4 查看 zookeeperdocker exec -it some-zookeeper bash./bin/zkCli.sh[zk: localhost:2181(CONNECTED) 17] ls /clickhouse/tables/replicated/test/replicas[s1, s2]两个 replica 都曾经注册到 zookeeper。 ...

关于clickhouse:源码分析-ClickHouse和他的朋友们12神奇的物化视图Materialized-View与原理

本文首发于 2020-09-03 21:22:14 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/08/3...以下为注释。在 ClickHouse 里，物化视图(Materialized View)能够说是一个神奇且弱小的货色，用处标新立异。本文从底层机制进行剖析，看看 ClickHouse 的 Materalized View 是怎么工作的，以不便更好的应用它。什么是物化视图对大部分人来说，物化视图这个概念会比拟形象，物化？视图？。。。为了更好的了解它，咱们先看一个场景。假如你是 *hub 一个“幸福”的小程序员，某天产品经理有个需要：实时统计每小时视频下载量。用户下载明细表： clickhouse> SELECT * FROM download LIMIT 10;+---------------------+--------+--------+| when | userid | bytes |+---------------------+--------+--------+| 2020-08-31 18:22:06 | 19 | 530314 || 2020-08-31 18:22:06 | 19 | 872957 || 2020-08-31 18:22:06 | 19 | 107047 || 2020-08-31 18:22:07 | 19 | 214876 || 2020-08-31 18:22:07 | 19 | 820943 || 2020-08-31 18:22:07 | 19 | 693959 || 2020-08-31 18:22:08 | 19 | 882151 || 2020-08-31 18:22:08 | 19 | 644223 || 2020-08-31 18:22:08 | 19 | 199800 || 2020-08-31 18:22:09 | 19 | 511439 |... ....计算每小时下载量： ...

关于clickhouse:源码分析-ClickHouse和他的朋友们11MySQL实时复制之GTID模式

本文首发于 2020-08-28 20:40:14 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/08/2...以下为注释。 MySQL实时复制原理篇几天前 ClickHouse 官网公布了 v20.8.1.4447-testing，这个版本曾经蕴含了 MaterializeMySQL 引擎，实现了 ClickHouse 实时复制 MySQL 数据的能力，感兴趣的敌人能够通过官网安装包来做体验，装置形式参考 https://clickhouse.tech/#quic...，须要留神的是要抉择 testing 分支。基于位点同步MaterializeMySQL 在 v20.8.1.4447-testing 版本是基于 binlog 位点模式进行同步的。每次生产完一批 binlog event，就会记录 event 的位点信息到 .metadata 文件: Version: 1Binlog File: mysql-bin.000002Binlog Position: 328Data Version: 1这样当 ClickHouse 再次启动时，它会把 {‘mysql-bin.000002’, 328} 二元组通过协定告知 MySQL Server，MySQL 从这个位点开始发送数据： s1> ClickHouse 发送 {'mysql-bin.000002', 328} 位点信息给 MySQLs2> MySQL 找到本地 mysql-bin.000002 文件并定位到 328 偏移地位，读取下一个 event 发送给 ClickHouses3> ClickHouse 接管 binlog event 并更新 .metadata位点看起来不错哦，然而有个问题：如果 MySQL Server 是一个集群(比方１主２从)，通过 VIP 对外服务，MaterializeMySQL 的 host 指向的是这个 vip。当集群主从产生切换后，{binlog-name, binlog-position} 二元组其实是不精确的，因为集群里主从 binlog 不肯定是完全一致的(binlog 能够做 reset 操作)。 ...

关于clickhouse:源码分析-ClickHouse和他的朋友们10MergeTree-WriteAhead-Log

本文首发于 2020-08-20 19:55:14 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/08/1...以下为注释。数据库系统为了进步写入性能，会把数据先写到内存，等“攒”到肯定水平后再回写到磁盘，比方 MySQL 的 buffer pool 机制。因为数据先写到内存，为了数据的安全性，咱们须要一个 Write-Ahead Log (WAL) 来保障内存数据的安全性。明天咱们来看看 ClickHouse 新增的 MergeTreeWriteAheadLog 模块，它到底解决了什么问题。高频写问题对于 ClickHouse MergeTree 引擎，每次写入(即便１条数据)都会在磁盘生成一个分区目录(part)，等着 merge 线程合并。如果有多个客户端，每个客户端写入的数据量较少、次数较频繁的状况下，就会引发 DB::Exception: Too many parts 谬误。这样就对客户端有肯定的要求，比方须要做 batch 写入。或者，写入到 Buffer 引擎，定时的刷回 MergeTree，毛病是在宕机时可能会失落数据。 MergeTree WAL1. 默认模式咱们先看看在没有 WAL 状况下，MergeTree 是如何写入的：每次写入 MergeTree 都会间接在磁盘上创立分区目录，并生成分区数据，这种模式其实就是 WAL + 数据的交融。很显然，这种模式不适宜频繁写操作的状况，否则会生成十分多的分区目录和文件，引发 Too many parts 谬误。 2. WAL模式设置SETTINGS: min_rows_for_compact_part=2，别离执行２条写 SQL，数据会先写到 wal.bin 文件：当满足 min_rows_for_compact_part=2 后，merger 线程触发合并操作，生成 1_1_2_1 分区，也就是实现了 wal.bin 里的 1_1_1_0 和 1_2_2_0 两个分区的合并操作。当咱们执行第三条 SQL 写入: ...

关于clickhouse:源码分析-ClickHouse和他的朋友们８纯手工打造的SQL解析器

本文首发于 2020-07-26 21:55:10 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/07/2...以下为注释。现实生活中的物品一旦被标记为“纯手工打造”，给人的第一感觉就是“上乘之品”，一个字“贵”，比方北京老布鞋。然而在计算机世界里，如果有人通知你 ClickHouse 的 SQL 解析器是纯手工打造的，是不是很诧异！这个问题引起了不少网友的关注，所以本篇聊聊 ClickHouse 的纯手工解析器，看看它们的底层工作机制及优缺点。干燥先从一个 SQL 开始： EXPLAIN SELECT a,b FROM t1token首先对 SQL 里的字符一一做判断，而后依据其关联性做 token 宰割：比方间断的 WordChar，那它就是 BareWord，解析函数在 Lexer::nextTokenImpl()，解析调用栈： DB::Lexer::nextTokenImpl() Lexer.cpp:63DB::Lexer::nextToken() Lexer.cpp:52DB::Tokens::operator[](unsigned long) TokenIterator.h:36DB::TokenIterator::get() TokenIterator.h:62DB::TokenIterator::operator->() TokenIterator.h:64DB::tryParseQuery(DB::IParser&, char const*&, char const*, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> >&, bool, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, bool, unsigned long, unsigned long) parseQuery.cpp:224DB::parseQueryAndMovePosition(DB::IParser&, char const*&, char const*, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, bool, unsigned long, unsigned long) parseQuery.cpp:314DB::parseQuery(DB::IParser&, char const*, char const*, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, unsigned long, unsigned long) parseQuery.cpp:332DB::executeQueryImpl(const char *, const char *, DB::Context &, bool, DB::QueryProcessingStage::Enum, bool, DB::ReadBuffer *) executeQuery.cpp:272DB::executeQuery(DB::ReadBuffer&, DB::WriteBuffer&, bool, DB::Context&, std::__1::function<void (std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&)>) executeQuery.cpp:731DB::MySQLHandler::comQuery(DB::ReadBuffer&) MySQLHandler.cpp:313DB::MySQLHandler::run() MySQLHandler.cpp:150asttoken 是最根底的元组，他们之间没有任何关联，只是一堆生冷的词组与符号，所以咱们还需对其进行语法解析，让这些 token 之间建设肯定的关系，达到一个可形容的生机。 ...

关于clickhouse:源码分析-ClickHouse和他的朋友们6MergeTree存储结构

本文首发于 2020-06-30 21:41:12 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/06/2...以下为注释。上篇的存储引擎技术进化与MergeTree 介绍了存储算法的演进。存储引擎是一个数据库的底盘，肯定要稳和能源磅礴。接下来咱们将一起来摸索下 ClickHouse MergeTree 列式存储引擎，解构下这台“跑车”最重要的部件。所有的存储引擎，无论精良与粗制滥造，最终都是要把数据回写到磁盘，来满足存储和索引目标。磁盘文件的结构能够说是算法的物理体现，咱们甚至能够通过这些存储构造反推出其算法实现。所以，要想深刻理解一个存储引擎，最好的动手点是它的磁盘存储构造，而后再反观它的读、写机制就会有一种瓜熟蒂落的感觉。如果这个剖析程序搞反了，会有一种僵硬的感觉，网上大部分教程都是这种“僵硬”式教学，本文将直击灵魂从最底层谈起，彻底搞明确４个问题： MergeTree 有哪些文件？MergeTree 数据如何散布？MergeTree 索引如何组织？MergeTree 如何利用索引减速？话不多说，上表： CREATE TABLE default.mt( `a` Int32, `b` Int32, `c` Int32, INDEX `idx_c` (c) TYPE minmax GRANULARITY 1)ENGINE = MergeTreePARTITION BY a ORDER BY bSETTINGS index_granularity=3造点数据： insert into default.mt(a,b,c) values(1,1,1);insert into default.mt(a,b,c) values(5,2,2),(5,3,3);insert into default.mt(a,b,c) values(3,10,4),(3,9,5),(3,8,6),(3,7,7),(3,6,8),(3,5,9),(3,4,10);磁盘文件ls ckdatas/data/default/mt/1_4_4_0 3_6_6_0 5_5_5_0 detached format_version.txt能够看到，生成了 3 个数据目录，每个目录在 ClickHouse 里称作一个分区(part)，目录名的前缀正是咱们写入时字段 a 的值: 1,3,5，因为表分区是这样定位的：PARTITION BY a。 ...

关于clickhouse:源码分析-ClickHouse和他的朋友们5存储引擎技术进化与MergeTree

本文首发于 2020-06-22 21:55:10 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/06/2... 以下为注释。21 世纪的第二个 10 年，虎哥曾经在存储引擎一线奋战近 10 年，因为弱小的趣味驱动，这么多年来简直不放过 arXiv 上与存储相干的每一篇 paper。尤其是看到带有 draft 的 paper 时，有一种乞丐听到“叮当”响时的愉悦。看paper这玩意就像鉴宝，少数是“赝品”，须要你有“鉴真”的本事，否则明天是张三的算法超过xx，明儿又是王二的硬件晋升了yy，让你永远跟不上节奏zz，湮灭在这些没有养分的技术垃圾中，节约大好青春。言归正传，接下来的3篇，跟 ClickHouse 的 MergeTree 引擎无关：上篇介绍存储引擎的技术演进史，从”远古”的 B-tree 登程推演到目前支流的技术架构。中篇会从存储构造介绍 MergeTree 原理，对 ClickHouse MergeTree 有一个深刻的意识，如何正当设计来进行迷信减速。下篇会从MergeTree代码登程，看看 ClickHouse MergeTree 如何实现读、写。本文为上篇，先来个热身，置信本篇大部分内容对大家来说都比拟生疏，很少人写过。位置存储引擎(事务型)在一个数据库(DBMS)中的位置如何呢？ MySQL 的商业胜利能够说大部分来自于 InnoDB 引擎，Oracle 收买 InnoDB 比 MySQL 早好几年呢！ 20年前，能亲手撸一套 ARIES (Algorithms for Recovery and Isolation Exploiting Semantics) 标准引擎，实力还是相当震撼的，置信 Oracle 收买的不仅是 InnoDB 这个引擎，更重要的是人， InnoDB 作者在哪里，在干什么？！ Fork 进去的 MariaDB 这么多年始终找不到本人的灵魂，在 Server 层磨磨蹭蹭堪称是如日方升，只能到处收买碰碰运气，当年 TokuDB 战斗过的 commit 依在，但这些曾经是历史了。 ...

关于clickhouse:源码分析-ClickHouse和他的朋友们4Pipeline处理器和调度器

本文首发于 2020-06-12 20:57:10 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/06/1... 以下为注释。最初更新: 2020-08-15 本文谈下 ClickHouse 外围科技：处理器 Processor 和有向无环调度器 DAG Scheduler。这些概念并不是 ClickHouse 独创，感兴趣的同学能够关注下 materialize 的 timely-dataflow，虎哥用 golang 也写过一个原型。拼的是实现细节，正是这些模块的精良设计，才有了 ClickHous e整体的高性能。 Pipeline问题在传统数据库系统中，一个 Query 解决流程大体是: 其中在 Plan 阶段，往往会减少一个 Pipeline 组装(一个 transformer 代表一次数据处理)：所有 transformer 被编排成一个流水线(pipeline)，而后交给 executor 串行式执行，每执行一个 transformer 数据集就会被加工并输入，始终到上游的 sinker。能够看到，这种模型的长处是简略，毛病是性能低，无奈施展 CPU 的并行能力，通常叫火山模型(volcano-style)，对于 OLTP 低提早来说足够，对于计算密集的 OLAP 来说是远远不够的，CPU 不到 100% 就是立功！对于下面的例子，如果 transformer1 和 transformer2 没有交加，那么它们就能够并行处理：这样就波及到一些比拟灵魂的问题：如何实现 transformer 的灵便编排？如何实现 transformer 间的数据同步？如何实现 transformer 间的并行调度？Processor 和 DAG Scheduler1. Transformer 编排ClickHouse 实现了一系列根底 transformer 模块，见 src/Processors/Transforms，比方: ...

关于clickhouse:源码分析-ClickHouse和他的朋友们3MySQL-Protocol和Write调用栈

本文首发于 2020-06-08 19:57:10 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/06/0...以下为注释。上篇的MySQL Protocol和Read调用里介绍了 ClickHouse 一条查问语句的调用栈，本文持续介绍写的调用栈，开整。 Write申请建表: mysql> CREATE TABLE test(a UInt8, b UInt8, c UInt8) ENGINE=MergeTree() PARTITION BY (a, b) ORDER BY c;Query OK, 0 rows affected (0.03 sec)写入数据： INSERT INTO test VALUES(1,1,1), (2,2,2);调用栈剖析1. 获取存储引擎 OutputStreamDB::StorageMergeTree::write(std::__1::shared_ptr<DB::IAST> const&, DB::Context const&) StorageMergeTree.cpp:174DB::PushingToViewsBlockOutputStream::PushingToViewsBlockOutputStream(std::__1::shared_ptr<DB::IStorage> const&, DB::Context const&, std::__1::shared_ptr<DB::IAST> const&, bool) PushingToViewsBlockOutputStream.cpp:110DB::InterpreterInsertQuery::execute() InterpreterInsertQuery.cpp:229DB::executeQueryImpl(const char *, const char *, DB::Context &, bool, DB::QueryProcessingStage::Enum, bool, DB::ReadBuffer *) executeQuery.cpp:364DB::executeQuery(DB::ReadBuffer&, DB::WriteBuffer&, bool, DB::Context&, std::__1::function<void (std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&)>) executeQuery.cpp:696DB::MySQLHandler::comQuery(DB::ReadBuffer&) MySQLHandler.cpp:311DB::MySQLHandler::run() MySQLHandler.cpp:1412. 从 SQL 组装 InputStream(1,1,1), (2,2,2) 如何组装成 inputstream 构造呢？ ...

关于clickhouse:源码分析-ClickHouse和他的朋友们2MySQL-Protocol和Read调用栈

本文首发于 2020-06-07 17:17:10 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/06/0...以下为注释。作为一个 OLAP 的 DBMS 来说，有2个端十分重要：用户如何不便的链进来，这是入口端 ClickHouse 除了本人的 client 外，还提供了 MySQL/PG/GRPC/HTTP 等接入形式数据如何不便的挂上去，这是数据源端 ClickHouse 除了本人的引擎外，还能够挂载 MySQL/Kafka 等内部数据源这样内外互通，多条敌人多条路，以实现“数据”级的编排能力。明天谈的是入口端的 MySQL 协定，也是本系列 ClickHouse 的第一个好敌人，用户可通过 MySQL 客户端或相干 Driver 间接链接到 ClickHouse，进行数据读写等操作。本文通过 MySQL的 Query 申请，借用调用栈来理解下 ClickHouse 的数据读取全过程。如何实现？入口文件在:MySQLHandler.cpp 握手协定MySQLClient 发送 Greeting 数据报文到 MySQLHandlerMySQLHandler 回复一个 Greeting-Response 报文MySQLClient 发送认证报文MySQLHandler 对认证报文进行鉴权，并返回鉴权后果MySQL Protocol 实现在: Core/MySQLProtocol.h 最近的代码中调整为了 Core/MySQL/PacketsProtocolText.hQuery申请当认证通过后，就能够进行失常的数据交互了。当 MySQLClient 发送申请: mysql> SELECT * FROM system.numbers LIMIT 5;MySQLHandler 的调用栈： ->MySQLHandler::comQuery -> executeQuery -> pipeline->execute -> MySQLOutputFormat::consumeMySQLClient 接管到后果在步骤2里，executeQuery(executeQuery.cpp)十分重要。它是所有前端 Server 和 ClickHouse 内核的接入口，第一个参数是 SQL 文本(‘select 1’)，第二个参数是后果集要发送到哪里去(socket net)。 ...

关于clickhouse:源码分析-ClickHouse和他的朋友们1编译开发测试

本文首发于 2020-06-05 19:37:10 《ClickHouse和他的敌人们》系列文章转载自圈内好友 BohuTANG 的博客，原文链接：https://bohutang.me/2020/06/0...以下为注释。一次偶尔的机会，和ClickHouse团队做了一次线下沟通，Alexey提到ClickHouse的设计哲学: The product must solve actual problemAnd do it better than others用工程思维解决商业问题的榜样啊！对用户来说，他们关怀的不是什么天花乱坠、上天入地的高科技，只是须要一个能很好解决本人问题的计划，这在开源社区是十分难得的，靠实力“横蛮式”成长。于是，我对这个散发着伏特加滋味的利器充斥了好奇，并参加到ClickHouse的社区中一探到底，第一感觉是凋谢、敌对、战斗力强(AK47 vs CK16, ClickHouse 2016年开源)。本文先从编译和测试动手，再到如何为社区奉献Patch，心愿对那些想参加CK社区的同学有所帮忙。如何本地编译和测试ClickHouse？源码获取git clone --recursive https://github.com/ClickHouse/ClickHouse编译筹备sudo apt install build-essentialsudo apt-get install software-properties-commonsudo apt-add-repository ppa:ubuntu-toolchain-r/testsudo apt-get updatesudo apt-get install gcc-9 g++-9 git python ninja-buildsudo snap install cmake开始编译cd ClickHousemkdir buildcd buildexport CC=gcc-9export CXX=g++-9cmake ..ninja测试方法ClickHouse的测试在官网development/tests文档里有具体的介绍，这里列举3个罕用的测试模式： 1. Functional Tests功能测试，次要用于ClickHouse外部功能测试，形式：输出一个sql文件，输入一个result，相似MySQL里的mtr，测试汇合 cd tests./clickhouse-test -c "../build/programs/clickhouse-client" 00001_select_12. Integration Tests集成测试，次要用于波及第三方服务的测试，比方MySQL/Postgres/MongoDB等，以容器化形式编排调度(pytest)运行，测试汇合因为波及模块较多，集成测试环境的搭建有肯定的难度，倡议应用官网的docker镜像。比方要跑test_mysql_protocol下的集成测试集： cd tests/integrationdocker pull yandex/clickhouse-integration-tests-runner./runner --binary /your/ClickHouse/build/programs/clickhouse --bridge-binary /your/ClickHouse/build/programs/clickhouse-odbc-bridge --configs-dir /your/ClickHouse/programs/server/ 'test_mysql_protocol/test.py::test_java_client -ss -vv'3. Unit Tests单元测试，次要用于代码模块的测试，测试集在各个模块的tests目录，比方: Core/tests ...

关于clickhouse:ClickHouse可视化DBM-Release-160

DBM 1.6.0 版本公布！感激新的贡献者 why198852 Bugs谬误修复单词谬误修复迁徙数据明码为空问题UI减少查问历史限度揭示禁止点击遮罩层敞开对话框弹出框Enhancement反对增加列到表反对删除列反对批改栏目反对重命名列反对列预览数据下载地址1.6.0

关于clickhouse:我用MRSClickHouse构建的用户画像系统让老板拍手称赞

摘要：在挪动互联网时代，用户数量宏大，标签数量泛滥，用户标签的数据量微小。用户画像零碎中，对于标签的存储和查问，不同的企业有不同的实现计划。以后支流的实现计划采纳ElasticSearch计划。但基于ElasticSearch构建用户画像平台，往往面临灵活性有余、资源开销大、无SQL接口开发不便等问题。为此，本文提供了一种基于华为MRS ClickHouse构建用户画像零碎的办法。本文分享自华为云社区《基于MRS-ClickHouse构建用户画像零碎计划介绍》，作者：hourongqi 。 1. 业务场景用户画像是对用户信息的标签化。用户画像零碎通过对收集的各维度数据，进行深度的剖析和开掘，给不同的用户打上不同的标签，从而刻画出客户的全貌。通过用户画像零碎，能够对各个用户进行精准定位，从而将其利用于个性化举荐、精准营销等业务场景中。用户画像零碎曾经被各个企业宽泛采纳，是大数据落地的重要形式之一。在挪动互联网时代，用户数量宏大，标签数量泛滥，用户标签的数据量微小。用户画像零碎中，对于标签的存储和查问，不同的企业有不同的实现计划。以后支流的实现计划采纳ElasticSearch计划。但基于ElasticSearch构建用户画像平台，往往面临灵活性有余、资源开销大、无SQL接口开发不便等问题。为此，本文提供了一种基于华为MRS ClickHouse构建用户画像零碎的办法。 2. 为什么基于MRS-ClickHouse构建标签查问零碎2.1 MRS-ClickHouse简介MRS-ClickHouse是一款面向联机剖析解决的列式数据库。其最外围的特点是极致压缩率和极速查问性能。MRS-ClickHouse反对SQL查问，且查问性能好，特地是基于大宽表的聚合剖析查问性能十分优异，比其余剖析型数据库速度快一个数量级。 ClickHouse有如下特点： • 齐备的DBMS性能ClickHouse领有齐备的数据库治理性能，具备一个DBMS根本的性能，包含DDL、DML、权限管制、数据备份与复原、分布式治理。• 列式存储与数据压缩ClickHouse是一款应用列式存储的数据库，数据按列进行组织，属于同一列的数据会被保留在一起，列与列之间也会由不同的文件别离保留。在执行数据查问时，列式存储能够缩小数据扫描范畴和数据传输时的大小，进步了数据查问的效率。• 向量化执行引擎ClickHouse利用CPU的SIMD指令实现了向量化执行。SIMD的全称是Single Instruction Multiple Data，即用单条指令操作多条数据，通过数据并行以进步性能的一种实现形式，它的原理是在CPU寄存器层面实现数据的并行操作。• 关系模型与SQL查问ClickHouse齐全应用SQL作为查询语言，提供了标准协议的SQL查问接口，使得现有的第三方剖析可视化零碎能够轻松与它集成对接。同时ClickHouse应用了关系模型，所以将构建在传统关系型数据库或数据仓库之上的零碎迁徙到ClickHouse的老本会变得更低。• 数据分片与分布式查问ClickHouse集群由1到多个分片组成，而每个分片则对应了ClickHouse的1个服务节点。分片的数量下限取决于节点数量（1个分片只能对应1个服务节点）。ClickHouse提供了本地表（Local Table）与分布式表（Distributed Table）的概念。一张本地表等同于一份数据的分片。而分布式表自身不存储任何数据，它是本地表的拜访代理，其作用相似分库中间件。借助分布式表，可能代理拜访多个数据分片，从而实现分布式查问。 2.2 位图索引介绍位图是一种通过数组下标与某些特定的值进行关联的数据结构。在位图中，每一个元素占用1个比特位。比特位为1时，示意对应的元素有该特定的值。反之则示意没有。举例： ID汇合：[0,1,4,5,6,7,9,10,13,14]通过位图能够示意为：11001111 01100110 如下图所示：位图索引是一种应用位图的非凡索引，次要针对大量雷同值的列而创立。位图中地位编码中的每一位示意对应的数据行的有无。位图索引适宜固定值的列，如性别、婚姻状况、行政区等等。而不适宜像身份证号、生产金额这种离散值的列。用户画像场景中，每一个标签，对应大量的人群。标签的数量是无限的枚举值，这一特点非常适合位图索引。举例：假如有两个标签，一个是标签1-持有贵金属，另一个是标签2-持有保险。各个持卡人领有的标签状况如下表所示。从中，咱们能够看到，有标签1-持有贵金属的持卡人ID汇合是：[0，1，4，5，6，7，9，10，13，14]。有标签2-持有保险的持卡人ID集群是：[2，3，5，7，8，11，12，13，15]。当咱们须要查问同时有这个标签的用户时，基于位图索引，只须要将两个标签相应的位图进行位运算，即可失去最终后果。这样，标签数据的存储空间占用十分小，标签计算的速度十分快。 2.3 MRS-ClickHouse原生反对位图索引在ClickHouse呈现之前，如果要将位图索引利用于用户画像场景，须要本人构建位图数据结构、治理位图索引，应用门槛较高。好消息是，MRS-ClickHouse原生提供了对位图数据结构和地位索引的反对，将位图的构建及保护封装在ClickHouse外部。使用者基于ClickHouse构建位图索引变成十分的简略。 ClickHouse位图构造函数： ClickHouse地位操作函数： ClickHouse位图运算后果获取函数：综上，为什么是抉择基于ClickHouse构建标签查问零碎？ ClickHouse查问速度快，最快可达亚秒级响应；ClickHouse内置位图数据结构，不便构建位图索引，晋升标签查问性能；基于JDBC/SQL接口，开发更简略；基于MPP架构，可横向扩大；3. 如何基于MRS-ClickHouse构建标签查问零碎在ClickHouse中创立一张原始标签表，将原始标签数据导入其中。而后基于标签原始表构建标签位图表，并创立对应的分布式表。下层标签查问利用基于标签位图表(分布式表)进行标签查问。流程如下图所示：具体过程如下文所述。 Step 1：创立标签原始表，导入标签原始数据首先，创立一张标签原始表，保留标签原始数据。上游零碎计算出的标签后果数据，写入本表中。本表为本地表。其建表语句如下： CREATE TABLE IF NOT EXISTS tbl_tag_src ON CLUSTER default_cluster( tagname String, --标签名称 tagvalue String, --标签值 userid UInt64 )ENGINE = ReplicatedMergeTree('/clickhouse/default/tables/{shard}/tbl_tag_src ','{replica}')PARTITION BY tagnameORDER BY tagvalue;而后创立分布式表： ...

关于clickhouse:ClickHouse可视化工具DBM

ClickHouse可视化工具DBMGitHub地址 GitHub DBM是ClickHouse可视化数据工具。它基于ClickHouse原生Http申请构建,反对大量ClickHouse工作,次要反对以下性能点: 反对仪表盘展现服务应用状态反对自定义查问反对查问历史反对Quick Query反对数据库治理反对数据表治理反对磁盘占用状况(服务,数据库,数据表,数据列)反对监控治理(Processor, Connection, Mutations)反对查问工作Track追踪反对数据迁徙咱们看一下它的全景! 仪表盘 Query编辑器 QuickQuery查问历史DataSource数据源治理 Metadata治理数据库磁盘占用率数据表磁盘占用率数据列磁盘占用率数据表快捷菜单数据表预览数据表重命名数据表DDL 数据表删除新建数据表监控Processor反对进行操作 Connection Mutations反对进行操作工具Track追踪数据迁徙编辑器配置

关于clickhouse:Clickhouse-系列-第五章-存储引擎

本系列的前四章曾经对 clickhouse 的存储引擎设计的思维进行了具体解读，本章将向读者残缺地介绍 clickhouse 存储引擎的存储模型及工作机制。文件组织在大部分的 DBMS 中，数据库实质上就是一个由各种子目录和文件组成的文件目录，clickhouse 当然也不例外。clickhouse 默认数据目录在 / var/lib/clickhouse/data 目录中。所有的数据库都会在该目录中创立一个子文件夹。下图展现了 clickhouse 对数据文件的组织。 clickhouse 目录构造每一个数据库都会在 clickhouse 的 data 目录中创立一个子目录，clickhouse 默认携带 default 和 system 两个数据库。default 顾名思义就是默认数据库，system 是存储 clickhouse 服务器相干信息的数据库，例如连接数、资源占用等。上图展现了 clickhouse 通过官网提供的入门教程操作后，导入的数据库的文件模式。能够看到，在 tutorial 文件夹中，建设了两个子目录，每个子目录为即为一张数据表。进入 hits_v1 目录后又能看到两个子目录和一个文本文件。分区目录分区目录下的子目录和文件的含意如下：目录名类型阐明201403_1_10_2目录分区目录一个或多个，因为分区 + LSM 生成的detached目录通过 DETACH 语句卸载后的表分区寄存地位format_version.txt文本文件纯文本，记录存储的格局分区目录形成分区目录的形成，依照分区 ID_最小数据块编号_最大数据块编号_层级形成。在本例中，分区 ID 是 201403, 最小数据块编号是 1，最大数据库编号是 10，层级是 2。数据块编号从 1 开始自增，新创建的数据库最大和最小编号雷同，当产生合并时会将其批改为合并的数据块编号。同时每次合并都会将层级减少 1。对于合并的详情能够查看本系列的番外篇——LSM。分区 ID 由用户在创立表时制订，容许用户创立多个分区键，每个分区键之间用‘-’相连。在本例中只应用了一个分区键，即工夫字段，依照年月分区。分区的益处在于进步并发度和减速局部查问。### 数据目录进入分区目录后，就能看到数据实在存储的数据目录的构造了。### columns.txt该文件是一个文本文件，存储了表构造信息，能够用文本编辑关上。### count.txt该文件也是一个文本文件，存储了该分区下的行数。能够用文本文件关上。在用户执行 select count(_) from xxx 时实质上就是间接返回了该文件的内容，而不须要遍历数据。因而 clickhouse 的 count(_) 的速度十分快。同时，这边也比照一下 MySQL 和 PostgreSQL 的实现，在上述两个关系型数据库中，其罕用的存储引擎，都没有应用 clickhouse 的这种计划。读者们是否答复出为了 MySQL 或 pg 要舍弃简略的计划而应用遍历么？这个问题的答案是因为事务的可见性，MySQL 和 pg 都是用 MVCC 机制的事务控制技术，这意味着对于不同事务中执行 select count(*) 的后果是不同的，对于 A 事务中执行的 insert 或 delete，对于本事务中是可见的，也就是说在本事务中执行的 count 是计算了 insert 和 delete 影响的。而对于 B 事务，在 A 事务提交前，是不能看到 A 事务中对数据的操作的。因而 AB 两个事务中执行的 count 后的后果可能是不同的。如果应用 clickhouse 的计划，就无奈实现上述需要。而 clickhouse 则不须要反对事务，因而应用了绝对简略的计划。### primary.idx主键索引，详情请参考本系列第四章。### checksums.txt二进制文件，校验和。用于疾速校验数据是否被篡改。、### default_compression_codec.txt新版本减少的一个文件，在旧版本时无。该文件是一个文本文件，存储了数据文件中应用的压缩编码器。clickhouse 提供了多种压缩算法供用户抉择，默认应用 LZ4。### [column].mrk3列的标记文件，详情请参考本系列第四章。### [column].bin真正存储数据的数据文件。下一节将对其对深入分析。每一列都会生成一个独自的 bin 文件。### skp_idx_[column].idx跳数索引，在应用了二级索引时会生成。否则这不生成### skp_idx_[column].mrk跳数索引标记文件，在应用了二级索引时会生成。否则这不生成本节具体介绍 clickhouse 中存储引擎的文件组织。将一张表拆解到具体的目录和文件中，读者应该能对 clickhouse 的存储系统有了初步理解。下一节将向读者展现如何读懂数据文件。数据组织----本节将向读者展现如何读取 bin 文件。因为 bin 文件是二进制文件，在读取时须要借助工具，无奈应用文本文件进行读取。在 windows 操作系统下倡议应用 winhex,mac 零碎举荐 hex friend。### 数据文件构造数据文件构造上图展现了一个 bin 文件的构造。bin 文件应用小端字节序存储。bin 文件中按 block 为单位排列数据，每个 block 文件有 16 字节校验和，1 字节压缩形式，4 字节压缩后大小和 4 字节的压缩前大小组成。每个 block 起始地址由如下公式确定：1. offset(n)=offset(n-1)+25 + 压缩后大小（n>=2)2. offset(1)=0### 校验和前 16 为测验和区域用于疾速验证数据是否残缺。### 压缩形式默认为 0x82。clickhouse 共反对 4 种压缩形式，别离为 LZ4(0x82)、ZSTD(0x90)、Multiple(0x91)、Delta(0x92)。### 压缩后大小存储在 data 区域的数据的大小。须要根据此大小计算下一个 BLOCK 的偏移量。### 压缩前大小data 区域存储的数据在压缩前的大小。能够根据此计算压缩比。### data 区data 区存储数据，大小为头信息第 18～21 字节示意的大小。拿到 data 区数据后，因为是压缩后的，因而无奈间接辨认，须要依照压缩形式进行解压缩后，能力辨认。example-------下图是通过 clickhouse 通过官网提供的入门教程指引操作后，应用二进制阅读器关上 hits_v1 表的 UserAgent.bin 文件的截图，曾经对头信息进行了色彩标记。通过读取头信息，咱们晓得该数据库是应用 LZ4 算法压缩，压缩后大小为 0x000049AC 即 18860 字节。压缩前大小为 0x00010000 即 65536 字节，压缩比约为 1:3.4≈29%。图中显示的是 AC490000，因为 clickhouse 应用小端字节序，因而理论为 0x000049AC。接着，咱们从 data 区起始地址开始复制 18860 字节的压缩后数据，将其通过 LZ4 算法解压，能够失去原始数据，如下图所示。解压缩程序的源码曾经上传到 github, 读者能够拜访该仓库，自行下载试验。github 地址：cfcz48/lz4compress (github.com)解压后的原始数据接下来，咱们通过查问 columns.txt，能够看出 UserAgent 列是 UInt8 的数据类型，也就是说每个数据时无符号的 8 位整数。因而联合上一步失去的原始数据，每 8 位即为一行数据。例如 0x04 示意十进制的 4。即上图中的原始数据为 4。下图展现了前 20 位原始数据解码后的后果：前 20 位解码后后果咱们在用 SQL 查问前 20 位数据，看看是否统一：总结--本章对 clickhouse 的存储引擎的文件组织进行了具体地阐明，并给出了一个例子，不便读者了解。下一章将为读者具体介绍数据插入的过程。

关于clickhouse:技术分享-ClickHouse-GDB-调试笔记

作者：xuty 本文起源：原创投稿 *爱可生开源社区出品，原创内容未经受权不得随便应用，转载请分割小编并注明起源。一. 背景记录下第一次应用 GDB 调试 ClickHouse 源码的过程，这里仅仅是通过简略的调试过程理解 ClickHouse 外部的机制，有助于解决纳闷，代码小白，有谬误见谅。二. 调试问题调试 ClickHouse 次要是为了解决集体遇到的一个理论问题，上面先形容下这个问题：通过 clickhouse 自带的mysql表函数导入全量数据时（这里建了一张测试表memory_test，50w行数据56G），因为超过最大的内存限度（CK服务器36G内存），导致了如下报错。localhost :) insert into `test`.`memory_test` select * mysql('192.168.1.1:3306','test','memory_test','root','xxxx'); Received exception from server (version 20.8.12):Code: 241. DB::Exception: Received from 127.0.0.1:9000. DB::Exception: Memory limit (total) exceeded: would use 35.96 GiB (attempt to allocate chunk of 17181966336 bytes), maximum: 28.14 GiB: While executing SourceFromInputStream. 大抵过程就是 ClickHouse 会将 mysql 的数据读入内存而后批量写入，这里波及到一个 buffer 的问题，ClickHouse 会读入多少行数据或者多少bytes的数据后再批量写入，依据show processlist察看来看，貌似达到100多w行数据就会写入一次，随后开释内存，再循环读写。那么咱们的问题其实读取MySQL原表中100多万行的数据超过了咱们 ClickHouse 内存配置大小。 ...

关于clickhouse:云小课｜MRS基础原理之ClickHouse组件介绍

阅识风波是华为云信息大咖，善于将简单信息多元化出现，其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您疾速上手华为云。更多精彩内容请单击此处。摘要：在2016年开源的高性能、开源联机剖析列式数据库管理系统。其数据压缩比高，基于多核并行计算、向量化执行与SIMD，在性能上体现卓越。以后ClickHouse被宽泛的利用于互联网广告、App和Web流量、电信、金融、物联网等泛滥畛域，十分实用于商业智能化利用场景，在国内外有大量的利用和实际。本文分享自华为云社区《【云小课】EI第22课 MRS根底原理之ClickHouse组件介绍》，作者：阅识风波 ClickHouse是一款开源的面向联机剖析解决的列式数据库，其独立于Hadoop大数据体系，最外围的特点是极致压缩率和极速查问性能。同时，ClickHouse反对SQL查问，且查问性能好，特地是基于大宽表的聚合剖析查问性能十分优异，比其余剖析型数据库速度快一个数量级。以后ClickHouse被宽泛的利用于互联网广告、App和Web流量、电信、金融、物联网等泛滥畛域，十分实用于商业智能化利用场景，在国内外有大量的利用和实际。 ClickHouse要害个性介绍齐备的DBMS性能ClickHouse领有齐备的数据库治理性能，具备一个DBMS（Database Management System，数据库管理系统）根本的性能，如下所示： DDL （数据定义语言）：能够动静地创立、批改或删除数据库、表和视图，而无须重启服务。 DML（数据操作语言）：能够动静查问、插入、批改或删除数据。权限管制：能够依照用户粒度设置数据库或者表的操作权限，保障数据的安全性。数据备份与复原：提供了数据备份导出与导入复原机制，满足生产环境的要求。分布式治理：提供集群模式，可能主动治理多个数据库节点。列式存储与数据压缩ClickHouse是一款应用列式存储的数据库，数据按列进行组织，属于同一列的数据会被保留在一起，列与列之间也会由不同的文件别离保留。在执行数据查问时，列式存储能够缩小数据扫描范畴和数据传输时的大小，进步了数据查问的效率。向量化执行引擎ClickHouse利用CPU的SIMD指令实现了向量化执行。SIMD的全称是Single Instruction Multiple Data，即用单条指令操作多条数据，通过数据并行以进步性能的一种实现形式 ( 其余的还有指令级并行和线程级并行 )，它的原理是在CPU寄存器层面实现数据的并行操作，相比同类OLAP产品执行效率更高。正本机制ClickHouse利用ZooKeeper，通过ReplicatedMergeTree引擎（Replicated 系列引擎）实现了正本机制。正本机制是多主架构，能够将INSERT语句发送给任意一个正本，其余正本会进行数据的异步复制。正本机制性能劣势如下： ClickHouse正本机制的设计能够最大限度的缩小网络数据传输，用以在不同的数据中心进行同步，能够用来建设多数据中心、异地多活的集群架构。正本机制是实现高可用、负载平衡、迁徙/降级性能的根底。零碎会监督正本数据的同步状况，辨认故障节点，并在节点恢复正常时进行故障复原，保障服务整体高可用。数据分片与分布式查问ClickHouse通过分片和分布式表机制提供了线性扩大的能力。分片机制：用来解决单节点的性能瓶颈，通过将数据进行程度切分，将一张表中的数据拆分到多个节点，不同节点之间的数据没有反复，这样就能够通过减少分片对ClickHouse进行线性扩大。分布式表：在查问分片的数据时，通过分布式表进行查问，分布式表引擎本身不存储任何数据，仅是一层代理，可能主动路由到集群中的各个分片节点获取数据，即分布式表须要和其余数据表一起协同工作。如下图所示，在查问时，咱们须要查问分布式表 table_distributed，分布式表会将查问申请主动路由到各个分片节点上，并进行后果的汇聚。讲了这么多，具体怎么应用ClickHouse呢？别急，以下通过ClickHouse客户端应用和数据库基本操作带你疾速上手。操作前筹备已创立ClickHouse集群。已装置ClickHouse客户端。ClickHouse客户端应用以客户端装置用户，登录装置客户端的节点。执行以下命令，切换到客户端装置目录。以下目录为举例，具体客户端门路请以理论装置门路为准。cd /opt/Bigdata/client 执行以下命令配置环境变量。source bigdata_env 4.执行ClickHouse组件的客户端命令。 clickhouse client --host ClickHouse的实例IP --user 登录名 --password 明码 --port ClickHouse的端口号 clickhouse client命令行参数阐明如下表所示： ClickHouse数据库基本操作创立数据库：根本语法 CREATE DATABASE [IF NOT EXISTS] database_name 应用示例创立表：根本语法办法一：在指定的“database_name”数据库中创立一个名为“table_name ”的表。如果建表语句中没有蕴含“database_name”，则默认应用客户端登录时抉择的数据库作为database_name”。 CREATE TABLE [IF NOT EXISTS] [database_name.]table_name [ON CLUSTER Cluster名] ...

关于clickhouse:ClickHouse可视化DBMIncubator-Release-140

DBM 1.4.0 版本公布！ UI设置默认最大化窗口 Enhancement反对迁徙数据反对构建日志引擎表反对显示Track DDL反对Track输入框获取焦点显示反对Windows零碎构建反对跟踪查问执行线程反对在仪表盘上显示数据源查问次数增加查问链接跟踪可视化反对多查问窗口Issues-12反对通过...获取列的占用空间反对数据源批改反对抉择数据库时显示表应用状况反对服务节点显示数据库磁盘应用状况反对服务节点显示磁盘应用状况反对左侧树形菜单数据构建Issues-20反对对mutations操作的监控Bugs修复元数据抉择库表导致数据渲染谬误 Optimize反对mutations生产时长优化 README.mdCI增加主动公布版本 CI 脚本下载地址MacWindows

关于clickhouse:Clickhouse-系列-第四章-索引

在第三节中，曾经向读者介绍了 clickhouse 在解决数据时依照 block 为单位进行压缩，之后写入磁盘数据文件中。在第三节中，曾经向读者介绍了 clickhouse 在解决数据时依照 block 为单位进行压缩，之后写入磁盘数据文件中。这样能够缩小数据量的大小缩小磁盘 io 工夫。然而，如果没有索引，则意味着每次查问时都须要读取所有的数据，即便通过压缩曾经升高了 6.2 倍的数据量，这仍然要花费很多的磁盘 IO。此时索引就呈现了，能够再次帮忙咱们缩小查问时须要读取的数据量。在介绍 clickhouse 的索引之前，咱们先回顾一下关系型数据库 MySQL 中罕用的索引技术——B + 树。B + 树算法超出本文内容，在这里不做深刻探讨，咱们次要剖析下 MySQL 应用 B + 树的目标和 B + 树的实质。其实，B + 树实质是一颗 N 叉树，其叶子节点就是有序排列的索引值，因而在查问时能够依据这棵树疾速定位到数据所在，而且因为其有序，能够适应范畴查找。下图展现了一颗 B + 树。 B + 树示意图理解了 B + 树的实质之后，读者能够试着答复一个问题：clickhouse 是否有必要应用 B + 树进行索引？为什么？如果您的答案是不须要，那么阐明您曾经对 clickhouse 和 MySQL 存储引擎都理解地比拟深刻了。如果您的答案是须要或者不确定，那么也不必焦急，上面就会具体阐明起因。这个问题的答案就是不须要，起因在于 clickhouse 的存储引擎和 MySQL 的存储引擎设计上的不同。MySQL 因为要反对事务，应用 MVCC 的事务管制机制，因而会呈现一个问题：数据的插入程序和索引的排序不同。例如我对 age 列做索引，我的插入程序为 44，21，20，33，19。这组数据在 B + 树中须要被重新排列为 19，20，21，33，44。这就是数据的插入程序和索引排序不同的状况。而在关系型数据库中数据的插入程序就是存储引擎写入数据文件的程序。 ...

关于clickhouse:ClickHouse可视化DBMIncubator-Release-120SNAPSHOT

反对组件ClickHouse反对性能为仪表板增加版本用 fa 图标替换 SVG 图标重构菜单款式优化局部UI和逻辑（查问、数据源）增加数据源定时检测工作增加利用信息页面将服务树拆分为新组件屏蔽疾速查问中的有效数据反对国际化数据源构建反对的抛弃限度重构查问历史用户界面反对网络超时设置增加服务器占用过程监控增加过程监控图预览图片仪表盘版本重构菜单款式屏蔽疾速查问中的有效数据重构查问历史用户界面反对网络超时设置增加服务器占用过程监控反对国际化下载地址:1.2.0-SNAPSHOT

关于clickhouse:DBM-100SNAPSHOT版本发布了

反对组件ClickHouse反对性能反对增加数据源到查问页面反对革除查问历史反对表格组件的显示抉择和索引增加查问历史反对 SHOW_CREATE_TABLE 和 SELECT_COUNT 用于疾速 sql更换软件标记表的反对图标禁用零碎库UI删除表操作反对删除空表数据库增加服务器信息视图反对勾销查问Bug修复修复元数据数据库抉择后报错问题预览图片勾销性能查问历史性能疾速查问性能服务器信息性能下载地址:1.1.0-SNAPSHOT

关于clickhouse:Clickhouse-系列-番外-LSM-算法

在本系列的第三章中介绍了 clickhouse 通过 block 和 lsm 来缩小磁盘读取的数据量。谨严的逻辑应该时 clickhouse 通过 lsm 算法来实现数据预排序，从而缩小了磁盘读取的数据量，本章番外次要为读者介绍什么是 LSM 算法，对 LSM 算法曾经有理解的读者能够跳过本章。 LSM 算法最早呈现在 1991 年的 ACM 期刊上，之后其思维在各大大数据存储系统中被宽泛应用，例如 LevelDB,HBase,Cassandra……LSM 算法因为适应的场景不同，存在很多的变体，clickhouse 也应用 lsm 算来实现其预排序的性能，本文将着重介绍 clickhouse 中的应用，同时也会适当波及一些其余零碎的应用用以让读者领会架构设计的得心应手。咱们都晓得，用户在调用 insert 向 clickhouse 插入数据时，数据不肯定是按曾经依照排序键排序好的数据，大概率是乱序数据。那么这种乱序的申请如何做到写入磁盘时变得有序呢？这个就是 LSM 算法实现的。 LSM 算法的几个外围步骤：在于数据写入存储系统前首先记录日志，避免零碎解体记录完日志后在内存中以供应用，当内存达到极限后写入磁盘，记录合并次数 Level 为 0(L=0)。曾经写入磁盘的文件不可变。每过一段时间将磁盘上 L 和 L+1 的文件合并咱们用一个示例来展现下整个过程 T=0 时刻，数据库为空。 T=1 时刻，clickhouse 收到一条 500 条 insert 的插入申请，这 500 条数据时乱序的。此时，clickhouse 开始插入操作。首先将 500 条插入申请一次性写入日志。接着在内存中进行排序，排序实现后将有序的后果写入磁盘，此时 L=0； T=2 时刻，clickhouse 收到一条 800 条 insert 的插入申请，这 800 条数据时乱序的。此时，clickhouse 开始插入操作。首先将 800 条插入申请一次性写入日志。接着在内存中进行排序，排序实现后将有序的后果写入磁盘，此时 L=0； ...

关于clickhouse:Clickhouse系列第二节基本原理

在正式开始clickhouse探秘前，咱们先抛出一个问题：影响OLAP查问速度的是什么？是优良的算法么？不可否认，算法对查问性能的影响十分大，但到了现阶段通用的算法基本上曾经可能达到很高的性能了。因而，在现阶段，制约着大数据OLAP查问速度的曾经不再是算法了。那么这个问题的答案就跃然纸上了——磁盘io。上面咱们从定性和定量两个层面来剖析一下。定性古代计算机体系结构中，将存储系统依照层次结构顺序排列，称为存储器层次结构（Memory Hierarchy）。由此，从磁盘上读取数据的工夫远大于CPU计算的工夫。能够做个粗略的计算比照：假如一台2.4GHz的CPU+7200转的机械硬盘。那么CPU执行一条指令的工夫是1/2.4G≈0.41ns。7200转机械硬盘的读取约为100MB每秒。也就是说CPU执行一条指令的工夫硬盘实践上只能读取约0.041个字节。而实际上0.41ns都不足以使得磁盘开始转动。由此咱们能够晓得，CPU参加运算的工夫远小于磁盘IO的工夫。这种状况下，应用算法优化CPU执行的指令，会显得很不划算。定量咱们写一段代码来模仿数据库执行SELECT max(id) From tbl_a这句语句。如果不思考后面的sql解析过程，能够简略形象成两个步骤：从磁盘中读取数据文件，载入内存解析数据并找出最大的id// 从磁盘将文件载入内存long s = System.nanoTime();List<String> lines = FileUtils.readLines(file,"utf8");long e1 = System.nanoTime();System.out.println("文件读取实现，耗时："+((e1-s)/1e6)+" ms,开始找最大值");// 解析并求出最大值String maxId = lines.parallelStream() .map(e -> e.substring(0,e.indexOf(" ")).trim()) .max(Comparator.comparingInt(Integer::parseInt)).orElse("未找到");long e2 = System.nanoTime();// 计算每个阶段的耗时System.out.println("计算实现，耗时："+((e2-e1)/1e6)+" ms");System.out.println("程序运行实现，总耗时："+((e2-s)/1e6)+" ms(不计算生成数据文件文件的工夫)");代码如上所示，应用下表的构造模仿数据表： id姓名部门名称岗位名称1Amy大数据部部门经理2Tom大数据部部门经理3John大数据部部门经理表1 模仿表构造应用3000万条数据作为测试，数据集大小为1.1G。最终执行后果为：文件读取实现，耗时：4971.683747 ms计算实现，耗时：432.261263 ms 能够看出，两者差距靠近了11倍。并且，这个试验的第二步，其实CPU也有很长时间是在读取内存的。不过这个试验曾经足够阐明问题了。很显著，古代OLAP须要想方法升高磁盘IO的工夫。升高磁盘IO的伎俩如表2所示，古代OLAP数据库个别应用两种伎俩升高磁盘IO工夫对查问性能的影响。伎俩原理代表数据库缺点分布式并行读取数据，升高单台服务器须要读取的数据量Hive(textfile)，greenplum独自应用实质上仍然须要读取所有数据，消耗资源行变列（列存数据库）行存数据库即便只须要某一列的数据，也必须读取所有数据（如定量中的例子）列存通过将每一列独自存储，做到按需读取hbase适宜应用列比拟繁多的业务。表2 升高磁盘IO工夫的伎俩分布式是大数据晚期时代应用的计划，他的原理和思维非常简单粗犷，单机解决慢，我就分成N台服务器进行计算，每一台只须要计算一小部分，最初将后果汇总。例如最晚期的Hive。这种架构的长处是简略粗犷，但也有显著的缺点，就是尽管等待时间变少了，然而整体上看，将多台机器的计算工夫汇总，总耗时是大于单机解决工夫的。而且也很容易产生数据歪斜问题和减少网络传输工夫。其实是节约了资源。因而随着技术的倒退，基本上大家都应用了分布式和行变列混用的架构。hive在前期也减少了列存引擎。列存数据库的原理将每一列独自存储，升高每次载入的数据量。还是以定量分析节中的例子为例，数据文件data.bin大小为1.1G，载入工夫4.9s。如果将每一列独自写入一个文件，那么如果只须要计算出最大id，那就只须要载入id.bin文件，这个文件约为247MB，实践上能将读取工夫缩小75%左右。同样，列存也有一个很大缺点，思考一个极其状况，如果查问语句非常复杂，从而用到了所有的列，那么列存也无奈升高读取工夫。所以，OLAP适宜解决大宽表，列越多，其性能比照行式数据库的晋升越大。这里插个题外话，理解了列存数据库的原理后，读者要明确，将数据从行式数据库导入到列式数据库进行剖析时，请肯定记得将行式数据库的星型表转换成列式数据库的大宽表。否则性能晋升有可能会不显著。在我的职业生涯中，我就遇到过数仓工程师将数据从MySQL导入adb后，间接进行查问，而后嗔怪adb性能为什么这么差！这也是为什么数仓模型要分层的起因。另外有些读者可能会有纳闷，为什么行式数据库不搞成大宽表？这外面的起因不在本系列的领域内，后续笔者会另外写一篇独自的文章，为读者讲透这外面的起因，敬请期待，也能够在评论区说出你的想法。 clickhouse就是应用了列存的数据库，相似的还有前期的hive、greenplum。那么，同样都是列存数据库，凭什么clickhouse就能比这些数据库快呢？本系列的后续局部将持续探讨clickhouse的巧思。再次强调，clickhouse并没有提出新的计算实践，只是在列存的根底上进行了多项优化。从而提现了clickhouse工程师的令人惊叹而着迷的奇思妙想。

关于clickhouse:Clickhouse系列第一节概述

clickhouse是俄罗斯yandex公布的一款反对OLAP的列式数据库管理系统。他最值得称道的是他的查问速度十分快，表一列出了clickhouse与其余各种数据相比的查问性能晋升的倍数。 clickhouseHiveMySQLgreenplum100min.1294.48844.5824.531bn.1//18.68表一 clickhouse与其余数据库性能比拟（数据来源于clickhouse官网）能够看出，在1亿条数据的状况下，clickhouse比hive均匀快294倍，比MySQL快844倍，比greenplum快24倍。这种惊人的性能晋升是十分令人吃惊的，这种惊人的性能背地肯定有着优良的架构设计。 clickhouse是一个十分优良及经典的工程化我的项目，是人类计算机工程的结晶。为什么要定义成工程化呢，是因为clickhouse的内核对于查问速度的优化，大部分并没有发明新的实践，而是将前人的钻研胜利利用到了这个畛域。举例来说，数据压缩方便使用的lz77算法。在存储引擎不便借鉴了leveldb的LSM算法…… 为了揭开clickhouse背地的机密，本系列将从三个局部对clickhouse进行剖析，最终将clickhouse的性能的神秘揭示在读者背后。第一局部：原理。第二局部：基本面：clickhouse的存储引擎和计算引擎的架构设计。第三局部：clickhouse源码对于上述设计的实现。第一局部原理，次要答复了一个问题：对于大数据联机剖析中，影响查问速度的因素到底是什么？这个问题其实是所有内容的起源。为了解决这个问题，前人做了哪些改良？第二局部基本面次要向读者揭示clickhouse在第一局部的根底上，如何进行了更进一步的优化。并且具体介绍了clickhouse的存储引擎的原理，供读者领会clickhouse在存储上的极致优化。当然，一个构造有其长处的同时，也同时必然地存在毛病。因而这一部分也会想读者剖析clickhouse不善于做的事件。介绍完了存储引擎，clickhouse在计算引擎也有一项平凡的工程翻新——向量化计算引擎，本局部也会对其做一些剖析。这两大引擎地架构设计独特组成了clickhouse的基本面。第三局部则是从源码层面想读者展现clickhouse是如何实现第二局部地架构。这一部分也探讨了架构设计和源码编写之间的一些关系，有丰盛教训地程序员其实能或多或少感觉到一点：代码的编写形式会影响架构设计的后果。我喜爱把架构设计成为一套零碎的基本面，基本面决定了零碎的下限，但编码的品质却有可能将这个下限拉得很低。再好的架构，如果编码呈现问题，那么无奈齐全施展架构的威力。比方如果应用了过多的锁，那么依据阿姆达尔定律，零碎是无奈达到架构设定的下限的。同时，编码品质也会影响复用性和易用性，这三者之间存在一些限度。本局部不会过多介绍这方面的内容，然而会就clickhouse的源码为读者剖析clickhouse是如何解决这一部分问题的。这一部分我喜爱称其为宏观架构，后续有机会的话，我会再写个专栏独自讲这个系列。本系列会间接应用外面的一些推论。当然读者也能够存在不同的拥护意见，毕竟只是推论，欢送大家与我一起探讨。最初，本系列会简要介绍clickhouse的分布式架构，因为clickhouse在设计时突出了单机的解决能力，在分布式显得不是很上心，并没有应用太多的分布式技巧，这可能是开源版本没有将这一块开源进去。但依据现有的源码来看，clickhouse应用mpp架构，在分布式架构属于比较简单的设计。更多的分布式内容会在后续退出的其余系列中具体讲述。届时也会拿clickhouse来比照。上面，开始咱们的clickhouse之旅。

关于clickhouse:涨姿势-一文读懂备受大厂青睐的ClickHouse高性能列存核心原理

简介：本文尝试解读ClickHouse存储层的设计与实现，分析它的性能奥秘作者：和君 **引言** ClickHouse是近年来备受关注的开源列式数据库，次要用于数据分析（OLAP）畛域。目前国内各个大厂纷纷跟进大规模应用：今日头条外部用ClickHouse来做用户行为剖析，外部一共几千个ClickHouse节点，单集群最大1200节点，总数据量几十PB，日增原始数据300TB左右。腾讯外部用ClickHouse做游戏数据分析，并且为之建设了一整套监控运维体系。携程外部从18年7月份开始接入试用，目前80%的业务都跑在ClickHouse上。每天数据增量十多亿，近百万次查问申请。快手外部也在应用ClickHouse，存储总量大概10PB，每天新增200TB， 90%查问小于3S。阿里外部专门孵化了相应的云数据库ClickHouse，并且在包含手机淘宝流量剖析在内的泛滥业务被宽泛应用。在国外，Yandex外部有数百节点用于做用户点击行为剖析，CloudFlare、Spotify等头部公司也在应用。在开源的短短几年工夫内，ClickHouse就俘获了诸多大厂的“芳心”，并且在Github上的活跃度超过了泛滥老牌的经典开源我的项目，如Presto、Druid、Impala、Geenplum等；其受欢迎水平和社区炽热水平可见一斑。而这些景象背地的重要起因之一就是它的极致性能，极大地减速了业务开发速度，本文尝试解读ClickHouse存储层的设计与实现，分析它的性能奥秘。 ClickHouse的组件架构下图是一个典型的ClickHouse集群部署结构图，合乎经典的share-nothing架构。整个集群分为多个shard（分片），不同shard之间数据彼此隔离；在一个shard外部，可配置一个或多个replica（正本），互为正本的2个replica之间通过专有复制协定放弃最终一致性。 ClickHouse依据表引擎将表分为本地表和分布式表，两种表在建表时都须要在所有节点上别离建设。其中本地表只负责以后所在server上的写入、查问申请；而分布式表则会依照特定规定，将写入申请和查问申请进行拆解，分发给所有server，并且最终汇总申请后果。 ClickHouse写入链路ClickHouse提供2种写入办法，1）写本地表；2）写分布式表。写本地表形式，须要业务层感知底层所有server的IP，并且自行处理数据的分片操作。因为每个节点都能够别离间接写入，这种形式使得集群的整体写入能力与节点数齐全成正比，提供了十分高的吞吐能力和定制灵活性。然而相对而言，也减少了业务层的依赖，引入了更多复杂性，尤其是节点failover容错解决、扩缩容数据re-balance、写入和查问须要别离应用不同表引擎等都要在业务上自行处理。而写分布式表则绝对简略，业务层只须要将数据写入繁多endpoint及繁多一张分布式表即可，不须要感知底层server拓扑构造等实现细节。写分布式表也有很好的性能体现，在不须要极高写入吞吐能力的业务场景中，倡议间接写入分布式表升高业务复杂度。以下论述分布式表的写入实现原理。 ClickHouse应用Block作为数据处理的外围形象，示意在内存中的多个列的数据，其中列的数据在内存中也采纳列存格局进行存储。示意图如下：其中header局部蕴含block相干元信息，而id UInt8、name String、_date Date则是三个不同类型列的数据表示。在Block之上，封装了可能进行流式IO的stream接口，别离是IBlockInputStream、IBlockOutputStream，接口的不同对应实现不同性能。当收到INSERT INTO申请时，ClickHouse会结构一个残缺的stream pipeline，每一个stream实现相应的逻辑： InputStreamFromASTInsertQuery #将insert into申请封装为InputStream作为数据源 -> CountingBlockOutputStream #统计写入block count -> SquashingBlockOutputStream #积攒写入block，直到达到特定内存阈值，晋升写入吞吐 -> AddingDefaultBlockOutputStream #用default值补全缺失列 -> CheckConstraintsBlockOutputStream #查看各种限度束缚是否满足 -> PushingToViewsBlockOutputStream #如有物化视图，则将数据写入到物化视图中 -> DistributedBlockOutputStream #将block写入到分布式表中注：*左右滑动阅览在以上过程中，ClickHouse十分重视细节优化，处处为性能思考。在SQL解析时，ClickHouse并不会一次性将残缺的INSERT INTO table(cols) values(rows)解析结束，而是先读取insert into table(cols)这些短小的头部信息来构建block构造，values局部的大量数据则采纳流式解析，升高内存开销。在多个stream之间传递block时，实现了copy-on-write机制，尽最大可能缩小内存拷贝。在内存中采纳列存存储构造，为后续在磁盘上间接落盘为列存格局做好筹备。 SquashingBlockOutputStream将客户端的若干小写，转化为大batch，晋升写盘吞吐、升高写入放大、减速数据Compaction。默认状况下，分布式表写入是异步转发的。DistributedBlockOutputStream将Block依照建表DDL中指定的规定（如hash或random）切分为多个分片，每个分片对应本地的一个子目录，将对应数据落盘为子目录下的.bin文件，写入实现后就返回client胜利。随后分布式表的后盾线程，扫描这些文件夹并将.bin文件推送给相应的分片server。.bin文件的存储格局示意如下： ClickHouse存储格局ClickHouse采纳列存格局作为单机存储，并且采纳了类LSM tree的构造来进行组织与合并。一张MergeTree本地表，从磁盘文件形成如下图所示。本地表的数据被划分为多个Data PART，每个Data PART对应一个磁盘目录。Data PART在落盘后，就是immutable的，不再变动。ClickHouse后盾会调度MergerThread将多个小的Data PART一直合并起来，造成更大的Data PART，从而取得更高的压缩率、更快的查问速度。当每次向本地表中进行一次insert申请时，就会产生一个新的Data PART，也即新增一个目录。如果insert的batch size太小，且insert频率很高，可能会导致目录数过多进而耗尽inode，也会升高后盾数据合并的性能，这也是为什么ClickHouse举荐应用大batch进行写入且每秒不超过1次的起因。 ...

关于clickhouse:别困惑不是你的错90的开发者把Clubhouse看成了Clickhouse

看下面的对话是不是感觉似曾相识，这几天你有没有遇到？近期，Clubhouse音频社交App一夜爆红，朋友圈被刷屏“一码难求”。但当你第一眼看到“Clubhouse”时，会不会看成了“Clickhouse”。别困惑，这不是你的错！当我狐疑本人的时候，产品研发人纷纷表示“我不是一个人”。虽说两者“长得像”，但产品不能说是一摸一样，只能说是毫无关系。可是为啥只有研发会看错，这是因为Clickhouse是目前最火的数据库技术！凭借其强悍的数据处理能力，在开源社区也获取超强的关注度！明天小编就来好好帮大家盘点下！让你疾速理解Clubhouse与Clickhouse背地的技术~ Clubhouse是什么Clubhouse是一款主打即时性的音频社交软件。用户能够创立房间，抉择发动或参加一场聊天。房间能够是公开的、社交的（仅限关注者进入）和私密的（相互关注者才可进入），听众能够通过举手通过举手成为嘉宾，进行发问和发言，角色能够互相转换。 Clubhouse为什么这么火Clubhouse一夜爆红的背地，总结演绎了三大次要起因。第一：产品性能简洁实用，操作简略，便于用户掌控。第二：采纳邀请制和提供优质内容。首批用户是各行业的KOL，采纳邀请制，探讨的内容也多为互联网、投资等高质量的内容，因而吸引更多人关注。第三：疫情克制了人们社交诉求，借助软件需要得以抒发。疫情期间，用户在家社交活动缩小，社交诉求被克制。而Clubhouse是基于陌生人关系的实时聊天模式，为用户提供相似线下的社交体验，使得社交诉求得以满足。但近日Clubhouse忽然霸榜热搜，还要归功于硅谷钢铁侠马斯克。2月1日，新首富马斯克 “开房”后不到1个小时，涌入人数就达到了软件下限5000人。 Clubhouse背地的核心技术能够看到这样一款火爆的音频社交软件，从技术保障须要具备几个根本条件： 1、保障跨地区（寰球）大规模同时在线人数（5000+）稳定性； 2、实时同步，保障音频晦涩无卡顿； 3、内容与用户推送更精准， 4、交换音频内容平安保障。这其中，RTC实时音视频和CDN起到至关重要的作用。 RTC技术RTC（Real-time Communications），实时音视频技术。包含音视频的采集、编解码、网络传输等性能，强调实时通信，提早在毫秒级内，广泛应用于各种音视频直播场景中。随着万物互联，实时通信不再局限人与人之间，还存在于人与设施之间，视音频通信与生产零碎整合后，改善现有生产流程，发明出新的利用场景。以京东科技RTC产品为例实时视音频通信JRTC产品具备交融+边缘为特点，为用户提供视音频实时通信服务PaaS云服务，借助低延时散发和调度、弱网加强、4G+WIFI双链路并传、异构零碎交融、边缘节点治理等核心技术，将实时通信和直播、AI、监控、SIP互通互联，实现数据交换和资源共享，实现资源、技术的交融。与边缘资源联合，升高用户接入延时，不仅反对Clubhouse这种实时音频软件的平安顺畅，对于视频类的利用场景也不在话下。 CDN技术CDN（Content Delivery Network）内容散发网络。将源站上的内容如网站/利用的图片、音频、视频等素材发至凑近用户的减速节点，使用户能够就近取得所需内容，缩小期待，进步拜访的响应速度和成功率。要做到寰球的用户交换顺畅，对CDN节点数量与散布有更高的要求。同样，京东618大促和京东11.11寰球酷爱季也面临此问题，为了撑持京东团体外围业务，京东云在寰球范畴内有上千个CDN节点，通过云调度、云存储技术，将海量内容更快、更牢靠地投递给互联网终端用户，帮忙企业升高网站经营老本，晋升用户互联网利用体验。当然除了这两个关键技术外，要保障一款利用衰弱流畅地经营，也离不开AI与平安技术的加持。通过AI算法，对房间内音频聊天中涉黄、涉政、涉暴等违规内容精准辨认，无效躲避危险。其次，也须要保障直播间平安，DDoS攻打防护、数据防透露、病毒暴发及0day破绽防护、零碎入侵等方面进行全面防护。去年因疫情很多重大会议都采纳线上解决方案，在2020服贸会、南博会上京东科技提供了技术服务，在服贸会期间，保障来自寰球用户交换、洽谈，累计反对共260余场论坛直播、近千场展商直播，累计直播观看总人数达数十万人次。这都离不开京东科技云与AI等技术加持。从产品到技术，置信你对Clubhouse曾经有了全方位的理解。作为Clubhouse的“双胞胎兄弟”，火“出圈”的Clickhouse，除了产品研发人可能并不相熟，上面就带大家来理解下。什么是ClickhouseClickHouse是俄罗斯Yandex公司开源的一款剖析型数据库，领有十分卓越的性能，即使在十亿乃至百亿行的数据规模下，仍旧具备秒级返回能力。给你一组感触下，在雷同环境，四款数据库MySQL、Greenplum、Vertica、ClickHouse在1亿数据量下测试查问性能，后果ClickHouse比MySQL快839倍。ClickHouse 为什么能这么快呢？技术具备哪些特点？实用在哪些场景？接下来，咱们就为你解答下： ClickHouse是针对OLAP场景而设计研发的，基于 OLAP 数据库的特点，它采纳了基于列的数据存储引擎，不仅能够节俭数据查问时的IO，更有利于数据压缩。并且应用分片（shard）分区（partition），减速数据查问时的并行能力。更为举荐在海量数据的存储和查问统计、用户行为剖析、实时报表、商业智能、其余实时剖析的场景中应用。尤其在不须要取到所有残缺数据的场景，或者在大数据量条件下只需获取大体趋势的场景。 ClickHouse针对非凡业务需要匹配各类剖析场景，通过各类表引擎，省去了对数据预处理的环节，放慢了数据处理速度。同时也反对百分比数据采样，并进行统计分析。基于Clickhouse技术弱小的数据处理能力，2020年，京东云基于开源ClickHouse，打造的基于云K8s平台构建剖析型数据库——JCHDB。为用户提供疾速创立、自定义规格、规格变配等服务。可实现多核、多节点的并行化大型查问，其查问性能比传统开源数据库快1~2个数量级，可充沛满足大型业务零碎数据分析的需要。JCHDB在高性能、高可用和可扩大层面上有比拟显明的特点：高性能方面：采纳最新一代的云主机，CPU最大能够反对64外围，单个Pod最大能够扩大到512G内存。高可用方面：借助K8s调度治理平台，发现有Pod不可用时K8s会主动将这个Pod剔除。同时平台会新建一个Pod，基于StatefulSet 机制将被删除的Pod所绑定的云盘挂到新Pod上。这样如果有实例因为某些硬件起因呈现问题，能够在分或秒级实现实例替换。可扩大方面：基于云主机、云硬盘的一些根底组件，提供了一些灵便的扩大接口，能够间接在原地扩容。也反对热扩容，能够在不影响用户应用的前提下，在分钟级甚至秒级就能够实现CPU数量、内存容量或磁盘空间的扩容。此外，JCHDB还提供了欠缺的监控体系，能够帮忙DBA更好地察看的数据库的运行状况，直观地察看到每一个Pod的压力散布状况，不便灵便地调整数据压力，防止某个Pod呈现数据瓶颈。依据这些监控的指标，用户能够灵便地定义告警信息。看完了Clubhouse与Clickhouse的具体介绍，想必你再也不会分不清了，尽管 “两兄弟”产品看似毫无关联，但在将来，随着Clubhouse产品性能更加丰盛，做用户画像、用户行为剖析时，对用户量减少，用户实时排名、其余实时剖析的场景肯定也离不开Clickhouse技术的加持。二者在播种超高的关注度外，在利用场景的摸索上，也给人们带来更多的思考。好啦，心愿本文能让你对Clubhouse背地的技术及Clickhouse技术有个初步的认知，不管在产品大拿还是技术大牛间，你都能够欢快地与他们谈笑自若~ 没看够？查看此处「链接」理解更多Clickhouse干货文章。举荐浏览大数据丨ClickHouse在京东能源管理平台的实际如何应用ClickHouse实现时序数据管理和开掘？比MySQL快839倍！揭开剖析型数据库JCHDB的神秘面纱欢送点击【京东科技】，理解开发者社区更多精彩技术实际与独家干货解析欢送关注【京东科技开发者】公众号

关于clickhouse:简易教程ClickHouse-的数据备份与恢复

数据备份是IT经营中不可或缺的重要局部。在“大数据”部署（例如剖析数据库）中，它们最具挑战性。本文将探讨备份ClickHouse所波及的管道，并介绍用于自动化过程的Clickhouse备份工具。 ClickHouse内置的本机复制反对可提供高可用性和针对单个节点故障的弹性。然而，极少数的劫难状况可能须要从备份中复原数据。其中包含数据损坏以及分片或群集中所有正本的故障。任何ClickHouse备份计划的要害组成部分都是“解冻”表。与所有数据库一样，统一的备份取决于ClickHouse处于“静默”状态。ClickHouse不用齐全进行数据库，而对“解冻”表进行备份或迁徙提供了本机反对。这是无停机工夫的操作。四个简略步骤中的手动备份ClickHouse通过其 ALTER TABLE…FREEZE 性能提供了对即时工夫点备份的本地反对。确认您的影子目录为空：ls /var/lib/clickhouse/shadow/解冻ClickHouse 数据表：echo -n 'alter table events freeze' | clickhouse-client如果产生劫难，请保留备份： cd /var/lib/clickhouse/sudo mkdir backupsudo cp -r shadow/ backup/my-backup-name最初，为下次清理备份源：sudo rm -rf /var/lib/clickhouse/shadow/*ClickHouse应用文件系统硬链接来实现即时备份，而不会导致ClickHouse服务停机（或锁定）。这些硬链接能够进一步用于无效的备份存储。在反对硬链接的文件系统（例如本地文件系统或NFS）上，将cp与-l标记一起应用（或将rsync与–hard-links和–numeric-ids标记一起应用）以防止复制数据。当应用硬链接时，磁盘上的存储效率更高。因为它们依赖于硬链接，所以即便防止了重复使用磁盘空间，每个备份实际上都是“残缺”备份。测试您的备份正确地说，如果未测试还原过程，则备份毫无价值。执行惯例的测试还原，以确保您的数据在须要时就在那里。以下是手动复原的步骤：删除测试表，或找到其余服务器进行测试。创立测试表以进行复原：cat events.sql | clickhouse-client将您的备份复制到表的“ detached”目录中： cd /var/lib/clickhousesudo cp -rl backup/my-backup-name/* data/default/events/detached/附上拆散的整机：echo 'alter table events attach partition 202006' | clickhouse-client确认您的数据已还原：echo 'select count() from events' | clickhouse-client应用以下形式自动化备份过程 clickhouse-backup由Alex Akulov创立的clickhouse-backup工具有助于自动化上述手动步骤：https : //github.com/AlexAkulov/clickhouse-backup。咱们喜爱clickhouse-backup，并实现了一些新性能，在此首次进行介绍。要开始应用，您须要装置clickhouse-backup。残缺阐明位于ReadMe.md文件中。这是从tarball装置的示例。还提供了RPM，Debian软件包和Docker映像。 wget https://github.com/AlexAkulov/clickhouse-backup/releases/download/v0.6.3/clickhouse-backup.tar.gztar -xf clickhouse-backup.tar.gz cd clickhouse-backup/ sudo cp clickhouse-backup /usr/local/bin clickhouse-backup -v此博客文章中介绍的API性能和新的存储选项（例如'remote_storage'）尚未在正式版本中提供。您须要从源代码构建或运行最新的docker映像。这是后者的一个例子。 ...

关于clickhouse:ClickHouse集群搭建一

满目山河空念远，落花风雨更伤春。 ClickHouse概述什么是ClickHouse?ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），次要用于在线剖析解决查问（OLAP），可能应用SQL查问实时生成剖析数据报告。什么是列式存储 ?以上面表为例 idwebsitewechat1https://niocoder.com/java干货2http://www.merryyou.cn/javaganhuo采纳行式存储时，数据在磁盘上的组织构造为： Row1 Row2 1https://niocoder.com/java干货2http://www.merryyou.cn/javaganhuo益处是想查某条记录所有的属性时，能够通过一次磁盘查找加程序读取就能够。然而当想查所有记录wechat时，须要不停的查找，或者全表扫描才行，遍历的很多数据都是不须要的。而采纳列式存储时，数据在磁盘上的组织构造为： col1 col2 col3 12https://niocoder.com/http://www.merryyou.cn/java干货javaganhuo这时想查所有记录的wechat只需把col3那一列拿进去即可。集群环境搭建在装置ClickHouse 具体开始前, 先来搭建一下环境,软件包下载见开端。创立虚拟机装置虚拟机 VMWare装置Vmware虚拟机导入 CentOS将下载的CentOS零碎中导入到 VMWare中注意事项：windows零碎确认所有的对于VmWare的服务都曾经启动，确认好VmWare生成的网关地址，另外确认VmNet8网卡曾经配置好了IP地址。更多对于VmWare网络模式参考VMware虚拟机三种网络模式详解集群布局IP主机名环境配置装置ClickHouse192.168.10.100node01关防火墙, host映射, 时钟同步JDK, Zookeeperclickhouse-server 9000 clickhouse-server 9001192.168.10.110node02关防火墙, host映射, 时钟同步JDK, Zookeeperclickhouse-server 9000 clickhouse-server 9001192.168.10.120node03关防火墙, host映射, 时钟同步JDK, Zookeeperclickhouse-server 9000 clickhouse-server 9001配置每台主机更改ip地址和HWADDR地址 vim /etc/sysconfig/network-scripts/ifcfg-eth0 HWADDR地址查看批改主机名(重启后永恒失效) vim /etc/hostname 设置hosts域名映射 vim /etc/hosts 敞开防火墙三台机器执行以下命令 systemctl status firewalld.service #查看防火墙状态systemctl stop firewalld.service #敞开防火墙systemctl disable firewalld.service #永恒敞开防火墙 ...

关于clickhouse:浅淡-Apache-Kylin-与-ClickHouse-的对比

文章转载于：https://mp.weixin.qq.com/s?__... Apache Kylin 和 ClickHouse 都是目前市场风行的大数据 OLAP 引擎；Kylin 最后由 eBay 中国研发核心开发，2014 年开源并奉献给 Apache 软件基金会，凭借着亚秒级查问的能力和超高的并发查问能力，被许多大厂所采纳，包含美团，滴滴，携程，贝壳找房，腾讯，58同城等； OLAP 畛域这两年煊赫一时的 ClickHouse，由俄罗斯搜寻巨头 Yandex 开发，于2016年开源，典型用户包含字节跳动、新浪、腾讯等知名企业。这两种 OLAP 引擎有什么差别，各自有什么劣势，如何抉择？本文将尝试从技术原理、存储构造、优化办法和劣势场景等方面，比照这两种 OLAP 引擎，为大家的技术选型提供一些参考。 01 技术原理技术原理方面，咱们次要从架构和生态两方面做个比拟。 1.1 技术架构 Kylin 是基于 Hadoop 的 MOLAP (Multi-dimensional OLAP) 技术，核心技术是 OLAP Cube；与传统 MOLAP 技术不同，Kylin 运行在 Hadoop 这个功能强大、扩展性强的平台上，从而能够反对海量 (TB到PB) 的数据；它将预计算（通过 MapReduce 或 Spark 执行）好的多维 Cube 导入到 HBase 这个低提早的分布式数据库中，从而能够实现亚秒级的查问响应；最近的 Kylin 4 开始应用 Spark + Parquet 来替换 HBase，从而进一步简化架构。因为大量的聚合计算在离线工作（Cube 构建）过程中曾经实现，所以执行 SQL 查问时，它不须要再拜访原始数据，而是间接利用索引联合聚合后果再二次计算，性能比拜访原始数据高百倍甚至千倍；因为 CPU 使用率低，它能够反对较高的并发量，尤其适宜自助剖析、固定报表等多用户、交互式剖析的场景。 ...

关于clickhouse:篇五ClickHouse数据导入FlinkSparkKafkaMySQLHive

本文分享次要是ClickHouse的数据导入形式，本文次要介绍如何应用Flink、Spark、Kafka、MySQL、Hive将数据导入ClickHouse，具体内容包含：应用Flink导入数据应用Spark导入数据从Kafka中导入数据从MySQL中导入数据从Hive中导入数据应用Flink导入数据本文介绍应用 flink-jdbc将数据导入ClickHouse，Maven依赖为： <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-jdbc_${scala.binary.version}</artifactId> <version>1.10.1</version></dependency>示例本示例应用Kafka connector，通过Flink将Kafka数据实时导入到ClickHouse public class FlinkSinkClickHouse { public static void main(String[] args) throws Exception { String url = "jdbc:clickhouse://192.168.10.203:8123/default"; String user = "default"; String passwd = "hOn0d9HT"; String driver = "ru.yandex.clickhouse.ClickHouseDriver"; int batchsize = 500; // 设置batch size，测试的话能够设置小一点，这样能够立即看到数据被写入 // 创立执行环境 EnvironmentSettings settings = EnvironmentSettings .newInstance() .useBlinkPlanner() .inStreamingMode() .build(); StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tEnv = StreamTableEnvironment.create(env, settings); String kafkaSource11 = "" + "CREATE TABLE user_behavior ( " + " `user_id` BIGINT, -- 用户id\n" + " `item_id` BIGINT, -- 商品id\n" + " `cat_id` BIGINT, -- 品类id\n" + " `action` STRING, -- 用户行为\n" + " `province` INT, -- 用户所在的省份\n" + " `ts` BIGINT, -- 用户行为产生的工夫戳\n" + " `proctime` AS PROCTIME(), -- 通过计算列产生一个解决工夫列\n" + " `eventTime` AS TO_TIMESTAMP(FROM_UNIXTIME(ts, 'yyyy-MM-dd HH:mm:ss')), -- 事件工夫\n" + " WATERMARK FOR eventTime AS eventTime - INTERVAL '5' SECOND -- 在eventTime上定义watermark\n" + ") WITH ( 'connector' = 'kafka', -- 应用 kafka connector\n" + " 'topic' = 'user_behavior', -- kafka主题\n" + " 'scan.startup.mode' = 'earliest-offset', -- 偏移量，从起始 offset 开始读取\n" + " 'properties.group.id' = 'group1', -- 消费者组\n" + " 'properties.bootstrap.servers' = 'kms-2:9092,kms-3:9092,kms-4:9092', -- kafka broker 地址\n" + " 'format' = 'json', -- 数据源格局为 json\n" + " 'json.fail-on-missing-field' = 'true',\n" + " 'json.ignore-parse-errors' = 'false'" + ")"; // Kafka Source tEnv.executeSql(kafkaSource11); String query = "SELECT user_id,item_id,cat_id,action,province,ts FROM user_behavior"; Table table = tEnv.sqlQuery(query); String insertIntoCkSql = "INSERT INTO behavior_mergetree(user_id,item_id,cat_id,action,province,ts)\n" + "VALUES(?,?,?,?,?,?)"; //将数据写入 ClickHouse Sink JDBCAppendTableSink sink = JDBCAppendTableSink .builder() .setDrivername(driver) .setDBUrl(url) .setUsername(user) .setPassword(passwd) .setQuery(insertIntoCkSql) .setBatchSize(batchsize) .setParameterTypes(Types.LONG, Types.LONG,Types.LONG, Types.STRING,Types.INT,Types.LONG) .build(); String[] arr = {"user_id","item_id","cat_id","action","province","ts"}; TypeInformation[] type = {Types.LONG, Types.LONG,Types.LONG, Types.STRING,Types.INT,Types.LONG}; tEnv.registerTableSink( "sink", arr, type, sink ); tEnv.insertInto(table, "sink"); tEnv.execute("Flink Table API to ClickHouse Example"); }}Note: ...

关于clickhouse:秒级去重ClickHouse在腾讯海量游戏营销活动分析中的应用

导语 | 腾讯外部每日都须要对海量的游戏营销流动数据做成果剖析，而流动参加人数的去重始终是一项难点。本文将为大家介绍腾讯游戏营销流动剖析零碎——奕星，在去重服务上的技术思路和迭代计划，心愿与大家一起交换探讨。文章作者：王方晓，腾讯经营开发工程师。一、背景奕星 (EAS) 是腾讯外部专一于游戏营销流动剖析的零碎，在营销流动成果剖析中，奕星遇到一个最大的问题就是对流动参加人数的去重，并给出对应的流动号码包。单个营销流动的周期是固定的，但流动与流动之间工夫很少会有完全相同的状况。比方A流动工夫是1-10号，B流动是5-15号，那么如果想别离失去 A 和 B 的去重参加人数，则必须别离开启工作对 A 和 B 在他们所属的工夫区间内进行计算去重。在海量日志中每天对数千个营销流动进行相似计算，对资源耗费是一个不小的挑战。而理论状况下，须要计算的任务量还远远不止于此，奕星同时还提供游戏官网非流动链接的去重数据，甚至每个链接在每个推广渠道的去重数据，这个工作量级目前高达每天 50W+ 以上。总结来看，面临的次要问题就是如何在海量数据的状况下，解决数量微小的而且周期各不相同的去重计算工作。二、原有解决方案对于这个问题，奕星之前尝试了不少计划，这里简略介绍一下。 1. 基于TDW长期表的计划TDW 是腾讯外部通用的一站式大数据平台，服务稳固，功能强大。对于这些工作的计算，奕星最早是想借助于 TDW 的计算能力来实现。思路很简略，就是在 pysql 中循环对每个流动执行对应的 hiveSQL 来实现 T+1 时效的计算。但这个计划最大的毛病就是：工作根本都是程序执行，反复扫描大量日志，导致效率十分低下，而且从HDFS中拉取最终的去重文件也十分耗时。尽管前面采纳多种思路优化，比方将原始日志先每天对立批量去重一次入到长期表里，所有计算基于长期表来实现等，但最终还是效率无奈进一步提高而放弃。 2. 基于实时计算+文件增量去重的计划在奕星的数据统计中，基于 Storm 的实时计算工作，次要是提供各个流动的实时 PV 和参加次数等计数类数据。因为内存资源无限，业界也有基于近似去重算法（如 hyperloglog ）间接在 Storm 中算出近似去重后果的，但无奈给出准确的后果和最终的号码包文件，所以不合乎选型要求。而内存资源无限，更不可能包容下这么大量的号码包数据，所以通过内存齐全得出最终准确去重后果的计划根本不事实。但内存尽管不能包容整个流动期间的号码数据或者一天之内的号码数据，但是否能够包容 1 分钟，5 分钟的号码数据？通过测试计算发现，在内存中缓存 5 分钟内的去重号码数据是齐全可行的，并且最高能够将原始日志升高 90% 以上的量级。缓存 1 分钟的话，最高也能够将原始日志升高 70% 以上的量级。次要的起因是玩家参加流动的时候是即时参加行为，比方一个玩家来到一个流动页面后，个别是间断将流动中能参加的性能都参加下，不会参加完一个等很久再参加下一个，所以导致同一个玩家的日志工夫连续性较高，单位工夫窗口内去重后量级会升高很多。基于此，目前奕星次要是基于 Storm 在单位工夫窗口内进行首次去重，以达到升高原始数据量级的目标。最后的基于 TDW 的去重计划，除了反复扫描等问题外，还有一个问题就是：同一个流动不同日期之间的计算无奈前后连接，比方 A 流动在流动期间（1-10号），每天的计算逻辑基本一致，都是要全量扫描 1-10 号之间的日志(或两头后果)来实现计算。 ...

关于clickhouse:clickhouse-insert的数据结构

clickhouse insert大抵分为两局部 1. sql语句局部 insert into table (f1,f2)2. 数据局部数据局部又分为3局部（头，数据，尾） -. 数据头 -. 数据块1 -. 数据块2 -. 数据块N -. 数据尾从中能够看出每个insert能够蕴含多个数据块，每个数据块能够蕴含多行。一个残缺的insert执行后，clickhouse会生成一个长期文件夹，外面蕴含了以后的数据，clickhouse会定时把这些文件合并。建了一个clickhouseQQ欢送退出 970435787 在写入的时候能够用过个数据块来代替屡次残缺的写入，能够进步写入速度，也能管制服务器的文件碎片数量可无效防止 too parts many...谬误

关于clickhouse:篇三ClickHouse的数据类型

ClickHouse提供了许多数据类型，它们能够划分为根底类型、复合类型和非凡类型。咱们能够在system.data_type_families表中查看数据类型名称以及是否辨别大小写。 SELECT * FROM system.data_type_families下面的零碎表，存储了ClickHouse所反对的数据类型，留神不同版本的ClickHouse可能数据类型会有所不同，具体如下表所示： ┌─name────────────────────┬─case_insensitive─┬─alias_to────┐│ IPv6 │ 0 │ ││ IPv4 │ 0 │ ││ LowCardinality │ 0 │ ││ Decimal │ 1 │ ││ String │ 0 │ ││ Decimal64 │ 1 │ ││ Decimal32 │ 1 │ ││ Decimal128 │ 1 │ ││ Float64 │ 0 │ ││ Float32 │ 0 │ ││ Int64 │ 0 │ ││ SimpleAggregateFunction │ 0 │ ││ Array │ 0 │ ││ Nothing │ 0 │ ││ UInt16 │ 0 │ ││ Enum16 │ 0 │ ││ UInt32 │ 0 │ ││ Date │ 1 │ ││ Int8 │ 0 │ ││ Int32 │ 0 │ ││ Enum8 │ 0 │ ││ UInt64 │ 0 │ ││ IntervalSecond │ 0 │ ││ Int16 │ 0 │ ││ FixedString │ 0 │ ││ Nullable │ 0 │ ││ AggregateFunction │ 0 │ ││ DateTime │ 1 │ ││ Enum │ 0 │ ││ Tuple │ 0 │ ││ IntervalMonth │ 0 │ ││ Nested │ 0 │ ││ IntervalMinute │ 0 │ ││ IntervalHour │ 0 │ ││ IntervalWeek │ 0 │ ││ IntervalDay │ 0 │ ││ UInt8 │ 0 │ ││ IntervalQuarter │ 0 │ ││ UUID │ 0 │ ││ IntervalYear │ 0 │ ││ LONGBLOB │ 1 │ String ││ MEDIUMBLOB │ 1 │ String ││ TINYBLOB │ 1 │ String ││ BIGINT │ 1 │ Int64 ││ SMALLINT │ 1 │ Int16 ││ TIMESTAMP │ 1 │ DateTime ││ INTEGER │ 1 │ Int32 ││ INT │ 1 │ Int32 ││ DOUBLE │ 1 │ Float64 ││ MEDIUMTEXT │ 1 │ String ││ TINYINT │ 1 │ Int8 ││ DEC │ 1 │ Decimal ││ BINARY │ 1 │ FixedString ││ FLOAT │ 1 │ Float32 ││ CHAR │ 1 │ String ││ VARCHAR │ 1 │ String ││ TEXT │ 1 │ String ││ TINYTEXT │ 1 │ String ││ LONGTEXT │ 1 │ String ││ BLOB │ 1 │ String │└─────────────────────────┴──────────────────┴─────────────┘数值类型Int类型固定长度的整数类型又包含有符号和无符号的整数类型。 ...

关于clickhouse:EMQ-X-ClickHouse-实现物联网数据接入与分析

物联网数据采集波及到大量设施接入、海量的数据传输，EMQ X 物联网消息中间件与 ClickHouse 联机剖析 (OLAP) 数据库的组合技术栈齐全可能胜任物联网数据采集传输与存储、剖析解决业务。数据入库后，往往须要其余形式如数据可视化零碎将数据依照规定统计、展示进去，实现数据的监控、指标统计等业务需要，以便充分发挥数据的价值，ClickHouse 搭配开源软件 Grafana 能够疾速搭建物联网数据分析可视化平台。上述整套计划无需代码开发，波及的产品均能提供开源软件、企业服务、云端 SaaS 服务不同档次的交付模式，可能依据我的项目需要实现免费版或企业版私有化落地以及云端部署。计划介绍EMQ X 简介EMQ X 是基于高并发的 Erlang/OTP 语言平台开发，反对百万级连贯和分布式集群架构，公布订阅模式的开源 MQTT 音讯服务器。EMQ X 内置了大量开箱即用的性能，其企业版 EMQ X Enterprise 反对通过规定引擎将物联网音讯数据存储到 ClickHouse。 ClickHouse 简介ClickHouse 是一个用于数据分析（OLAP）的列式数据库管理系统（column-oriented DBMS），由俄罗斯搜寻巨头 Yandex 公司开源。目前国内不少大厂在应用，包含腾讯、今日头条、携程、快手、虎牙等，集群规模多达数千节点。今日头条外部用 ClickHouse 来做用户行为剖析，外部一共几千个 ClickHouse 节点，单集群最大 1200 节点，日增原始数据 300TB 左右。腾讯外部用 ClickHouse 做游戏数据分析，并且为之建设了一整套监控运维体系。携程外部从 18 年 7 月份开始接入试用，目前 80% 的业务都跑在 ClickHouse 上。每天数据增量十多亿，近百万次查问申请。快手外部也在应用 ClickHouse，存储总量大概 10PB，每天新增 200TB， 90% 查问小于 3S。在国外，Yandex 外部有数百节点用于做用户点击行为剖析，优步、CloudFlare、Spotify 等头部公司也在应用，更多用户列表见 ClickHouse 官网-用户列表。 ...