关于大数据:ClickHouse单机和分片集群安装与特点介绍

4次阅读

共计 3028 个字符,预计需要花费 8 分钟才能阅读完成。

  • 介绍

    ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),应用 C ++ 语言编写,次要用于在线剖析解决查问(OLAP)
    适宜单条 sql 的查问 多表 join 能力较差

  • 特点

    列式贮存

     对应列的聚合, 计算, 求和速度优于行式贮存 
     又于列的数据类型雷同 能够应用更加高效的压缩形式 
     数据压缩的更好 一方面节约磁盘空间 另一方面对 cache(高速缓存器)有更大      的施展空间 
     吞吐量高、性能强,一致性、事务性较弱
     数据易保护,当咱们更新数据时,历史数据会有版本号,不会被扭转或者隐没。毛病也很显著。列式存储在表关联上不不便 适宜数据分析 不适宜简单业务 

    DBMS 性能

    实现了规范的 SQL 语法 DDL ,DML 含有大量函数(不反对自定义函数) 用户治理好权限治理, 含有数据备份和复原

    多样化引擎

    多种引擎 适应不同的业务场景 20 多种  合并树, 日志 , 接口, 等等

    高吞吐写入

    ClickHouse 采纳类 LSM Tree 的构造,数据写入后定期在后盾 Compaction。ckHouse 在数据导入时全副是程序 append 写 compaction 时也是多个段 merge sort 后程序写回磁盘
    官网公开 benchmark 测试显示可能达到 50MB-200MB/ s 的写入吞吐能力,依照每行 100Byte 估算,大概相当于 50W-200W 条 / s 的写入速度。

    数据分区与线程级并行

    单条 Query 就能利用整机所有 CPU , 分区建索引 , 并行查问 
    有一个弊病就是对于单条查问应用多 cpu,就不利于同时并发多条查问
  • Clickhouse 装置

  • 1 敞开防火墙

    systemctl status firewalld.service 
    systemctl stop firewalld.service 
    systemctl start firewalld.service
  • 2 装置依赖

    每个节点执行
    sudo yum install -y libtool
    sudo yum install -y *unixODBC*    
  • 3 CentOS 关上文件数数限度 勾销 SELINUX

      $ sudo vim /etc/security/limits.conf
      #增加以下内容
      * soft nofile 65536
      * hard nofile 65536
      * soft nproc 131072
      * hard nproc 131072
      $ sudo vim /etc/security/limits.d/20-nproc.conf
      #增加以下内容
      * soft nofile 65536
      * hard nofile 65536
      * soft nproc 131072
      * hard nproc 131072
    sudo vim /etc/selinux/config
    SELINUX=disabled

    节点同步文件
    重启服务器

  • 4 在线装置 每台都须要

    sudo yum install yum-utils
    sudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
    sudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64
    sudo yum install clickhouse-server clickhouse-client
    

    或者通离线装置 sudo rpm -ivh *.rpm

  • 5 批改配置文件

    sudo vim /etc/clickhouse-server/config.xml
    把 <listen_host>::</listen_host> 的正文关上,这样的话能力让 ClickHouse 被除本机![image.png](/img/bVcU1T3)
    散发配置文件
  • 6 启动 clickhouse

    sudo systemctl start clickhouse-server`
    连贯测试 clickhouse-client -m  
    或者:
    TZ=Asia/Shanghai clickhouse-client -m
    - m 是能够换行输出命令

  • 分片集群的部署

    留神:ClickHouse 的集群是表级别的,理论企业中,大部分做了高可用,然而没有用分片,防止升高查问性能以及操作集群的复杂性。

  • 配置 6 节点的集群和正本 三分片二正本

    创立 /etc/clickhouse-server/config.d/metrika-shard.xml 文件
    批改文件

    <yandex>
        <clickhouse_remote_servers>
            <gmall_cluster> <!-- 集群名称 --> 
                <shard>  <!-- 集群的第一个分片 -->
                    <internal_replication>true</internal_replication>
                    <!-- 该分片的第一个正本 -->
                    <replica>    
                        <host>hadoop101</host>
                        <port>9000</port>
                     </replica>
                     <!-- 该分片的第二个正本 -->
                     <replica> 
                        <host>hadoop102</host>
                        <port>9000</port>
                     </replica>
                </shard>
    
                  <shard>  <!-- 集群的第二个分片 -->
                     <internal_replication>true</internal_replication>
                     <replica>    <!-- 该分片的第一个正本 -->
                        <host>hadoop103</host>
                         <port>9000</port>
                     </replica>
                     <replica>    <!-- 该分片的第二个正本 -->
                        <host>hadoop104</host>
                        <port>9000</port>
                     </replica>
                  </shard>
    
                  <shard>  <!-- 集群的第三个分片 -->
                     <internal_replication>true</internal_replication>
                     <replica>     <!-- 该分片的第一个正本 -->
                        <host>hadoop105</host>
                        <port>9000</port>
                     </replica>
                     <replica>    <!-- 该分片的第二个正本 -->
                        <host>hadoop106</host>
                        <port>9000</port>
                     </replica>
                  </shard>
            </gmall_cluster>
        </clickhouse_remote_servers>
    </yandex>
    

    同步散发, 重启服务

  • 创立集群表
    会主动同步 但每个节点上只能够查本人的数据

    create table st_order_mt on cluster gmall_cluster (
        id UInt32,
        sku_id String,
        total_amount Decimal(16,2),
        create_time  Datetime
     ) engine =ReplicatedMergeTree('/clickhouse/tables/{shard}/st_order_mt_0108','{replica}')
       partition by toYYYYMMDD(create_time)
       primary key (id)
       order by (id,sku_id);

    创立总表(能够查看所有分片数据)

    create table st_order_mt_all on cluster gmall_cluster
    (
        id UInt32,
        sku_id String,
        total_amount Decimal(16,2),
        create_time  Datetime
    )engine = Distributed(gmall_cluster,default, st_order_mt,hiveHash(sku_id));
正文完
 0