

一、Kafka 概述


Kafka 是一个分布式的基于公布 / 订阅模式的 音讯队列 ,次要利用于 大数据实时处理畛域


(1)Producer:音讯生产者,就是向 kafka broker 发消息的客户端;
(2)Consumer:音讯消费者,向 kafka broker 取音讯的客户端;
(3)Consumer Group(CG):消费者组,由多个 consumer 组成。消费者组内每个消费者负责生产不同分区的数据,一个分区只能由一个消费者生产;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。
(4)Broker:一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 能够包容多个 topic。
(5)Topic:能够了解为一个队列,生产者和消费者面向的都是一个 topic
(6)Partition:为了实现扩展性,一个十分大的 topic 能够散布到多个 broker(即服务器)上,一个 topic 能够分为多个 partition每个 partition 是一个有序的队列
(7)Replica:正本,为保障集群中的某个节点产生故障时,该节点上的 partition 数据不失落,且 kafka 依然可能持续工作,kafka 提供了正本机制,一个 topic 的每个分区都有若干个正本,一个 leader 和若干个 follower。
(8)leader:每个分区多个正本的“主”,生产者发送数据的对象,以及消费者生产数据的对象都是 leader。
(9)follower:每个分区多个正本中的“从”,实时从 leader 中同步数据,放弃和 leader 数据的同步。leader 产生故障时,某个 follower 会成为新的 leader。


对于消费者组(Consumer Group)规定,同一消费者组内不容许多个消费者生产同一分区的音讯,而不同的消费者组能够同时生产同一分区的音讯。也就是说,分区与同一个消费者组中的消费者的对应关系是多对一而不是一对多。

二、集群装置 Kafka


Kafka 依赖 Zookeeper 集群,搭建 Kafka 集群之前,须要先搭建好 Zookeeper 集群,咱们在前边曾经搭建过 Zookeeper 集群了。

kafka 和 Zookeeper 版本对应关系:

从 Apache 官网 下载 kafka(地址:http://kafka.apache.org/downl…)的稳固版本,咱们依据之 Zookeeper 版本,下载kafka_2.12-2.5.0.tgz(因为 Kafka 应用 Scala 和 Java 编写,2.12 指 Scala 版本号,2.5.0 指 Kafka 版本号)

在 centos01 节点中,切换到目录 /opt/softwares/ 中,并进入到该目录中,先下载,而后解压到目录 /opt/modules/

$ cd /opt/softwares/
$ wget https://archive.apache.org/dist/kafka/2.5.0/kafka_2.12-2.5.0.tgz
$ tar -zxvf kafka_2.12-2.5.0.tgz -C /opt/modules/


切换目录到装置目录下,装置目录名字 kafka_2.12-2.5.0

cd /opt/modules/kafka_2.12-2.5.0

在 /opt/modules/kafka_2.12-2.5.0 目录下创立 logs 文件夹

[root@centos01 kafka_2.12-2.5.0]# mkdir logs
[root@centos01 kafka_2.12-2.5.0]# ls -l
总用量 56
drwxr-xr-x. 3 root root  4096 4 月   8 2020 bin
drwxr-xr-x. 2 root root  4096 4 月   8 2020 config
drwxr-xr-x. 2 root root  8192 7 月  29 23:17 libs
-rw-r--r--. 1 root root 32216 4 月   8 2020 LICENSE
drwxr-xr-x. 2 root root     6 7 月  29 23:49 logs
-rw-r--r--. 1 root root   337 4 月   8 2020 NOTICE
drwxr-xr-x. 2 root root    44 4 月   8 2020 site-docs
[root@centos01 kafka_2.12-2.5.0]# 

批改配置文件 /config/server.properties


#broker 的全局惟一编号,不能反复
#topic 在以后 broker 上的分区个数, 默认为 1,能够减少分区的数量,然而不能缩小分区的数量
#Socket 监听地址,用于 Broker 监听生产者和消费者申请,如果没有配置该参数,则默认通过 Java 的 API 来获取主机名
#kafka 运行日志寄存的门路
#配置连贯 Zookeeper 集群地址


[root@centos01 config]# cat server.properties 
centos01 节点装置实现后,须要复制整个 kafka 装置目录到 centos02、centos03 节点,命令如下:

# centos02 主机用户 hadoop 的明码为 hadoop@123
$ scp -r /opt/modules/kafka_2.12-2.5.0  hadoop@centos02:/opt/modules/
$ scp -r /opt/modules/kafka_2.12-2.5.0  hadoop@centos03:/opt/modules/


cd /opt/modules/kafka_2.12-2.5.0/config

vi server.properties,centos02 配置文件批改为:

#broker 的全局惟一编号,不能反复,broker.id=2
#Socket 监听地址,用于 Broker 监听生产者和消费者申请,如果没有配置该参数,则默认通过 Java 的 API 来获取主机名

centos03 配置文件同上。

5、启动 Zookeeper 集群

别离在三个节点执行以下命令,启动 Zookeeper 集群(须要进入 Zookeeper 装置目录)

cd /opt/modules/zookeeper-3.5.9/bin
[root@centos01 bin]# ./zkServer.sh start

6、启动 Kafka 集群

别离在三个节点上执行以下命令,启动 Kafka 集群(须要进入 Kafka 装置目录)

cd /opt/modules/kafka_2.12-2.5.0
bin/kafka-server-start.sh -daemon config/server.properties


cd /opt/modules/kafka_2.12-2.5.0/bin

集群启动后,别离在各个节点上执行 jps 命令,查看启动的 java 过程

[root@centos01 kafka_2.12-2.5.0]# bin/kafka-server-start.sh -daemon config/server.properties
[root@centos01 kafka_2.12-2.5.0]# jps
7356 QuorumPeerMain
8142 Jps
8111 Kafka
[root@centos01 kafka_2.12-2.5.0]# 

能够看到 kafka 曾经启动胜利了 ^_^

7、kafka 群起脚本(须要批改)

for i in `cat /opt/module/hadoop-2.7.2/etc/hadoop/slaves`
echo "========== $i ==========" 
ssh $i '/opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/server.properties'
echo $?