关于java:kafka实战二消息消费实战

3次阅读

共计 8477 个字符，预计需要花费 22 分钟才能阅读完成。

- [一、前言]
- [二、消费者生产形式回顾]
- [三、消费者生产外围点剖析]
- [四、手动提交 offset 实战]
- - [4.1、引入 maven 依赖]
  - [4.2、实现一个简略的手动提交 offset 消费者 demo]
  - [4.3、答疑解惑]
  - [4.4、运行调试]
- [五、主动提交 offset 实战]
- [六、两种提交 offset 形式的比照]
- [七、总结]

上一篇文章剖析了 kafka 生产者发送音讯的流程并进行了具体的解释和实战。其中蕴含了 新版本的 kafka 对于同步发送音讯和异步发送音讯的 api 实现 ，以及kafka 源码里的回调函数和架构外部的失败重试机制 等都给出了底层的具体解释及 java 实战 demo。

留神：我所应用的 kafka 版本为 2.4.1，java 版本为 1.8，本文会对一些新老版本的改变中央加以阐明。

首先咱们回顾一下 kafka 生产音讯的形式，kafka 是应用 pull（拉）模式从 broker 中读取数据的，而后就有两个疑难须要解答一下了。
疑难一：那为什么不采纳 push（推，填鸭式教学）的模式给消费者数据呢？

首先回忆下咱们上学学习不就是各种填鸭式教学吗？不论你三七二十一，就是依照教学进度给你灌输知识，能不能承受是你的事，并美其名曰：优胜略汰！

其实这种 push 形式在 kafka 架构里显然是不合理的，比方一个 broker 有多个消费者，它们的生产速率不同，一昧的 push 只会给消费者带来拒绝服务以及网络拥塞等危险。而 kafka 显然不可能去放弃速率低的消费者，因而 kafka 采纳了 pull 的模式，能够依据消费者的生产能力以适当的速率生产 broker 里的音讯。

疑难二：让消费者去被动 pull 数据就美中不足了吗？

同样联想上学的场景，如果把学习主动权全副交给学生，那有些学生想学的货色老师那里没有怎么办？那他不就陷入了一辈子就在那一直求索，然而别的也啥都学的这个死循环的状态了。

其实让消费者去被动 pull 数据天然也是有毛病的。采纳 pull 模式后，如果 kafka 没有数据，消费者可能会陷入循环中，始终返回空数据，这样超级频繁的返回空数据太耗费资源了。为了解决这个问题，Kafka 消费者在生产数据时会传入一个时长参数 timeout，如果以后没有数据可供生产，消费者会期待一段时间之后再返回，这段时长即为 timeout。

留神：老版本还能够依据条数来判断，消费者期待肯定的条数后返回，不过新版本给勾销了。

咱们晓得，数据在 kafka 中是能够长久化的，因而 consumer 生产数据的可靠性是不必放心的，也就是说不必放心数据的失落问题，数据的生产是可控的。

疑难：那它是怎么管制的呢？

咱们假如 consumer 在生产过程中呈现了断电宕机等故障，而后它复原后，须要从故障前的地位持续生产，所以 consumer 须要实时记录本人生产到了哪个offset，以便故障复原后持续生产。

所以消费者生产数据的外围点在于 offset 的保护，而在撸代码时，offset 的保护又分为手动提交和主动提交，它们是怎么玩的呢？又有哪些优缺点？都利用于哪些场景呢？当初就让咱们一起来见真章！

大家能够依据本人的 kafka 版本在 mvn 上找到适宜本人的依赖，因为只是做简略的音讯生产，所以只须要和上一篇文章的音讯发送一样，引入 kafka-clients 依赖即可。我的 kafka 版本为 2.4.1，所以我须要引入的依赖为：

<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-clients</artifactId>
    <version>2.4.1</version>
</dependency>

又到了令人兴奋 掉头发 的撸代码工夫了，老规矩，先介绍一下待会会用到的类：

KafkaConsumer：和前文的 KafkaProducer 一唱一和，用来创立一个消费者对象进行数据生产；
ConsumerConfig：获取各种配置参数，如果不去配置，就是用默认的；
ConsuemrRecord：每条数据都要封装成一个 ConsumerRecord 对象才能够进行生产。

那上面就开始写了，这个简略的 demo 一共分为四步：

第一步：对 Properties 参数进行配置。

消费者的配置参数十分多，不倡议都去记忆，能够记住几个罕用的，对于不罕用的咱们能够在用到的时候去 ConsumerConfig 源码或者 kafka 官网去查，还是比拟不便的。kafka 官网对于 consumerconfigs 网址：

http://kafka.apache.org/documentation/#consumerconfigs

在这个简略的 demo 里，咱们须要用到上面这几个参数：

Properties 参数

对应变量

性能

bootstrap.servers

BOOTSTRAP_SERVERS_CONFIG

指定 kafka 集群

key.deserializer

KEY_DESERIALIZER_CLASS_CONFIG

序列化 key

value.deserializer

VALUE_DESERIALIZER_CLASS_CONFIG

序列化 value

enable.auto.commit

ENABLE_AUTO_COMMIT_CONFIG

主动提交 offset，默认为 true

group.id

GROUP_ID_CONFIG

消费者组 ID，只有 group.id 雷同，就属于同一个消费者组

晓得了这些变量的含意，代码就进去了：
```
Properties props = new Properties();
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "kafka-1:9092");
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "false");

props.put(ConsumerConfig.GROUP_ID_CONFIG, "csdn");
```
解释：这里咱们不容许主动提交，所以把 enable.auto.commit 设置为 false，而后给咱们的消费者定一个消费者组，叫做“csdn”。
第二步：创立 1 个消费者。

和生产者相似的操作，这里应用传参的形式来创立消费者：
```
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
```
第三步：订阅 topic 主题。

当初消费者有了，你要通知它去生产哪个或哪些 topic 才行，能够传入多个 topic：
```
consumer.subscribe(Arrays.asList("testKafka"));
```

第四步：循环生产并提交 offset。

到这里，消费者有了，它也晓得要去生产哪个 topic 了，那接下来写个循环，让它去生产就好了。这部分还有几个知识点，先看代码，而后我再解释：

while (true) {ConsumerRecords<String, String> records = consumer.poll(100);
    for (ConsumerRecord<String, String> record : records) {System.out.println("topic =" + record.topic() + "offset =" + record.offset() + "value =" + record.value());
    }
    consumer.commitAsync();
  //consumer.commitSync();}

看第四步的代码，外面蕴含了一些知识点，不理解的话可能会有一些疑难，上面对应解释如下：

疑难一：consumer.poll(100)，这里的 poll 办法是干啥的？传入的 100 又是啥？有啥用呢？

poll 是 consumer 对象的一个办法，后面第二节的第二个疑难，咱们解释了 pull 并不是美中不足的，如果 broker 里这个 topic 没有数据，你就让这个消费者始终去拉空数据吗？必定是不合理的，所以这里的 100 代表了 timeout，单位是 ms，如果以后没有数据可供生产，消费者会期待 100ms 之后再返回数据。

疑难二：poll 办法拿到的数据是一条还是一批？

这里要留神：它是一批一批去拿，不是一条哦。

疑难三：record 都能拿到哪些信息呢？

能够拿到诸如 offset，partition，topic，key 等信息，具体的信息及类型能够看下图：

疑难四：我看你最初提交 offset 应用了 commitAsync，或者 commitSync，它们是啥？这两个形式有什么区别吗？

commitSync（同步提交）和 commitAsync（异步提交）是手动提交 offset 的两种形式。

两者的相同点是：都会将本次 poll 的一批数据外面最高的偏移量提交；

不同点是：commitSync 会失败重试，始终到提交胜利（如果因为不可复原起因导致，也会提交失败）；而 commitAsync 则没有失败重试机制，故有可能提交失败。

留神：尽管 commitAsync 没有失败重试机制，然而咱们理论工作中还是用它比拟多，因为 commitAsync 尽管可能提交失败，然而失败后下一次从新提交（变相的相当于重试），对数据并没有什么影响，而且异步提交的提早较同步提交较低。

疑难五：代码的最初为什么不和生产者一样进行 close 呢？

其实就像 spark streaming 和 flink streaming 一样，对于须要始终生产的角色，是没有 close 办法的，要么 close 是内嵌在别的办法之内，要么就是不须要 close。比方这里的 kafka 的 consumer，咱们是用来测试根底 demo 框架的，因而不须要 close，让它始终读对应 topic 的数据就好，理论生产中，kafka 和 spark streaming 或者 flink 对接，是会始终进行数据的生产的，也不须要 close。

这些纳闷都解决后，就能够运行代码调试了，上面列出全副代码：

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.util.Arrays;
import java.util.Properties;

/**
 * @author ropleData
 * 博客地址：https://blog.csdn.net/qq_26803795
 * 专一大数据畛域，欢送拜访
 */
public class consumerDemo {public static void main(String[] args) {

        //1. 配置参数
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "kafka-1:9092");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "false");

        props.put(ConsumerConfig.GROUP_ID_CONFIG, "1205");

        //2. 创立 1 个消费者
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);

        //3. 订阅主题 topic
        consumer.subscribe(Arrays.asList("testKafka"));

        //5. 调用 poll 输入数据并提交 offset
        while (true) {ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {System.out.println("topic =" + record.topic() + "offset =" + record.offset() + "value =" + record.value());
            }
            consumer.commitAsync();
//            consumer.commitSync();}
    }
}

首先启动咱们的生产代码，而后在 kafka 某个 broker 下启动命令行调试，创立 testKafka 生产者，命令如下：

bin/kafka-console-producer.sh --broker-list 192.168.8.45:9092 --topic testKafka

而后输出局部数据信息：

这时候察看生产端：

能够得出结论，咱们的简略 demo 曾经实现了。

尽管是一个简略的 demo，然而运行调试这里依然可能玩出花来，能够很透测的了解 3 种分区调配策略，也能够比照出异步提交 offset（commitAsync）和同步提交 offset（commitSync）的区别。

对于三种分区调配策略，我的一篇文章曾经举例讲的很分明了，这里就不反复做对应的试验了，强烈建议对照着，多启动几个消费者试验一下数据的生产状况，来印证一下它们的特点，加深印象。
相干文章：深入分析 Kafka（三）：消费者生产形式、三种分区调配策略、offset 保护

其实手动提交和主动提交 offset 的代码差别很小，次要体现在：

配置参数，改一个，加一个。

批改：主动提交 offset（enable.auto.commit）为 true；

新增：主动提交工夫距离（auto.commit.interval.ms）单位 ms，设置主动提交 offset 的工夫距离。
```
props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "true");
props.put("auto.commit.interval.ms", "1000");
```

输入数据后不在写提交 offset 代码。

//5. 调用 poll 输入数据(不必主动提交 offset)
while (true) {ConsumerRecords<String, String> records = consumer.poll(100);
    for (ConsumerRecord<String, String> record : records) {System.out.println("topic =" + record.topic() + "offset =" + record.offset() + "value =" + record.value());
    }
}

具体就不再演示了，前面会剖析主动提交 offset 和手动提交 offset 的区别，残缺代码如下：

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.util.Arrays;
import java.util.Properties;

/**
 * @author ropleData
 * 博客地址：https://blog.csdn.net/qq_26803795
 * 专一大数据畛域，欢送拜访
 */
public class consumerAutoCommitDemo {public static void main(String[] args) {

        //1. 配置参数
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "kafka-1:9092");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "true");
        props.put("auto.commit.interval.ms", "1000");


        props.put(ConsumerConfig.GROUP_ID_CONFIG, "1205");

        //2. 创立 1 个消费者
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);

        //3. 订阅主题 topic
        consumer.subscribe(Arrays.asList("testKafka"));

        //5. 调用 poll 输入数据(不必主动提交 offset)
        while (true) {ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {System.out.println("topic =" + record.topic() + "offset =" + record.offset() + "value =" + record.value());
            }
        }
    }
}

个别是在理论生产中罕用手动提交 offset 这种形式，因为手动提交 offset 取到的数据是可控的。

疑难：怎么管制的呢？

如果先生产数据后提交 offset，这时候如果在提交 offset 的时候挂掉了，起初复原后，会反复生产那条 offset 的数据，这样会数据反复，但也就是保障了数据的起码一次性（at least once）;

如果先提交 offset 后生产数据，这时候如果在提交 offset 的时候挂掉了，起初复原后，那局部 offset 尽管提交了，但其实是没有生产的，因而就照成了数据的失落，然而不会反复，也就保障了数据的最多一次性（at most once）。

也就是说手动提交 offset 的时候，是通过管制提交 offset 和生产数据的程序来实现的。

反观主动提交 offset，因为是依据工夫来主动提交的，因而是出了问题之后齐全不可控的，因而在理论生产中不常应用。

本文对 kafka 是怎么进行数据生产的，以及各个知识点进行了答疑解惑和代码的剖析，应该能够弄明确 kafka 的生产的形式以及相干的难点，同时也解释了一些写手动提交 offset 代码时大家可能有纳闷的中央，并比照了两种手动提交 offset 的形式。咱们还对手动提交 offset 还是主动提交 offset 别离进行了代码的编写以及两者在理论生产中的比照。

残缺的代码已上传，感兴趣的能够下载查看。

github：https://github.com/ropleData/kafkaConsumerDemo

正文完

java

发表至： java

2020-12-31

0

SpringBoot

关于java:京东一面Redis-如何实现库存扣减操作如何防止商品被超卖

适配Android WebView支持上传图片，视频

关于java:ERP出入库进阶操作与子流程开源软件诞生28

关于javascript:零基础小白从入门到实战之初识类和对象

关于java:kafka实战二消息消费实战

文章目录

一、前言

二、消费者生产形式回顾

三、消费者生产外围点剖析

四、手动提交 offset 实战

4.1、引入 maven 依赖

4.2、实现一个简略的手动提交 offset 消费者 demo

4.3、答疑解惑

4.4、运行调试

五、主动提交 offset 实战

六、两种提交 offset 形式的比照

七、总结

站内搜索