我的 Kafka 旅程 - Consumer

kafka采用Consumer消费者Pull主动拉取数据的方式,当Broker无数据时,消费者空转 。Kafka并不删除已消费的消息,各自独立的消费者可消费同一个Broker分区数据 。
消费流程1、消费者发起网络消费请求

  1. # 每批次最小抓取设置(推荐1字节)

  2. fetch.min.bytes

  3. # 每批次最大抓取大小设置(推荐500ms)

  4. fetch.max.bytes

  5. # 未达到大小的超时设置(推荐50M)

  6. fetch.max.wait.ms

2、拉取数据到内存消费队列中
  1. # 单次拉取最大消息条数设置(推荐500条)

  2. max.poll.records

2.1、反序列化处理(对应了Producer端的序列化动作)
2.2、拦截器处理(如:汇总统计记录)
3、数据的后续处理保存等的消费端动作 。
offset当一个消费者挂掉或重启后,是否还记得消费到的位置了?offset解决了此问题 。

对于每一个topic,都会维持一个分区日志 , 分区中的每一个记录都会分配一个Id来表示顺序,称之为offset,offset用来唯一的标识分区中每条记录 , 并将每次的消费位置提交到topic中 。消费者恢复启动后接着按序消费数据 。
自动提交
  1. # 开启自动提交

  2. enable.auto.commit = true

  3. # 每次提交间隔(推荐5秒)

  4. auto.commit.interval.ms = 5000

手动提交先关闭自动提交后,在Consumer客户端的代码中 , 通过调用方法函数提交 , 通常的方法名:
  1. # 同步提交,等提交完成才可下一次再消费

  2. .CommitSync

  3. # 异步提交,可直接进行下一个消费,也有可能提交失败

  4. .CommitAync

指定消费在Consumer客户端的代码中,手动指定offset的位置进行消费,关联到的方法函数名:
  1. # 按指定时间得出offset值

  2. .offsetsForTimes

  3. # 按指定offset值继续消费

  4. .seek

初始策略
  1. # earliest: 最早消费;无offset时,从头开始消费 。

  2. # latest: 最新消费;无offset时,从最新的数据开始消费 。

  3. # none: 无offset时 , 引发异常 。

  4. auto.offset.reset = earliest | latest | none

消费现象重复消费:offset未提交成功,下次消费还是旧的offset 。
漏消费:offset提交成功,消费者端后续的数据处理未完成(建议下游步骤事务处理) 。
消费者组为了实现横向扩展 , 应用程序需要创建一个消费者群组,然后往群组里添加消费者来提高处理效率,群组里的每个消费者只处理一部分消息 。

推荐阅读