现状:
应用侧使用flink cdc消费kafka数据,发现有部分数据消费不到 ,验证情况,topic:cyj_db.1.stream.prodspecinstattrformal 的partition12, 消费到 36,661,513就消费不到数据了,从最新位置能消费数据,offset从后面36,666,513开始也可以
排查:
1.对单个分析消费验证,消费到12分区时,offset 35464134 卡主
./kafka-console-consumer.sh --bootstrap-server 10.141.84.55:11174 --partition 12 --offset 35464134 --topic cyj_db.1.stream.prodspecinstattrformal
2. 12分区对应的broker 当时是 5,
3. 查看borker 5 对上 cyj_db.1.stream.prodspecinstattrformal 的partition12的 segment情况,35464134 正好对应一个segment文件,验证这个segment 文件名就是offset。
4. 对35464134 这个segment文件 ,上下segment文件名中的id 做消费,均正常
5. 怀疑这个文件可能有问题 ,对partition12 leader5 做了切换,切换到2 后,应用方验证正常
6. 问题暂时解决,待应用观察, 还需考虑对消费这个offset文件卡主情况多调试rc分析
kafka集群信息:18台,xxx