具有状态存储的 Kafka Streams - 应用程序重新启动时重新处理消息

2023-12-31

我们有以下带有两个变压器的拓扑，每个变压器都使用持久状态存储：

kStreamBuilder.stream(inboundTopicName)
    .transform(() -> new FirstTransformer(FIRST_STATE_STORE), FIRST_STATE_STORE)
    .map((key, value) -> ...)
    .transform(() -> new SecondTransformer(SECOND_STATE_STORE), SECOND_STATE_STORE)
    .to(outboundTopicName);

和卡夫卡设置有auto.offset.reset: latest。应用程序启动后，我看到创建了两个内部压缩主题（这是预期的）：appId_inbound_firstStateStore-changelog and appId_inbound_secondStateStore-changelog

我们的应用程序停机了两天，在我们再次启动应用程序后，从头开始重新处理特定分区的消息（但我们有多个分区）。我知道对于版本 2 之前的 kafka 代理来说，提交的偏移量会存储大约 1 天，因此我们的偏移量应该通过保留来清理。但是如果我们使用的话为什么消息会从一开始就被重新处理auto.offset.reset: latest?也许它在某种程度上与有状态操作或变更日志内部主题有关。

我看到以下日志（其中大多数都重复多次）：

StoreChangelogReader Restoring task 0_55's state store firstStateStore from beginning of the changelog
Fetcher [Consumer clientId=xxx-restore-consumer, groupId=] Resetting offset for partition xxx-55 to offset 0
ConsumerCoordinator Setting newly assigned partitions
ConsumerCoordinator Revoking previously assigned partitions
StreamsPartitionAssignor Assigned tasks to clients
AbstractCoordinator Successfully joined group with generation
StreamThread partition revocation took xxx ms
Unsubscribed all topics or patterns and assigned partitions
AbstractCoordinator (Re-)joining group
Attempt to heartbeat failed since group is rebalancing
AbstractCoordinator Group coordinator xxx:9092 (id: xxx rack: null) is unavailable or invalid, will attempt rediscovery
FetchSessionHandler - [Consumer clientId=xxx-restore-consumer, groupId=] Error sending fetch request (sessionId=INVALID, epoch=INITIAL) to node 2: org.apache.kafka.common.errors.DisconnectException

卡夫卡经纪人版本0.11.0.2;卡夫卡流版本2.1.0

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ApacheKafka

apachekafkastreams

具有状态存储的 Kafka Streams - 应用程序重新启动时重新处理消息的相关文章

Kafka Streams - 跳跃窗口 - 去重键

我正在 4 小时窗口上进行跳跃窗口聚合每 5 分钟前进一次由于跳跃窗口重叠我得到了具有不同聚合值的重复键 TimeWindows of 240 60 1000L advanceBy 5 60 1000L 如何消除具有重复数据的重复键或
通过SOCKS代理连接Kafka

我有一个在 AWS 上运行的 Kafka 集群我想用标准连接到集群卡夫卡控制台消费者从我的应用程序服务器应用程序服务器可以通过 SOCKS 代理访问互联网无需身份验证如何告诉 Kafka 客户端通过代理进行连接我尝试了很多事情包
Apache Kafka Streams 将 KTable 物化到主题似乎很慢

我正在使用 kafka 流并试图将 KTable 具体化为一个主题它有效但似乎每 30 秒左右完成一次 Kafka Stream 如何何时决定将 KTable 的当前状态具体化为主题有没有什么办法可以缩短这个时间让其更加实时
KafkaConsumer.commitAsync() 行为的偏移量比以前更低

kafka 将如何处理调用 KafkaConsumer commitAsync Map
使用 kafka java api 的 Avro 序列化器和反序列化器

Kafka Avro 序列化器和反序列化器无法工作我尝试使用 kafka 控制台消费者消费消息我可以看到发布的消息 public class AvroProducer
kafka ProducerRecord 和 KeyedMessage 有什么区别

我正在衡量卡夫卡生产者生产者的表现目前我遇到了两个配置和用法略有不同的客户 Common def buildKafkaConfig hosts String port Int Properties val props new Proper
将数据从 Kafka 存储传输到 Kafka 主题

我想在卡夫卡做这样的事情继续将数据存储在 KStream Ktable Kafka store 中当我的应用程序收到特定事件数据时仅将上述存储中的特定数据集发送到主题我们可以在卡夫卡中做到这一点吗我认为单独使用 Kafka 消费
我的 Kafka 流应用程序刚刚退出，代码为 0，什么也不做

为了尝试 Kafka 流我这样做了 public static void main String args final StreamsBuilder builder new StreamsBuilder final Properties
当我重新运行 Flink 消费者时，Kafka 再次消费最新消息

我在用 Scala 编写的 Apache Flink API 中创建了一个 Kafka 消费者每当我从某个主题传递一些消息时它就会及时接收它们但是当我重新启动使用者时它不会接收新的或未使用的消息而是使用发送到该主题的最新消息这
Spring Boot 和 Kafka，Producer 抛出 key='null' 异常

我正在尝试使用Spring Boot with Kafka and ZooKeeper with Docker docker compose yml version 2 services zookeeper image wurstmeist
为什么我无法从外部连接到 Kafka？

我在 ec2 实例上运行 kafka 所以amazon ec2实例有两个ip 一个是内部ip 第二个是外部使用的我从本地计算机创建了生产者但它重定向到内部 IP 并给我连接不成功的错误任何人都可以帮助我在 ec2 实例上配置 kafk
Kafka 中的内部和外部通信

流动本地 gt 代理 gt Kafka advertised listeners PLAINTEXT proxyhostname 8080 for external communication listeners PLAINTEXT 90
创建 Kafka 主题导致没有领导者

我正在使用 Kafka v0 9 0 1 Scala v2 11 和com 101tec zkclientv0 7 我正在尝试使用AdminUtils创建一个kafka主题我的代码如下 String zkServers node1 218
Spring Kafka Acknowledgement.acknowledge 线程安全吗？

我正在实现一个基于卡夫卡的应用程序我想在其中手动确认传入消息架构迫使我在单独的线程中完成它问题是在与消费者不同的线程中执行 Acknowledgement acknowledge 是否可能且安全是的只要你使用MANUAL并不是M
带有 spring-kafka 的 Kafka 死信队列 (DLQ)

最好的实施方式是什么死信队列 DLQ Spring Boot 2 0 应用程序中的概念使用 spring kafka 2 1 x 来处理无法处理的所有消息 KafkaListener某些bean发送到某些预定义的Kafka DLQ主题的方
Kafka 是否保证具有任何配置参数值的单个分区内的消息排序？

如果我在 Producer 中将 Kafka 配置参数设置为 1 retries 3 2 max in flight requests per connection 5 那么一个分区内的消息很可能不按 send order 排列 Kafka
从kafka获取特定时间段的结果

这是我的代码它使用kafka python now datetime now month ago now relativedelta month 1 topic some topic name consumer KafkaConsumer
如何使用PySpark结构流+Kafka

我尝试将 Spark 结构流与 kafka 一起使用并且在使用 Spark 提交时遇到问题消费者仍然从生产中接收数据但 Spark 结构出错请帮我找到我的代码的问题这是我在 test py 中的代码 from kafka impo
即使在 Kafka 中进行轮询后，当前也不会发生分区分配

我有 Java 8 应用程序与 Apache Kafka 2 11 0 10 1 0 一起使用我需要使用seek特征为poll来自分区的旧消息然而我遇到了一个例外No current assignment for partition每次
卡夫卡监听器中的钩子

kafka 监听消息之前之后是否有任何类型的钩子可用使用案例必须设置MDC关联id才能进行日志溯源我在寻找什么之前之后回调方法以便可以在进入时设置 MDC 关联 ID 并最终在退出时清除 MDC 编辑后的场景我将关联 id

随机推荐

上传到 Google Play 后，谷歌地图不显示

我将我的应用程序上传到谷歌游戏商店但地图不起作用只显示白屏我知道我必须根据发布证书指纹获取密钥我已尝试阅读所有相关内容并执行了以下操作但它仍然不起作用我从 Android Studio 创建了一个新的密钥库带有密码别名和密
内存映射文件偏移低

我正在用 C 和 Visual Studio 编写 Windows 程序我必须映射一个文件而不是从它的第 750 个字节访问它我试过 pFile char MapViewOfFile hMMap FILE MAP ALL ACCESS
如何使用scrapy抓取javascript实现的多页数据

我想用scrapy从网页中爬取数据但是从url上看不出不同页面之间的区别例如上面的url是我要抓取数据的第一个页面很容易从中获取数据这是我的代码 author Rabbit from scrapy spiders import S
使用 jQuery Mobile 的动态页面

我已经使用 jQuery 有一段时间了并且迈出了使用 jQuery Mobile 的第一步我使用index html作为我的应用程序的jQuery Mobile和设计它在加载后立即调用content php 所有页面的列表视图中的内
在 C++ 的动态内存分配（堆）中，“删除”运算符实际上是如何在幕后工作的？

我不明白删除运算符在 C 中是如何在幕后实际实现的例如 class Node int i Node left right int main Node a new Node somehow the object a is initial
合并两个 Git 存储库而不破坏文件历史记录

我需要将两个 Git 存储库合并到一个全新的第三个存储库中我发现了许多关于如何使用子树合并来执行此操作的描述例如雅库布纳伦布斯基的回答 https stackoverflow com a 1426163 on 如何合并两个 Git 存
跟踪视频中的眼睛瞳孔

我正在开展一个项目旨在追踪眼睛瞳孔为此我制作了一个头戴式系统来捕获眼睛的图像硬件部分我已经完成了在软件中被击中部分我在用opencv 请让我知道跟踪瞳孔最有效的方法是什么霍夫圆表现不佳之后我也尝试过HSV过滤器这是代码和链
在 onStop 之前隐藏视图？

当用户按下主页按钮时调用 onStop 方法系统会截取屏幕截图当用户按住主页按钮在 Android 手机上时可以在打开的应用程序中看到屏幕截图我的问题是如何防止任何可以拿起手机并按住主页按钮的人看到敏感数据想象一下应用程序
它是可调用损失函数（以函数的形式）的 TensorFlow 最佳实践吗？除了 Eager Execution 兼容性之外，还有其他优点吗？

热切执行要求传递给任何优化器的任何损失都可以被调用即以函数的形式所以这没问题 def loss function return tf reduce mean tf nn sampled softmax loss weights soft
glibc的写入是如何工作的？

我尝试编译一个简单的程序名为write with nostdlib 但我收到错误 path to file 3 undefined reference to write 我想write是 Unix 的东西并且一直存在但显然不是事实证明
解析一个数字但保留负数

我正在尝试将数字取消格式化为其原始形式但保留它是否为负数堆栈溢出上的某人引导我找到了这段代码该代码工作得非常好但它没有保留负数有人能帮我更好地解决这个问题吗 EDIT 对于美元货币普通数字 Example 1 234 1234
如何更新 OpenJDK 的时区信息？

如何更新 OpenJDK 的时区信息 Oracle 推出了 tzupdater 但它受到他们的许可证的约束所以我不想使用它我正在寻找一个开源替代方案它允许我只更新时区信息而不是整个 JRE Azul 最近发布了一个开源工具来更新 TZ
用随机数据填充表

我有如下两张表区域表 AreaKey AreaID
以编程方式将 NSScrollView 滚动到右侧

一切都在标题中我想以编程方式滚动NSScrollView向右这样我就可以看到文档的结尾我试过这个 let width scrollView frame size width let height scrollView frame si
无法运行“phonegap run android”，抛出异常

我想开始使用 Phonegap 开发东西我按照他们网站上的说明进行操作 http phonegap com install http phonegap com install 当我执行 phonegap run android 时它给了
避免PHP执行时间限制

我需要用 PHP 语言创建一个脚本来执行数字排列但 PHP 的执行时间限制设置为 60 秒我怎样才能运行脚本以便在需要运行超过60个sesunde时不被服务器中断我知道我可以更改 php 中的最大执行时间限制但我想听到另一个不需
获取 woocommerce 子类别产品

我正在尝试让 woocommerce 子类别中的产品显示在主要类别下 ul class wsubcategs li a href a li ul
使用 ruby 加密数据，使用 Node 解密

我想在 ruby 应用程序中加密一些数据然后在 nodejs 应用程序中对其进行解码我一直在尝试让它发挥作用现在我只是尝试用两种语言加密同一段数据以获得相同的结果但我似乎无法做到这一点 js var crypto require c
在 Log4j2 中扩展 PatternLayout

自从 Log4J2 以来org apache logging log4j core layout PatternLayout班级是final 我无法扩展它来为我的创建标头CSV 我引用了文档它没有提供有关如何扩展现有布局的信息 http
具有状态存储的 Kafka Streams - 应用程序重新启动时重新处理消息

我们有以下带有两个变压器的拓扑每个变压器都使用持久状态存储 kStreamBuilder stream inboundTopicName transform gt new FirstTransformer FIRST STATE STOR

具有状态存储的 Kafka Streams - 应用程序重新启动时重新处理消息

具有状态存储的 Kafka Streams - 应用程序重新启动时重新处理消息 的相关文章

随机推荐

热门标签

具有状态存储的 Kafka Streams - 应用程序重新启动时重新处理消息的相关文章