Kafka Streams 重新平衡高吞吐量 kafka-streams 服务上的延迟峰值

2023-12-22

我们开始使用 Kafka 流，我们的服务是一个非常简单的无状态消费者。

我们对延迟的要求很严格，当消费者组重新平衡时，我们面临着过高的延迟问题。在我们的场景中，重新平衡会相对频繁地发生：滚动更新代码、扩大/缩小服务、容器被集群调度程序洗牌、容器死亡、硬件故障。

我们所做的第一个测试是让一个由 4 个消费者组成的小型消费者组处理少量消息（1K/秒）并杀死其中一个；集群管理器（目前是 AWS-ECS，可能很快就会转向 K8S）启动一个新的集群管理器。因此，进行了不止一次的重新平衡。

我们最关键的指标是延迟，我们将其衡量为发布者中的消息创建和订阅者中的消息消费之间的毫秒数。我们发现最大延迟从几毫秒飙升至近 15 秒。

我们还进行了一些滚动更新代码的测试，但结果更糟，因为我们的部署没有为 Kafka 服务做好准备，并且触发了很多重新平衡。我们需要解决这个问题，但想知道其他人在以尽可能小的延迟进行代码部署/自动扩展时遵循的策略是什么。

不确定它是否有帮助，但我们对消息处理的要求相当宽松：我们不关心某些消息不时被处理两次，或者对消息的顺序非常严格。

我们使用所有默认配置，没有进行任何调整。

我们需要改善重新平衡期间的延迟峰值。有人可以给我们一些关于如何处理它的提示吗？触摸配置就够了吗？我们需要使用一些具体的分区分配器吗？实施我们自己的？

以尽可能最小的延迟进行代码部署/自动扩展的推荐方法是什么？

我们的Kafka版本是1.1.0，在查看了例如kafka/kafka_2.11-1.1.0-cp1.jar的库后，我们安装了Confluence平台4.1.0。在消费者方面，我们使用Kafka-streams 2.1.0。

感谢您阅读我的问题和您的回复。

如果差距主要是由重新平衡引入的，意味着不触发重新平衡，而是让 AWS / K8s 继续工作并恢复弹回的实例并支付弹跳期间的不可用时间 --- 请注意，对于无状态实例，这通常更好，而对于有状态应用程序，您最好确保重新启动的实例可以访问其关联的存储，以便可以节省从更改日志进行引导的时间。

要做到这一点：

在 Kafka 1.1 中，为了减少不必要的重新平衡，您可以增加组的会话超时，以便协调器对未通过心跳响应的成员变得“不那么敏感”——请注意，我们从 0.11.0 开始为 Streams 禁用了 Leave.group 请求'消费者（https://issues.apache.org/jira/browse/KAFKA-4881 https://issues.apache.org/jira/browse/KAFKA-4881）因此，如果我们的会话超时时间较长，则离开组的成员不会触发重新平衡，但成员重新加入仍会触发重新平衡。不过，少一次重新平衡总比没有好。

不过，在即将到来的 Kafka 2.2 中，我们在优化重新平衡场景方面做了很大的改进，主要体现在 KIP-345 中（https://cwiki.apache.org/confluence/display/KAFKA/KIP-345%3A+Introduce+static+membership+protocol+to+reduce+consumer+rebalances https://cwiki.apache.org/confluence/display/KAFKA/KIP-345%3A+Introduce+static+membership+protocol+to+reduce+consumer+rebalances）。通过 KIP-345 中引入的合理配置设置，滚动反弹会触发更少的重新平衡。所以我强烈建议您升级到2.2，看看它是否对您的情况有帮助

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Kafka Streams 重新平衡高吞吐量 kafka-streams 服务上的延迟峰值的相关文章

java.lang.NoClassDefFoundError：org.apache.batik.dom.svg.SVGDOMImplementation

我在链接到我的 Android LibGDX 项目的 Apache Batik 库时遇到了奇怪的问题但让我们从头开始在 IntelliJ Idea 中我有一个项目其中包含三个模块 Main Android 和 Desktop 我强调的
Java new Date() 打印

刚刚学习 Java 我知道这可能听起来很愚蠢但我不得不问 System out print new Date 我知道参数中的任何内容都会转换为字符串最终值是 new Date 返回对 Date 对象的引用那么它是如何打印这个的呢 Mo
Java Swing：从 JOptionPane 获取文本值

我想创建一个用于 POS 系统的新窗口用户输入的是客户拥有的金额并且窗口必须显示兑换金额我是新来的JOptionPane功能我一直在使用JAVAFX并且它是不同的这是我的代码 public static void main Str
为什么 i++ 不是原子的？

Why is i Java 中不是原子的为了更深入地了解 Java 我尝试计算线程中循环的执行频率所以我用了一个 private static int total 0 在主课中我有两个线程主题 1 打印System out prin
INSERT..RETURNING 在 JOOQ 中不起作用

我有一个 MariaDB 数据库我正在尝试在表中插入一行users 它有一个生成的id我想在插入后得到它我见过this http www jooq org doc 3 8 manual sql building sql statemen
Mockito when().thenReturn 不必要地调用该方法

我正在研究继承的代码我编写了一个应该捕获 NullPointerException 的测试因为它试图从 null 对象调用方法 Test expected NullPointerException class public void c
十进制到八进制的转换[重复]

这个问题在这里已经有答案了可能的重复十进制转换错误 https stackoverflow com questions 13142977 decimal conversion error 我正在为一个类编写一个程序并且在计算如何将八进
禁止的软件包名称：java

我尝试从数据库名称为 jaane 用户名 Hello 和密码 hello 获取数据错误 java lang SecurityException Prohibited package name java at java lang Class
如何为俚语和表情符号构建正则表达式 (regex)

我需要构建一个正则表达式来匹配俚语即 lol lmao imo 等和表情符号即 P 等我按照以下示例进行操作http www coderanch com t 497238 java java Regular Expression D
Java按日期升序对列表对象进行排序[重复]

这个问题在这里已经有答案了我想按一个参数对对象列表进行排序其日期格式为 YYYY MM DD HH mm 按升序排列我找不到正确的解决方案在 python 中使用 lambda 很容易对其进行排序但在 Java 中我遇到了问题 f
总是使用 Final？

我读过将某些东西做成最终的然后在循环中使用它会带来更好的性能但这对一切都有好处吗我有很多地方没有循环但我将 Final 添加到局部变量中它会使速度变慢还是仍然很好还有一些地方我有一个全局变量final 例如android Pa
如何在 javadoc 中使用“<”和“>”而不进行格式化？

如果我写
如何在控制器、服务和存储库模式中使用 DTO

我正在遵循控制器服务和存储库模式我只是想知道 DTO 在哪里出现控制器应该只接收 DTO 吗我的理解是您不希望外界了解底层域模型从领域模型到 DTO 的转换应该发生在控制器层还是服务层在今天使用 Spring MVC 和交互式
Eclipse Java 远程调试器通过 VPN 速度极慢

我有时被迫离开办公室工作这意味着我需要通过 VPN 进入我的实验室我注意到在这种情况下使用 Eclipse 进行远程调试速度非常慢速度慢到调试器需要 5 7 分钟才能连接到远程 jvm 连接后每次单步执行断点行可能需要 20 30
Android 中麦克风的后台访问

是否可以通过 Android 手机上的后台应用程序服务持续监控麦克风我想做的一些想法不断聆听背景中的声音信号收到有趣的音频信号后执行一些网络操作如果前台应用程序需要的话后台应用程序必须能够智能地放弃对麦克风的访问除非可
在mockito中使用when进行模拟ContextLoader.getCurrentWebApplicationContext()调用。我该怎么做？

我试图在使用 mockito 时模拟 ContextLoader getCurrentWebApplicationContext 调用但它无法模拟 here is my source code Mock org springframewo
在 Maven 依赖项中指定 jar 和 test-jar 类型

我有一个名为 commons 的项目其中包含运行时和测试的常见内容在主项目中我添加了公共资源的依赖项
有没有办法为Java的字符集名称添加别名

我收到一个异常埋藏在第 3 方库中消息如下 java io UnsupportedEncodingException BIG 5 我认为发生这种情况是因为 Java 没有定义这个名称java nio charset Charset Ch
JGit 检查分支是否已签出

我正在使用 JGit 开发一个项目我设法删除了一个分支但我还想检查该分支是否已签出我发现了一个变量CheckoutCommand但它是私有的 private boolean isCheckoutIndex return startCo
按日期对 RecyclerView 进行排序

我正在尝试按日期对 RecyclerView 进行排序但我尝试了太多的事情我不知道现在该尝试什么问题就出在这条线上适配器 notifyDataSetChanged 因为如果我不放不会显示错误但也不会更新 recyclerview

随机推荐

将通过引用传递的值分配给成员变量（在 C++ 中）

我正在尝试了解 C 中的范围请考虑以下事项 class C int i public C i 0 C int i i i C const C c i c i cout lt lt C is being copied lt lt i lt
Typescript typeof 类和派生类

我有一个基类它由几个子类扩展现在我想将父类的类型作为属性的类型所有子类型也应该有效我尝试过 typeof 但不起作用关于如何将基类的类型作为属性的类型有什么想法吗我想要引用该类型的原因是我希望能够创建该类的新实例例如 new
before_create 在 Rails 中不起作用

在 Rails 项目中我有 3 个控制器和模型用户责任和配置文件我有以下代码 user rb class User lt ActiveRecord Base Include default devise modules Others
在 iPython 笔记本中执行“python setup.py install”

最近下载了一些软件需要切换到有python文件的目录然后运行python setup py install user在终端中然后通过尝试检查代码是否正确运行from x import y 这适用于我的终端然而当我尝试from x
如何开始开发 Internet Explorer 扩展？

这里有人有开发 IE 扩展的经验吗可以分享他们的知识吗这将包括代码示例优秀示例的链接流程文档或任何内容我真的很想这样做但我遇到了糟糕的文档糟糕的代码示例代码缺乏这些的巨大墙壁您可以提供的任何帮助资源将不胜感激具体来说
在 JavaScript 中返回 HTML 代码？

我对 javascript 相当陌生我想知道如何让这段代码更大的整体的一部分做我想做的事情我想将 HTML 添加到短语购物车中的文章和购物车中的文章这可能吗非常感谢我的意思不是样式粗体或斜体这就是我希望它返回的内容
R S3 类：在覆盖还是附加类属性的类名之间做出决定

我想创建一个 S3 类我如何确定哪种设置类属性的方法是正确的因为它会产生影响 1 覆盖类属性 object lt data frame field1 a field2 2 class object 1 data frame class
替换 Pandas DataFrame 列中超过 n 个连续值

假设我有以下 DataFramedf df pd DataFrame a 1 2 2 2 2 2 2 2 2 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 b 3 3 3 3 3 3 3 4 4
Dynamics Crm：通过 API 创建连接实体

因此 Dynamics CRM 中的连接提供了一种将事物链接在一起的通用方法 Connections 实体在内部具有 Record1Id 属性和 Record2Id 属性等当您创建一个通过 UI 连接 http community dyn
为什么这个 shutdownhook 不起作用？

这是我的主要方法它包含一个 shutdownhook public static void main String args Runtime getRuntime addShutdownHook new Thread Override p
PL/SQL函数参数

在 PL SQL 中下面的代码将失败它不允许定义 varchar2 参数的大小你知道为什么吗我如何解决它 create or replace function logMessage msg varchar2 2000 return
Windows 服务自动停止

我创建了一个 Window 服务并让它在本地系统帐户下自动工作当该服务启动时它会为我触发此消息然后停止本地计算机上的服务名称服务启动然后停止某些服务如果未被其他服务或程序使用则会自动停止问题是什么以及解决方案是什么您没有
为什么“pip installgym”失败并出现“python setup.py Egg_info 未成功运行”错误？

我突然很难在 Google Colab 中安装gym 错误看起来像这样 Looking in indexes https pypi org simple https us python pkg dev colab wheels public
ReSharper 无法解析符号[重复]

这个问题在这里已经有答案了我目前正在构建 ASP NET 5 ASP NET Core 1 0 MVC 应用程序我正在使用 Visual Studio 2015 和 ReSharper Ultimate 10 0 2 我目前有一个 2
Android 13 限制设置（辅助功能）API

我测试过 Android 13 设备发现其中一些设备使用受限设置 https www xda developers com android 13 restricted setting notification listener 而其他人
iPhone 崩溃日志显示“版本：？？？”

我正在开发一个 iPhone 应用程序并进行特别分发以进行 Beta 测试我的用户向我发送崩溃日志内容如下 Identifier MyAppName Version Code Type ARM Native 我不明白如何用真实的版本号替
Eclipse 说这个正则表达式中存在非法重复

if possTape matches d d 但是这是什么意思我已经在 regexpal 上测试了这个正则表达式进行了调整使其可以像 Java 一样工作但我没有看到哪里存在非法重复转义大括号根据这个答案 https stac
页面包含带有 LayoutTransition（或 animateLayoutChanges="true"）的 ViewGroup，这会干扰滚动动画

我在 ViewPager2 中使用片段并且注意到在运行 Android 8 或 9 的小米玉龙华硕 vivo 等设备中出现了两个相关的 IllegalStateExceptions 我自己无法重现 Fatal Exception ja
在打包应用程序中使用dojo 1.8（未捕获的卸载在打包应用程序中不可用）

最终在将 dojo 与我的打包应用程序一起使用方面取得了一些进展之后我遇到了另一个障碍我找不到任何文档 sandbox pages test html app background scripts background js test
Kafka Streams 重新平衡高吞吐量 kafka-streams 服务上的延迟峰值

我们开始使用 Kafka 流我们的服务是一个非常简单的无状态消费者我们对延迟的要求很严格当消费者组重新平衡时我们面临着过高的延迟问题在我们的场景中重新平衡会相对频繁地发生滚动更新代码扩大缩小服务容器被集群调度程序洗牌容

Kafka Streams 重新平衡高吞吐量 kafka-streams 服务上的延迟峰值

Kafka Streams 重新平衡高吞吐量 kafka-streams 服务上的延迟峰值 的相关文章

随机推荐

热门标签

Kafka Streams 重新平衡高吞吐量 kafka-streams 服务上的延迟峰值的相关文章