使用Spark结构化流读取Kafka数据总是出现超时问题

2023-12-26

这是我使用 Spark Structured Streaming 从 Kafka 读取数据的代码，

//ss:SparkSession is defined before. 
import ss.implicits._
val df = ss
  .readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", kafka_server)
  .option("subscribe", topic_input)
  .option("startingOffsets", "latest")
  .option("kafkaConsumer.pollTimeoutMs", "5000")
  .option("failOnDataLoss", "false")
  .load()

这是错误代码，

  Caused by: java.util.concurrent.TimeoutException: Cannot fetch record xxxx for offset in 5000 milliseconds

如果我把5000放大到10000，这个错误仍然发生。我通过谷歌搜索了这个问题。似乎没有太多关于这个问题的相关信息。

这是 sbt 文件中与此问题相关的部分。

libraryDependencies += "org.apache.spark" %% "spark-sql-kafka-0-10" % "2.3.0" exclude ("org.apache.kafka", "kafka-clients")
libraryDependencies += "org.apache.kafka" % "kafka-clients" % "0.11.0.0"

我也遇到这个错误。

我查看了KafkaSourceRDD的源代码，一无所获。

我猜 kafka 连接器有问题，因此我排除了“spark-sql-kafka-0-10_2.11”包中的 kafka-client，并添加了一个新的依赖项，如下所示：

<dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql-kafka-0-10_2.11</artifactId>
        <version>2.3.0</version>
        <scope>compile</scope>
        <exclusions>
            <exclusion>
                <artifactId>kafka-clients</artifactId>
                <groupId>org.apache.kafka</groupId>
            </exclusion>
        </exclusions>
    </dependency>
    <dependency>
        <groupId>org.apache.kafka</groupId>
        <artifactId>kafka-clients</artifactId>
        <version>0.10.2.1</version>
    </dependency>

现在可以了。希望能帮助到你。

我创建了一个 jira 问题来报告此问题：https://issues.apache.org/jira/browse/SPARK-23829 https://issues.apache.org/jira/browse/SPARK-23829

2018年12月17日更新：Spark 2.4和Kafka2.0解决了该问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

ApacheKafka

SparkStructuredStreaming

使用Spark结构化流读取Kafka数据总是出现超时问题的相关文章

如何使用PySpark结构流+Kafka

我尝试将 Spark 结构流与 kafka 一起使用并且在使用 Spark 提交时遇到问题消费者仍然从生产中接收数据但 Spark 结构出错请帮我找到我的代码的问题这是我在 test py 中的代码 from kafka impo
Windows下Kafka托管在Docker中删除主题时出现异常

我在 Windows 的 Docker 中托管 Kafka 威斯迈斯特卡夫卡 https hub docker com r wurstmeister kafka 使用 docker 镜像 Kafka 数据存储在本地 Windows 文件夹
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
默认情况下，Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么？

我正在开发一个简单的 ETL 项目它读取 CSV 文件执行对每列进行一些修改然后将结果以 JSON 格式写出我想要读取我的结果的下游进程确信我的输出符合一个商定的模式但我的问题是即使我定义我的输入模式的所有字段都为 nu
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
必须包含 log4J，但它会导致 Apache Spark shell 中出现错误。如何避免错误？

由于我必须将 jar 包含到 Spark 代码中因此我想请求帮助找出解决此问题而不删除 log4j 导入的方法简单代码如下 cp symjar log4j 1 2 17 jar import org apache spark rdd v
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
pyspark中的函数input()

我的问题是当我输入 p 的值时没有任何反应它不执行请问有办法修复它吗 import sys from pyspark import SparkContext sc SparkContext local simple App p inp

随机推荐

如何在 Dart 中将“ByteData”实例写入文件？

我正在使用 Flutter 将资产加载到File以便本机应用程序可以访问它这就是我加载资产的方式 final dbBytes await rootBundle load assets file 这将返回一个实例ByteData 我怎样
如何在 TKinter 中显示控制台输出？

我希望控制台中的显示显示在 GUI Tkinter 中它应该在输出到 Python 控制台时准确显示而不是在项目完成后显示你能用 Tkinter 做到这一点吗或者还有其他选择吗这些是我当前的输出这些应该实时显示在 GUI 上 S
使用 Interop 从 Excel 获取最后一个非空列和行索引

我正在尝试使用互操作库从 Excel 文件中删除所有多余的空白行和列我关注了这个问题使用 Interop 从 Excel 文件中删除空行和空列的最快方法 https stackoverflow com questions 40574084
使用 getchar() 输入字符串

以下代码使用 getchar 接受一行输入 include
sqlite 通过 c++，打开多个 sqlite 文件

如何在 C C 中将多个 sqlite 文件连接到单个 sqlite3 句柄我认为考虑到有一个名为 ATTACH 的命令是可能的但不知道如何在 C 中执行此操作提前致谢答案感谢罗伯特 sqlite3 exec db ATTACH
没有“使用使用情况数据的应用”或 android.settings.USAGE_ACCESS_SETTINGS 意图的设备

背景 Android 5 引入了新的使用情况统计 https developer android com reference android app usage UsageStatsManager html可用于查询不同应用程序花费时间的
jquery移动页面注入

我有这个简单的 html 我正在托管我自己的文件并且它可以工作
错误：无法在 Mavericks 上构建 gem 本机扩展

我正在尝试跑步bundle在我的 OSX 10 9 上的 Rails 项目中到达时失败pg宝石出现此错误 Gem Installer ExtensionBuildError ERROR Failed to build gem native
CMake 和 MsVS-NuGet

我目前正在开发一个桌面应用程序使用 C REST SDK 代号 Casablanca Qt5 和其他一些库对于项目设置我使用 CMake 如何让 CMake 安装 NuGet 包现在如果我重新运行 CMake 我每次都必须手动安装
java.lang.IllegalArgumentException：无法设置为 com.sun.proxy.$Proxy

我正在使用 Spring MVC 开发一个网络应用程序这是我得到的异常 Exception while loading the app java lang IllegalStateException ContainerBase addCh
使用 JavaScript sdk 邀请朋友加入 Facebook

我是 Stack Overflow 的新手如何使用 javascript SDK 以编程方式邀请我的 Facebook 朋友加入我的 Facebook 应用程序我是 Facebook Javascript 的新手我想使用我的 Face
安全断开 asio SSL 套接字的正确方法是什么？

A boost asioSSL TLS TCP 套接字实现为ssl stream over a tcp socket boost asio ssl stream
C# 与 Delphi 中日期/时间计算之间的差异

Delphi SecondsBetween StrToDateTime 16 02 2009 11 25 34 p m StrToDateTime 1 01 2005 12 00 00 a m 130289133 C TimeSpan sp
将标准输入的副本从 bash 脚本本身重定向到文件

在参照https stackoverflow com a 11886837 1996022 https stackoverflow com a 11886837 1996022 也无耻地窃取了标题其中的问题是如何捕获脚本的输出我想知道如何
如何创建空 R 向量来添加新项目

我想在 Python 中使用 R 如 Rpy2 模块提供的那样我注意到 R 非常方便您可以通过这些操作提取特定的列或行如何通过Python脚本实现这样的功能呢我的想法是创建一个 R 向量并将那些想要的元素添加到这个向量中以便最终的
在 web.config 中注册用户控件

在同一项目中实现用户控件我尝试在 web config 中引用它们以便不在每个页面中包含 Register 子句注册一个正在运行的控件
location.protocol”必须是 http 或 https

我使用 Cordova Angular 2 Ionic 2 开发混合移动应用程序使用 firebase Auth 时在调用signInWithPopup 或signInWithRedirect 进行社交登录时 firebase 返回错误
Java Swing GUI 客户端和服务器聊天应用程序 TextArea 未更新

我正在使用 Java 和 GUI 的 Swing 类创建一个聊天应用程序 ChatServer 类将是从客户端接收消息并向所有客户端回显的服务器但我只想为 2 个客户端进行聊天 ChatClient 类既是客户端它们在文本区域上显示从服
如何使用 @PathVariable 对 Spring MVC 控制器进行单元测试？

我有一个简单的带注释的控制器与此类似 Controller public class MyController RequestMapping id html public String doSomething PathVariable S
使用Spark结构化流读取Kafka数据总是出现超时问题

这是我使用 Spark Structured Streaming 从 Kafka 读取数据的代码 ss SparkSession is defined before import ss implicits val df ss readStr

使用Spark结构化流读取Kafka数据总是出现超时问题

使用Spark结构化流读取Kafka数据总是出现超时问题 的相关文章

随机推荐

热门标签

使用Spark结构化流读取Kafka数据总是出现超时问题的相关文章