Spark Streaming kafka 偏移量管理

2024-02-15

我一直在做 Spark Streaming 工作，通过 kafka 消费和生成数据。我使用的是directDstream，所以我必须自己管理偏移量，我们采用redis来写入和读取偏移量。现在有一个问题，当我启动我的客户端时，我的客户端需要从redis获取偏移量，而不是kafka中存在的偏移量本身。如何显示我编写我的代码？现在我已经在下面编写了我的代码：

   kafka_stream = KafkaUtils.createDirectStream(
    ssc,
    topics=[config.CONSUME_TOPIC, ],
    kafkaParams={"bootstrap.servers": config.CONSUME_BROKERS,
                 "auto.offset.reset": "largest"},
    fromOffsets=read_offset_range(config.OFFSET_KEY))

但我认为 fromOffsets 是 Spark-streaming 客户端启动时的值（来自 Redis），而不是运行期间的值。谢谢您的帮助。

如果我理解正确的话，您需要手动设置偏移量。我就是这样做的：

from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
from pyspark.streaming.kafka import TopicAndPartition

stream = StreamingContext(sc, 120) # 120 second window

kafkaParams = {"metadata.broker.list":"1:667,2:6667,3:6667"}
kafkaParams["auto.offset.reset"] = "smallest"
kafkaParams["enable.auto.commit"] = "false"

topic = "xyz"
topicPartion = TopicAndPartition(topic, 0)
fromOffset = {topicPartion: long(PUT NUMERIC OFFSET HERE)}

kafka_stream = KafkaUtils.createDirectStream(stream, [topic], kafkaParams, fromOffsets = fromOffset)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

ApacheKafka

SparkStreaming

offset

sparkstreamingkafka

Spark Streaming kafka 偏移量管理的相关文章

Kafka 是否保证具有任何配置参数值的单个分区内的消息排序？

如果我在 Producer 中将 Kafka 配置参数设置为 1 retries 3 2 max in flight requests per connection 5 那么一个分区内的消息很可能不按 send order 排列 Kafka
如何从 Spark MLLib 中的 TF Vector RDD 获取单词详细信息？

我使用创建了术语频率HashingTF在斯帕克我已经使用术语频率tf transform对于每个单词但结果是以这种格式显示的
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Apache Kafka 中消费者消费消息的延迟

我正在使用 Kafka 0 8 0 并尝试实现下面提到的场景 JCA API 充当生产者并将数据发送到 gt 消费者 gt HBase 一旦我使用 JCA 客户端获取数据我就会将每条消息发送给消费者例如一旦生产者发送消息 no 1 我
提供了 kafka schema.registry.url 但不是已知的配置

尝试使用架构注册表发布有关主题的 json 消息但出现以下错误以下Spring Boot方法已提供配置 schema registry url 但不是已知配置应用程序 yml 文件 server port 9080 spring k
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
Kafka Consumer 如何（应该）应对有毒消息

当 Kafka Consumer 无法反序列化消息时客户端应用程序是否有责任处理有毒消息 Or Kafka是否会增加消息偏移并继续消费有效消息是否有处理 Kafka 主题上的有毒消息的最佳实践当 Kafka 无法反序列化记录时
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a

随机推荐

如何在 Rust 2018 中为 crate 指定别名？

我有一个箱子foo sys 在 Rust 2015 中我使用了extern crate foo sys as foo为了方便起见但在 Rust 2018 中extern crate不再需要我不想仅将它用于别名掉落时extern cra
Tkinter 变量跟踪方法回调的参数是什么？

Python 有 Tkinter 变量的类StringVar BooleanVar 等等这些都共享方法get set string and trace mode callback The callback函数作为第二个参数传递给trace
如何使视频的宽度为100%或高度为100%

我有同样的问题this https stackoverflow com questions 27328009 100 height or 100 width但我正在尝试这样做
是否可以将单个文件从一个 SVN 存储库迁移到另一个存储库，同时保留历史记录？

我在我的个人 SVN 存储库中启动了一个小应用程序它引起了足够的兴趣值得将开发转移到共享组存储库可以将应用程序仅单个文件及其历史记录迁移到组存储库吗查看 svnadmin dump svnadmin load 和 svndump
Saxon 与 Visual Studio 2010 - 有没有办法使用调试器？

我们花费了越来越多的时间来应对 Microsoft XSLT 1 0 处理器的限制我认为现在是开始使用 XSLT 2 0 的时候了撒克逊似乎是一个不错的选择问题是 Visual Studio 集成的 XSLT 调试器非常棒没有人想停
NSString stringWithFormat 使用制表符而不是空格

您可以看到我在字符串后添加了 40 个空格但它从索引 0 开始我可以用制表符 t 而不是空格做同样的事情吗 NSString firstString NSString stringWithFormat stringToWrite st
QML 中的 if 语句

对于 QT 和 QML 来说是全新的我试图根据两个属性双精度之间的关系设置矩形的颜色callValue and handRaiseXBB 但我收到错误意外的标记如果 and 需要一个限定名称 id 谁能告诉我我做错了什么 import
Arduino：使用串口和软件串口与蓝牙模块

我的目的是使用 Arduino 通过 HC 05 蓝牙模块在 PC 和 Android 设备之间建立通信我使用 PC 和 Arduino 串行监视器之间的 USB 通信以及 SoftwareSerial 来连接到 HC 05 我的问题是
如何在 PHP 中模拟单精度浮点运算？

我需要将一个简单的 C 程序移植到 PHP 目前我们必须启动该过程并解析其输出程序很琐碎但是对于算法的使用很重要float因为错误会累积起来结果会大相径庭 C 示例 include
强制 jQuery UI Datepicker 显示在输入字段下方

我有一个页面其中包含一个表单和几个字段我的问题如下我试图强制 jQuery UI 日期选择器显示在输入字段下方当我单击输入字段时我希望该字段也滚动到页面顶部我想我有这个工作这是我的 jQuery JQUERY document
如何使用 getMouse() 捕获右键单击事件

我正在尝试使用graphics py 编写用户图形界面问题是如何捕获右键事件呢看来函数 getMouse 只能返回鼠标左键单击的位置作为 Point 对象 from graphics import def main win GraphW
使用 servlet 将动态图像传递到 JSP

我有一个桌面应用程序可以创建图形 2D 对象将其粘贴在面板中并进行绘制我正在尝试使用 servlet 和 jsp 将此应用程序转换为网页我已经在网上阅读了两天但无法理解如何做到这一点我发现的每个例子似乎都遗漏了一个重要的部分我
Teamcity 无法通过 nuget 安装软件包

已解决请参阅评论我在 team city 有一个项目无法安装所需的软件包这已经工作了一年多但本周所有构建都开始失败我的开发流程如下我们使用github并使用Visual Studio进行本地开发我们有一个 Windows te
使用对象过滤嵌套数组

我有一系列类别每个类别实例都有优惠属性 class Category var offers Offer var title String var id Int class Offer var type String global vari
从 eclipse 运行 Visual VM

我正在尝试在 Eclipse kepler 中使用 Visual VM 调试 java 应用程序我正在执行具有选择 Visual VM 作为启动器的主要方法的类我已经按照中给出的说明配置了 Visual VMhttp blog idrs
Chrome 中的 CSS3 过渡不平滑

我使用 CSS3 过渡根据鼠标悬停时的边距值对某些链接进行动画处理它的动画效果符合预期但 Chrome 中的动画并不像其他浏览器如 Firefox IE10 那样流畅在 Chrome 中当我将鼠标悬停在链接上时所有其他链接都会稍
字符串文字和数组的地址

int main char str1 Hi str2 Bye printf u u n str1 str1 int arr 5 1 2 3 4 5 printf u u arr arr 这里发生了什么 str and str给出不同的地址和
如何修复 webkit-fake-url 的含义？

当您尝试复制并粘贴到 Safari Web 浏览器时浏览器会插入webkit fake url 在 Chrome 中你可以这样做getAsFile 在剪贴板数据上读取图像你能用 Safari 做类似的事情吗不可以目前无法在 Saf
将 Azure Active Directory 用户添加到 Azure SQL 数据库

我有一个 Azure SQL Server 可以通过 SSMS 进入其中我还有一个 Azure Active Directory 其用户名为电子邮件受保护 cdn cgi l email protection 我想添加此用户以拥有对我的
Spark Streaming kafka 偏移量管理

我一直在做 Spark Streaming 工作通过 kafka 消费和生成数据我使用的是directDstream 所以我必须自己管理偏移量我们采用redis来写入和读取偏移量现在有一个问题当我启动我的客户端时我的客户端需要从

Spark Streaming kafka 偏移量管理

Spark Streaming kafka 偏移量管理 的相关文章

随机推荐

热门标签

Spark Streaming kafka 偏移量管理的相关文章