在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

2024-05-17

我正在使用 Spark 2.0.2 和 Kafka 0.11.0，并且我正在尝试在火花流中使用来自卡夫卡的消息。以下是代码：

val topics = "notes"
val kafkaParams = Map[String, Object](
  "bootstrap.servers" -> "localhost:7092",
  "schema.registry.url" -> "http://localhost:7070",
  "group.id" -> "connect-cluster1",
  "value.deserializer" -> "io.confluent.kafka.serializers.KafkaAvroDeserializer",
  "key.deserializer" -> "io.confluent.kafka.serializers.KafkaAvroDeserializer"
)
val topicSet: Set[String] = Set(topics)
val stream = KafkaUtils.createDirectStream[String, String](
  SparkStream.ssc,
  PreferConsistent,
  Subscribe[String, String](topicSet, kafkaParams)
)
stream.foreachRDD ( rdd => {
  rdd.foreachPartition(iterator => {
    while (iterator.hasNext) {
      val next = iterator.next()
      println(next.value())
    }
  })
})

如果 Kafka 消息包含记录，则输出将为：

{"id": "4164a489-a0bb-4ea1-a259-b4e2a4519eee", "createdat": 1505312886984, "createdby": "karthik", "notes": "testing20"}
{"id": "4164a489-a0bb-4ea1-a259-b4e2a4519eee", "createdat": 1505312890472, "createdby": "karthik", "notes": "testing21"}

因此，从 ConsumerRecord 的值可以看出，接收到的消息是 Avro 解码的。现在我需要数据帧格式的这些记录，但我不知道如何从这里继续，即使手头的模式如下：

val sr : CachedSchemaRegistryClient = new CachedSchemaRegistryClient("http://localhost:7070", 1000)
val m = sr.getLatestSchemaMetadata(topics + "-value")
val schemaId = m.getId
val schemaString = m.getSchema

val schemaRegistry : CachedSchemaRegistryClient = new CachedSchemaRegistryClient("http://localhost:7070", 1000)
val decoder: KafkaAvroDecoder = new KafkaAvroDecoder(schemaRegistry)
val parser = new Schema.Parser()
val avroSchema = parser.parse(schemaString)
println(avroSchema)

打印的模式如下：

{"type":"record","name":"notes","namespace":"db","fields":[{"name":"id","type":["null","string"],"default":null},{"name":"createdat","type":["null",{"type":"long","connect.version":1,"connect.name":"org.apache.kafka.connect.data.Timestamp","logicalType":"timestamp-millis"}],"default":null},{"name":"createdby","type":["null","string"],"default":null},{"name":"notes","type":["null","string"],"default":null}],"connect.name":"db.notes"}

谁能帮助我了解如何从消费者记录的值中获取数据框？我看过其他问题，例如使用 schema 将 Spark 的 AVRO 消息转换为 DataFrame https://stackoverflow.com/questions/39049648/use-schema-to-convert-avro-messages-with-spark-to-dataframe/39072520, ，但他们一开始并没有处理consumerRecord。

您可以使用下面的代码片段： Stream 是从 kafka010 的 kafkaUtils api 返回的消费者记录的 DStream ：

stream.foreachRDD(rdd =>
    if (!rdd.isEmpty()) {
        val sqlContext = SQLContext.getOrCreate(rdd.sparkContext)
        import sqlContext.implicits._
        val topicValueStrings = rdd.map(record => (record.value()).toString)
        val df = sqlContext.read.json(topicValueStrings)
        df.show()
    })

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe 的相关文章

当我重新运行 Flink 消费者时，Kafka 再次消费最新消息

我在用 Scala 编写的 Apache Flink API 中创建了一个 Kafka 消费者每当我从某个主题传递一些消息时它就会及时接收它们但是当我重新启动使用者时它不会接收新的或未使用的消息而是使用发送到该主题的最新消息这
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
如何使用 FS2 中的分类器函数对对象进行分组？

我有一个无序的流measurements 我想将其分组为固定大小的批次以便以后可以有效地保留它们 val measurements for id lt Seq foo bar baz value lt 1 to 5 yield id va
Build.scala中%和%%符号含义

我是新来玩的 Framework 2 1 java版本并且没有scala经验我不明白什么是以及什么是 and 在 Build scala 中表示我用谷歌搜索了它们但找不到它们的含义在我的 Build scala 文件中我有 org
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
比较 javascript 元素和 scala 变量的 Play 框架 Twirl 模板

如下面的代码示例所示我想比较 scala 辅助元素内的 javascript 元素然而即使存在元素 abcde 它也始终返回 false 除了使用标签之外如何获取 scala 辅助元素内的 javascript 值 appSeq S
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
Scala 2.8 中 <:<、<%< 和 =:= 的含义是什么？它们的文档在哪里？

我可以在 API 文档中看到Predef https scala lang org files archive api 2 8 2 scala Predef 24 html它们是通用函数类型 From gt To 的子类但仅此而已嗯什么
Scala 中用于阻止调用的 Future

The Akka文档说 you may be tempted to just wrap the blocking call inside a Future and work with that instead but this strate
Scala 隐式转换范围问题

采取这个代码 class Register var value Int 0 def getZeroFlag Boolean value 0x80 0 object Register implicit def reg2int r Regist
为什么我无法从外部连接到 Kafka？

我在 ec2 实例上运行 kafka 所以amazon ec2实例有两个ip 一个是内部ip 第二个是外部使用的我从本地计算机创建了生产者但它重定向到内部 IP 并给我连接不成功的错误任何人都可以帮助我在 ec2 实例上配置 kafk
Map 和 Set 的实际类（不是抽象类，也不是特征类）是什么？

在 Scala 中映射和集合文字可以通过以下方式创建 val m Map 1 gt a 以及引用的类型m字面意思都是Map Int String 然而 scala文档表明Map实际上是一个特征具有需要实现才能实例化的抽象成员 scala
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
导入 sbt 项目时出错，服务器访问错误，未解决的依赖项

我正在尝试从 IntelliJ IDE 15 0 2 的 build sbt 中导入我的项目中的库我不断收到未解决的依赖项错误我尝试更新不同论坛的设置来解决该问题但没有任何效果我尝试过的几件事使用代理设置更新 sbtconfig
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
Spark Python：标准缩放器错误“不支持... SparseVector”

我又撞到了堵墙我是一个新手所以我不得不再次依赖你强大的知识我从一个数据集开始如下所示 user account id user lifetime user no outgoing activity in days user acco
Kafka Java Consumer 已关闭

我刚刚开始使用卡夫卡我面临着消费者的一个小问题我用Java写了一个消费者我收到此异常 IllegalStateException 此消费者已关闭我在以下行中遇到异常 ConsumerRecords
kafka新版本2.1.0 Broker无故挂起

起初集群中的所有代理都可以启动并正常工作但有时其中一个代理会遇到问题并且会出现一些现象整个集群挂了生产者和消费者也不工作因此从监视器来看网络流量降至零使用kafka topic sh描述主题消息每个副本都很好即使是异常的b
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入

随机推荐

计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
将rails_admin 与rails_api 结合使用

我最初将此发布为Rails api GitHub 上的问题 https github com sferik rails admin issues 2617 但由于不活跃我现在将其发布在这里我正在尝试使用rails admin使用 Rai
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
Movesense、imu 数据的时间戳来源以及一般计时问题

根据此处对此问题的答复计量单位是什么 https stackoverflow com questions 47663799 what are the unit of measurement并推断当从 imu 数据源 imu9 读取时间戳
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
.NET UI 元素线程限制的原因

我们知道除了实例化元素的线程之外不可能从任何线程执行操作任何 UI 元素属性的代码我的问题是为什么我记得当我们使用 COM 用户界面元素时在 COM Visual Basic 6 0 时代所有 UI 元素都是使用 COM 类和
是 ValidationFailed 默认值

会用什么方法facesContext isValidationFailed 当验证失败时在渲染响应阶段后返回它返回false对于我来说它只会返回true when FacesContext validationFailed http
Hibernate + MySQL + rewriteBatchedStatements=true

我有以下 Hibernate 配置
使用 MID、LEN 和 FIND 函数提取单元格文本的某些部分？

我有一份 Excel 作业但我陷入了最后部分我被要求使用 MID LEN 和 FIND 来提取单元格内的特定字符串我非常了解每个人的工作方式将这三者结合起来并让它们发挥作用是我遇到的问题我需要将城市与地址的其余部分分开然后将其显
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
无法访问本地 Docker 容器上的 Asp.Net Core

我在 asp net core 中创建了一个应用程序并创建了一个 dockerfile 来生成本地映像并运行它 FROM microsoft dotnet latest COPY app WORKDIR app RUN dotnet re
为什么 Linux perf 使用事件 l1d.replacement 来处理 x86 上的“L1 dcache misses”？

在英特尔 x86 上 Linux用途 https stackoverflow com a 52172985 149138事件l1d replacements来实施其L1 dcache load misses event 该事件定义如下计数
Netbeans 和 Git，.obj 文件被忽略

我正在开发一个涉及 obj 文件的小型 git 项目当我查看项目选项卡时我发现它们被忽略了但如果我查看我的 gitignore 我无法理解为什么 DepthPeeling nbproject private DepthPeelin
根据由另一列分组的不同列的最大值获取值[重复]

这个问题在这里已经有答案了我想根据由另一列分组的不同列的最大值来获取列的值我有这张表 KEY NUM VAL A 1 AB B 1 CD B 2 EF C 2 GH C 3 HI D 1 JK D 3 LM 并想要这样的结果 KEY V
跨项目/dll 访问 Xaml 中的资源

是否可以从另一个项目引用存储在 ResourceDictionary 构建操作资源中的 Xaml 资源我想将资产合并到主项目的资源字典中或单独访问它们例如项目 MyResources 包含一个名为 Assets 的文件夹其中有一
DatePicker 停止 CoreData 按预期工作

我有一个应用程序它保存 UIDatePicker 中的文本和日期然后在您回到 UIDatePicker 中的该日期时显示该注释效果很好只有我发现将 UIDatePicker 日期设置为今天会停止 CoreData 工作只有当我运行
MongoDB中如何通过引用字段进行查询？

我有两个 Mongo 模式 User id ObjectId name String country ObjectId Reference to schema Country Country id ObjectId name String
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst

在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe 的相关文章

随机推荐

热门标签