Pyspark 结构化流处理

2024-01-18

我正在尝试使用 Spark 制作一个结构化流应用程序，主要思想是从 kafka 源中读取，处理输入，写回到另一个主题。我已经成功地使 Spark 从 kafka 读取和写入，但是我的问题在于处理部分。我已经尝试使用 foreach 函数来捕获每一行并在写回 kafka 之前对其进行处理，但是它始终只执行 foreach 部分，并且从不写回 kafka。然而，如果我从写入流中删除 foreach 部分，它会继续写入，但现在我失去了处理能力。

如果有人能给我一个关于如何做到这一点的例子，我将非常感激。

这是我的代码

spark = SparkSession \
.builder \
.appName("StructuredStreamingTrial") \
.getOrCreate()
df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("subscribe", "KafkaStreamingSource") \
  .load()

ds = df \
  .selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")\
  .writeStream \
  .outputMode("update") \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("topic", "StreamSink") \
  .option("checkpointLocation", "./testdir")\
  .foreach(foreach_function)
  .start().awaitTermination()

and the foreach_function简单地说就是

def foreach_function(df):
    try:
        print(df)
    except:
        print('fail')
    pass

在基于 Pyspark 的结构化流 API 中写入 Kafka 接收器之前处理数据，我们可以使用 UDF 函数轻松处理任何类型的复杂转换。

示例代码如下。此代码尝试读取 JSON 格式消息 Kafka 主题并解析该消息，将消息从 JSON 转换为 CSV 格式并重写到另一个主题中。您可以处理任何处理转换来代替“json_formatted”函数。

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.streaming import StreamingContext
from pyspark.sql.column import Column, _to_java_column
from pyspark.sql.functions import col, struct
from pyspark.sql.functions import udf
import json
import csv
import time
import os

#  Spark Streaming context :

spark = SparkSession.builder.appName('pda_inst_monitor_status_update').getOrCreate()
sc = spark.sparkContext
ssc = StreamingContext(sc, 20)


#  Creating  readstream DataFrame :

df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("subscribe", "KafkaStreamingSource") \
  .load()

df1 = df.selectExpr( "CAST(value AS STRING)")

df1.registerTempTable("test")


def json_formatted(s):
    val_dict = json.loads(s)
    return str([
                    val_dict["after"]["ID"]
                ,   val_dict["after"]["INST_NAME"]
                ,   val_dict["after"]["DB_UNIQUE_NAME"]
                ,   val_dict["after"]["DBNAME"]
                ,   val_dict["after"]["MON_START_TIME"]
                ,   val_dict["after"]["MON_END_TIME"]
                ]).strip('[]').replace("'","").replace('"','')

spark.udf.register("JsonformatterWithPython", json_formatted)

squared_udf = udf(json_formatted)
df1 = spark.table("test")
df2 = df1.select(squared_udf("value"))



#  Declaring the Readstream Schema DataFrame :

df2.coalesce(1).writeStream \
   .writeStream \
   .outputMode("update") \
   .format("kafka") \
   .option("kafka.bootstrap.servers", "localhost:9092") \
   .option("topic", "StreamSink") \
   .option("checkpointLocation", "./testdir")\
   .start()

ssc.awaitTermination()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark 结构化流处理的相关文章

从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

这个错误是什么意思我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存我在这里错过了什么吗最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器你应该避免这种情况并获得Igni
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
takeOrdered 降序 Pyspark

我想按值对 K V 对进行排序然后取最大的五个值我设法用第一个地图恢复 K V 用 FALSE 按降序排序然后将 key value 反转到原始第二个地图然后取前 5 个最大的值代码是这样的 RDD map lambda x x
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
配置 Spark on Yarn 以使用 hadoop 本机库

Summary 我是 Spark 新手在使用 Snappy 压缩保存文本文件时遇到了问题我不断收到下面的错误消息我遵循了互联网上的许多指示但没有一个对我有用最终我找到了解决方法但是我希望有人就正确的解决方案提供建议 java
如何使用PySpark结构流+Kafka

我尝试将 Spark 结构流与 kafka 一起使用并且在使用 Spark 提交时遇到问题消费者仍然从生产中接收数据但 Spark 结构出错请帮我找到我的代码的问题这是我在 test py 中的代码 from kafka impo
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF

随机推荐

NumPy 库导入错误：DLL 加载失败：找不到指定的过程

我正在 Windows 10 上使用 Visual Studio 2017 学习 python 当我尝试将 NumPy 库导入到我的代码中时出现此错误我尝试过卸载并重新安装寻找libiomp5md dll每条指令ImportError
Google Cloud Run 上的 numpy 和 pandas 导入速度缓慢

我正在开发一个 API 并将其部署在 Google Cloud Run 上有一个导入 pandas 和 numpy 的预启动 python 脚本当我对导入进行计时时在 Cloud Run 上 numpy 大约需要 2 秒 pandas
复选框中的 ng-change 被触发多次，因为 ng-click 超过了它

由于代码比 1000 个单词更好我创建了一个 plunker 来展示我的问题 http bit ly 1uiR2wy http bit ly 1uiR2wy 给定特定的 DOM 元素事情是我有一个带有 ng change 的输入复选框
对于这种情况，最好的数据库结构是什么？

我有一个保存房地产 MLS 多重列表服务数据的数据库目前我有一个表包含所有列表属性价格地址平方英尺等有几种不同的财产类型住宅商业出租收入土地等每种财产类型共享大部分属性但也有一些属性是该财产类型所独有的我的问题
从后台重新启动应用程序后 iAds 加载受到限制（也发生在 iAdSuite 中）

我正在努力实施NavigationBanner iAdSuite示例到我的项目中以便我可以共享一个AdBannerView跨多个视图控制器的实例但我不断收到以下错误错误域 ADErrorDomain代码 2 操作无法完成加载受到限制
构建 Eclipse 项目时自动运行 JUnit

我想在保存 Eclipse 项目时自动运行单元测试每当我保存文件时该项目就会自动构建所以我认为这应该以某种方式实现我该怎么做是获取 ant 脚本并更改项目构建以使用带有目标的 ant 脚本的唯一选择build and compil
我可以从 ASP.NET 页面下载由内存流生成的 Excel 文件吗？

我有一个 ASP NET 页面用户在其中提供 ID 然后我们从数据库中提取一些数据并将其放入 Excel 电子表格中我想在内存中创建 Excel 文件然后允许用户下载该文件我可以在服务器上创建一个文件然后删除它但这似乎没有必要
为什么我会收到 NoClassDefFoundError: java/awt/Desktop？

我正在尝试打开一个URI使用 Swing 我得到了上述错误原因是什么以及如何解决当我在控制台中执行此操作时一切正常但当我在 GUI 中执行此操作时出现此错误我应该说我使用Weblogic作为服务器 Code private st
基于列将两个 pandas DataFrame 相乘

如果我有两个 DataFrame 如何将它们按列相乘以生成包含结果的 DataFrame 例如 df1 pd DataFrame np random randint 10 size 5 4 columns A B C D A B C D 0
将 initWithNibName 与故事板结合使用

下面是将 initWithNibName 与单独的 xib 视图一起使用的示例 TerminalViewController ctrl TerminalViewController alloc initWithNibName Control
将现有项目转换为 Silverlight 4 时出现问题

我们有一个正在运行的 Silverlight 3 项目将目标框架更改为 Silverlight 4 后应用程序将不再启动它在生成的 InitializeComponent 方法中的以下行中引发异常 System Windows App
ExtJS 4 动态更改网格存储

是否可以在 ExtJS 4 中更改网格存储例如我有两个模型 User Ext define User extend Ext data Model hasMany Product Product Ext define Product ex
从 Rails3 项目中卸载 gem 的最佳方法是什么？

我通过 Gemfile 使用捆绑器安装了所有 gem 我错误地认为如果我从 Gemfile 中删除了一个 gem 并运行捆绑安装则删除的 gem 将被卸载我查看了捆绑程序帮助文件据我所知它没有卸载 gem 的方法我是否只使
GNU 屏幕没有响应，似乎被阻止

GNU 屏幕似乎冻结了无法输入用户输入我正在使用 GNU 屏幕当我按下屏幕时它变得没有响应我可以执行所有 GNU 屏幕命令但无法输入用户输入我不想关闭这个屏幕因为我有重要的工作我不想失去它 In the commands
设置查询以搜索 dojo 数据网格的所有字段

我有一个包含多个字段的 Dojo DataGrid 我目前正在将查询设置为一次搜索一个字段如下所示 grid setQuery name Bob ignoreCase true 但是我希望查询能够立即搜索所有字段例如假设我有三个标题为
关于 .shuffle、.batch 和 .repeat 的 Tensorflow 数据集问题

我有一个关于使用 tf Dataset 进行批处理重复和随机播放的问题我不清楚如何使用重复和随机播放我明白那个 batch将决定有多少训练样本将经历随机梯度下降使用 repeat and shuffle我仍然不清楚第一个问题即使
Page.IsValid 是如何工作的？

我有以下代码RequiredFieldValidator The EnableClientScript属性在验证控件中设置为 false 我还在浏览器中禁用了脚本我没有使用Page IsValid在后面的代码中不过当我在文本框中没有任
在 WordPress 中按日期对帖子进行分组

我需要编写一个 WordPress 查询来完成以下任务我正在一个每天有 40 50 个帖子的网站上工作我想显示按日期分组的帖子 e g 20 March 2012 post 1 post 2 post 3 19 March 2012
PostgreSQL 索引中的重复键

我想将 OwnCloud 数据库移动到新服务器但恢复期间操作失败 pg restore archive program db COPY failed for table oc storages ERROR value of a dupli
Pyspark 结构化流处理

我正在尝试使用 Spark 制作一个结构化流应用程序主要思想是从 kafka 源中读取处理输入写回到另一个主题我已经成功地使 Spark 从 kafka 读取和写入但是我的问题在于处理部分我已经尝试使用 foreach 函数来捕

Pyspark 结构化流处理

Pyspark 结构化流处理 的相关文章

随机推荐

热门标签

Pyspark 结构化流处理的相关文章