将 Spark Structure Streaming DataFrame 转换为 Pandas DataFrame

2024-01-29

我设置了一个 Spark Streaming 应用程序，它从 Kafka 主题进行消费，我需要使用一些接受 Pandas Dataframe 的 API，但是当我尝试转换它时，我得到了这个

: org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();;
kafka
        at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.org$apache$spark$sql$catalyst$analysis$UnsupportedOperationChecker$$throwError(UnsupportedOperationChecker.scala:297)
        at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$$anonfun$checkForBatch$1.apply(UnsupportedOperationChecker.scala:36)
        at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$$anonfun$checkForBatch$1.apply(UnsupportedOperationChecker.scala:34)
        at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:127)
        at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.checkForBatch(UnsupportedOperationChecker.scala:34)
        at org.apache.spark.sql.execution.QueryExecution.assertSupported(QueryExecution.scala:63)
        at org.apache.spark.sql.execution.QueryExecution.withCachedData$lzycompute(QueryExecution.scala:74)
        at org.apache.spark.sql.execution.QueryExecution.withCachedData(QueryExecution.scala:72)
        at org.apache.spark.sql.execution.QueryExecution.optimizedPlan$lzycompute(QueryExecution.scala:78)
        at org.apache.spark.sql.execution.QueryExecution.optimizedPlan(QueryExecution.scala:78)
        at org.apache.spark.sql.execution.QueryExecution.completeString(QueryExecution.scala:219)
        at org.apache.spark.sql.execution.QueryExecution.toString(QueryExecution.scala:202)
        at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:62)
        at org.apache.spark.sql.Dataset.withNewExecutionId(Dataset.scala:2832)
        at org.apache.spark.sql.Dataset.collectToPython(Dataset.scala:2809)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
        at py4j.Gateway.invoke(Gateway.java:282)
        at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
        at py4j.commands.CallCommand.execute(CallCommand.java:79)
        at py4j.GatewayConnection.run(GatewayConnection.java:238)
        at java.lang.Thread.run(Thread.java:745)

这是我的Python代码

spark = SparkSession\
    .builder\
    .appName("sparkDf to pandasDf")\
    .getOrCreate()

sparkDf = spark.readStream\
    .format("kafka")\
    .option("kafka.bootstrap.servers", "kafkahost:9092")\
    .option("subscribe", "mytopic")\
    .option("startingOffsets", "earliest")\
    .load()


pandas_df =  sparkDf.toPandas()

query = sparkDf.writeStream\
    .outputMode("append")\
    .format("console")\
    .option("truncate", "false")\
    .trigger(processingTime="5 seconds")\
    .start()\
    .awaitTermination()

现在我知道我正在创建流数据帧的另一个实例，但无论我在哪里尝试使用 start() 和 waitTermination()，我都会收到相同的错误。

有任何想法吗？

TL;DR这样的操作根本行不通。

现在我知道我正在创建流数据帧的另一个实例

好吧，问题是你真的不知道。toPandas，呼吁DataFrame创建一个简单的、本地的、非分布式的 PandasDataFrame, 在驱动节点的内存中 https://stackoverflow.com/q/30983197.

它不仅与 Spark 无关，而且作为一种抽象本质上与结构化流 - Pandas 不兼容DataFrame表示一组固定的元组，而结构化流表示无限的元组流。

目前尚不清楚您要在这里实现什么，这可能是 XY 问题，但如果您确实需要将 Pandas 与结构化流结合使用，您可以尝试使用pandas_udf - SCALAR and GROUPED_MAP变体至少与基于时间的基本触发器兼容（也可能支持其他变体，尽管某些组合显然没有任何意义，而且我不知道任何官方兼容性矩阵）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Spark Structure Streaming DataFrame 转换为 Pandas DataFrame 的相关文章

为什么我的执行程序核心构建指定了 OOM？

我有一个正在运行的构建DRIVER MEMORY LARGE NUM EXECUTORS 64 and EXECUTOR CORES LARGE 为什么这没有足够的资源来防止我的工作因执行者损失而失败OOM https stackoverf
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201

随机推荐

仅将最后一个 shell 命令的标准输出放入 Python 变量中[重复]

这个问题在这里已经有答案了 prova sh 包含 bin bash echo Output that I don t want echo Output that I don t want echo Output that I don t
java.text.ParseException：使用 Clock.systemUTC() 时出现无法解析的日期错误[重复]

这个问题在这里已经有答案了我在解析日期时遇到解析错误 java text ParseException 无法解析的日期 2021 06 17T05 49 41 174Z 无法解析的日期 2021 06 17T05 49 41 174Z 我
使用 dgtsv_ 或 sgtsv_ 求解 A*X = B 类型的方程

我正在尝试求解 SWIFT 中的 A X B 类型的线性方程组我已经能够使用基于 LU 分解的算法来做到这一点该算法消耗 O N 2 内存由于我的数组通常很大 10000 个样本或更多因此我正在研究 LAPACK 它具有一些特定于三
登录 OS X，验证 iOS 和 OSStatus -9809

我正在使用苹果的安全框架 https developer apple com library mac documentation Security Reference SecurityFrameworkReference 我能够在 OS X
如何让 bash 将 stderr 重定向到 >( 命令替换)？

我可以很好地将标准输出重定向到命令重定向 echo stdout gt 2 echo stderr gt gt rev stderr tuodts 但是当我尝试将 stderr 重定向到另一个时它似乎通过了 stdout 通道 echo
Git：如何使用多个存储库？

我有一个远程只读 git 存储库A 我已将其克隆到本地文件系统中 A定期更新每次更新后我都会将更新的代码拉取并合并到我的系统中我想与我的团队成员就以下文件进行协作A 为此我创建了一个新的远程存储库B 我如何管理同步B与我的本地存储库
避免在终端/cmd 上运行 FFmpeg

I m using FFmpeg for a small project so I built a GUI basic application for video editing here is the image 一切工作正常但我只是想
如何使用 WPF 将文本换行到标签中？

我有一个TextBox和一个标签单击按钮后我执行以下代码 label1 Content textbox1 Text 我的问题是如何启用标签的文本换行一行上可能显示太多文本如果是这种情况我希望它自动换行为多行 The Label控
如何将 CSRF 令牌从服务器传递到客户端？

这听起来可能是一个愚蠢的问题我想澄清这一点如果首先将令牌发送给客户端并且客户端发回相同的令牌 csrf 令牌如何帮助识别跨站请求恶意客户端不会得到服务器的响应吗如果我们在发送令牌时检查来源那么令牌检查的事情是不是显得多余我们如何
ASP.NET MVC 如何在布局中使用 Partial View？

我需要使用部分视图在布局中渲染菜单如果有更好的方法请告诉我我这样做在布局中 if User IsInRole Admin Html Partial AdminMenu 我在控制器中这样称呼它 public ActionResult
从 xarray 数据集中的某些变量中删除维度

我有一个 xarray 数据集其中某些变量的维度超出了必要的维度例如纬度和经度变量也随时间变化的 3D 数据集如何删除多余的尺寸例如在下面的数据集中 bar 是沿x and y轴沿轴具有恒定值x轴我该如何删除x尺寸来自
从html标签中提取信息到pandas中

我有一个充满 html 文件的文件夹我试图选择正确的 html 标签以便正确打印引文并且我需要的输出只是出版号和标题到目前为止我在 SO 中各个帖子的帮助下做到了这一点 with open filename r encoding
根据 Grocery CRUD 中的第三个参数设置下拉输入默认值

下面的代码示例 function product parameter crud new grocery CRUD crud gt callback add field dropdown field name array this add f
另一种复制算法

我有两个向量 vector objects vector
使用 C# ASP.NET 时“WebClient 请求期间发生异常”

因此我为我的程序构建了一个自动更新程序这里运行的代码是 new WebClient DownloadFile XXXX checkingfolder SelectedPath XXX 是我的网络服务器它在 verio 中作为 VPS
在哪里可以找到 Perl 正则表达式练习集？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
width() 和 height() 适用于没有 jQuery 的现代浏览器

我正在尝试为弹性 div 实现一个简单的折叠展开效果即当元素的实际尺寸未通过 CSS 设置时因此无法简单确定所以我需要 jQuery 的 width 和 height 的等效项来表示任意元素这些方法应该返回可分配给 style w
我的 winform 应用程序使用 xml 文件来存储数据，我应该将它们存储在哪里以便 Vista 用户可以写入数据？

我的 winform 应用程序使用 xml 文件来存储数据我应该将它们存储在哪里以便 Vista 用户可以写入数据 Thanks Use the Environment GetFolderPath http msdn microsoft
对于新的小型应用程序来说，实体框架值得迁移吗？

对于新的小型应用程序来说实体框架值得迁移吗大约 10 个表格和一个 WinForms 应用程序即替代方案是 DataTables DataRows 或 Linq to SQL 我不同意那些说 LINQ to SQL 更适合小型项目的说
将 Spark Structure Streaming DataFrame 转换为 Pandas DataFrame

我设置了一个 Spark Streaming 应用程序它从 Kafka 主题进行消费我需要使用一些接受 Pandas Dataframe 的 API 但是当我尝试转换它时我得到了这个 org apache spark sql Anal

将 Spark Structure Streaming DataFrame 转换为 Pandas DataFrame

将 Spark Structure Streaming DataFrame 转换为 Pandas DataFrame 的相关文章

随机推荐

热门标签