Jupyter Notebook 上未显示结构化流输出

2024-04-30

我有两个笔记本。第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字。其他笔记本正在使用 Spark 结构化流（Python）从该套接字读取推文并将其结果写入控制台。不幸的是我没有在 jupyter 控制台上得到输出。代码在 pycharm 上运行良好。

spark = SparkSession \
    .builder \
    .appName("StructuredStreaming") \
    .getOrCreate()
spark.sparkContext.setLogLevel("ERROR")

# This is Spark Structured Streaming Code which is reading streams from twitter and showing them on console.
tweets = spark \
    .readStream \
    .format("socket") \
    .option("host", "127.0.0.1") \
    .option("port", 7000) \
    .load()

query = tweets \
    .writeStream \
    .option("truncate", "false") \
    .outputMode("append") \
    .format("console") \
    .start()

query.awaitTermination()

我不确定 Jupyter Notebook 是否可以实现这一点。但是，您可以使用内存输出来实现类似的结果。这很简单在complete模式，但可能需要一些更改append.

For the `complete` mode

In a complete输出模式，您的查询应该大致如下所示：

query = tweets \
    .writeStream \
    .outputMode("complete") \
    .format("memory") \
    .queryName("your_query_name") \
    .start()

请注意，没有query.awaitTermination()在最后。现在，查询your_query_name另一个单元格中的临时表，并根据需要观察不断更新的结果：

from IPython.display import display, clear_output

while True:
    clear_output(wait=True)
    display(query.status)
    display(spark.sql('SELECT * FROM your_query_name').show())
    sleep(1)

For the `append` mode

如果您想使用append输出模式，你必须使用水印。您也将无法使用聚合，因此您的代码可能需要进行一些进一步的更改。

query = tweets \
    .withWatermark("timestampColumn", "3 minutes")
    .writeStream \
    .outputMode("append") \
    .format("memory") \
    .queryName("your_query_name") \
    .start()

显示代码保持不变。您还可以展示query.lastProgress以类似的方式获取更详细的信息。

灵感和参考

如何从 Zeppelin 中的控制台流接收器获取输出？ https://stackoverflow.com/questions/47357418/how-to-get-the-output-from-console-streaming-sink-in-zeppelin
覆盖 jupyter 笔记本中以前的输出 https://stackoverflow.com/questions/38540395/overwrite-previous-output-in-jupyter-notebook

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Jupyter Notebook 上未显示结构化流输出的相关文章

在 RESTful Web 服务中实现注销

我正在开发一个需要注销服务的移动应用程序登录服务是通过数据库验证来完成的现在我陷入了注销状态退一步您没有提供有关如何在应用程序中执行身份验证的详细信息并且很难猜测您在做什么但是需要注意的是在 REST 应用程序中不能有会话
Antlr 解析器运算符优先级

考虑以下语法我对运算符优先级有疑问例如 res 2 a b有一个类似的解析树res 2 a b 我知道问题出在哪里但我没有想到没有相互左递归的漂亮解决方案你能帮我一点忙吗该语法与自定义访问者一起使用 grammar Math
仅当显式选择行时才关闭 ui-bootstrap typeahead

我创建了这个jsBin http jsbin com livuqafe 2 edit来证明我遇到的问题如果您转到此处请尝试输入五并继续你的自然反应是输入五然后按 Tab 如果你想要五百你可以向下箭头一次但是在这种情况下
带有 Maven Wrapper 的 Java 17 导致无法识别的 VM 选项“MaxPermSize=512m”

I use OpenJDK 17 https jdk java net 17 使用 Maven Wrapper 3 8 2 从春季初始化 https start spring io Maven项目 JAR打包 Java 17 Spring
测量窗口偏移

有没有一种方法可以测量 jQuery 中窗口的偏移量以便我可以比较固定元素和相对定位元素的位置我需要能够知道窗口滚动了多远以便我可以使用该图来计算固定元素的高度相对于视口顶部和相对对象的高度相对于顶部之间的差异文件的内容
MySQL 查询计算上个月

我想计算上个月的订单总额我收到了从当前日期获取当月数据的查询 SELECT SUM goods total AS Total Amount FROM orders WHERE order placed date gt date sub c
PrimeFaces 对话框参考父级

我有一个 xhtml 页面显示带有条目的数据表我还有一个用于插入新条目的按钮该按钮显示一个包含表单的对话框插入表格用作
类型或命名空间“MyNamespace”不存在等

我有通常的类型或命名空间名称不存在错误除了我引用了程序集 using 语句没有显示为不正确并且我引用的类是公共的事实上我在不同的解决方案中引用并使用相同的程序集来执行相同的操作并且效果很好顺便说一句这是VS2010 有人有什么
Mono 应用程序在非阻塞套接字发送时冻结

我在 debian 9 上的 mono 下运行一个服务器应用程序大约有 1000 2000 个客户端连接并且应用程序经常冻结 CPU 使用率达到 100 我执行 kill QUIT pid 来获取线程堆栈转储但它总是卡在这个位置
php 数组中出现意外的 json 输出结构

我正在尝试转换动态数据如何从 PHP 获取此 JSON JSON 122240cb 253c 4046 adcd ae81266709a6 item 0 3 这就是我所做的但它不起作用 PHP json array 122240cb 2
将第三个表链接到多对多关联中的桥接表

设计这个数据库的正确方法是什么这是我设置表格的方式我在名为教师的表和名为仪器的表之间存在多对多关系然后我有一个连接两者的桥接表我想将另一个表与 BRIDGE 表关联起来意思是乐器老师的组合该表有 3 行指定老师可以教
Amazon RDS for SQL Server 是否支持 SSIS？

从谷歌搜索中读到一些相互矛盾的答案不确定答案是是否还是可能我觉得读的时候已经很清楚了this http docs aws amazon com AmazonRDS latest UserGuide CHAP SQLServer htm
NSArrayController 无需将大型数据集加载到数组中

我想使用 NSArrayController 向 NSTableView 提供数据我面临的问题是我不想将所有数据预先加载到数组中然后使用数组控制器setContent 方法我的数据模型是一个管理数百万条记录的大型现有代码库它包含有效
如何在 Angular 4 中翻译 mat-paginator？

你知道如何在 Angular 中翻译每页项目吗mat paginator标签这mat paginator是材料设计中的一个元素您可以使用MatPaginatorIntl为了这威尔豪厄尔制作 https github com an
从 mvc 控制器使用 Web api 控制器操作

我有两个控制器一个mvc控制器和一个api控制器它们都在同一个项目中 HomeController Controller DataController ApiController 如果我想从 HomeController 中使用 Dat
如何修复：“无法解析类型 java.lang.CharSequence。它是从所需的 .class 文件间接引用的”消息？ [复制]

这个问题在这里已经有答案了我正在尝试使用这个字符串 amountStr amountStr replace replace replace 但我收到一条错误消息我知道我收到的错误消息是因为我刚刚发布的字符串已过时所以我想知道该字符串的
如何在 JFreeChart 中设置多个系列的线条粗细？

我创建了很多图表在他们每个人中我都需要打电话 renderer setSeriesStroke i new BasicStroke 2 0f 对于每个系列 renderer is chart getXYPlot getRenderer 我
Android 材料芯片组件崩溃应用程序。无法膨胀 xml

Tried Chip来自两个支持库的组件 com google android support design 28 0 0 rc01和材料 com google android material material 1 0 0 rc01 堆栈
禁用允许文本选择的？

残疾人可以吗
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

AmazonDB 免费套餐的含义是什么？

在我的 Android 应用程序中我使用 Amazon DynamoDB 我创建了 10 个表读取容量为 10 写入容量为 5 今天我收到了一封来自 Amazon 的电子邮件我花了 11 36 美元我不明白免费套餐的含义这是我从亚
隐藏控制台窗口

problem 我开始使用 Python 和 Tkinter 设计 GUI 应用程序当我使用 cxFreeze 冻结脚本时然后当我在计算机上运行该 EXE 文件时然后首先打开控制台窗口在 Windows XP 中为黑色 DOS sh
广播接收器在不同版本的 Android（4.1.1 和 4.2.2）上的工作方式有所不同

我有一个问题当我运行我的 Android 应用程序时它有广播接收器 for WiFi 它在不同版本的 Android 操作系统上表现不同例如4 1 1 and 4 2 2 当我运行它时4 1 1它工作完美就像广播接收器在 Wifi
youtube api v3 按关键字搜索 javascript

谷歌开发人员页面上给出的按关键字搜索的 javascript 示例不适合我 https developers google com youtube v3 code samples javascript https developers
自 2012 年 6 月升级 SDK 1.7 以来，Azure 部署不断回收

我有一个之前运行成功的部署从那时起我已升级到 2012 年 6 月的 SDK 当我部署时它会不断回收如果我通过远程桌面进入实例我可以手动打开应用程序并且它会运行没有黄屏死机因此必须有一些有关部署的信息在事件查看器中我看到错误
mysql CLI 工具是否提供了一种以控制台友好的方式显示二进制数据的方法？

我有一个 MySQL 数据库其中包含一个带有二进制类型列的表我希望能够投影该列而不必运行它例如 HEX 是否mysqlCLI 工具有一个配置选项或其他方式来显示二进制数据的表示形式而不会输出任意字节供我的控制台以搞笑烦人的方式解释
推动 ORM 将 MAX 纳入标准

我正在使用 Propel ORM 编写查询查询的形式为 select from some table where some table created at SELECT MAX some table created at from so
在Python中单击按钮时隐藏标签

在 Python Tkinter 中单击按钮时如何隐藏现有标签这实际上取决于您使用的几何管理器如果你使用 lbl Tkinter Label parent 要创建标签您将使用以下方法之一来隐藏它 lbl grid forget lbl
如何检索使用 Apache 的 mod_ldap 进行身份验证的用户的用户信息？

我使用 Apache 进行 LDAP 身份验证现在我需要知道如何获取使用 PHP 登录的用户有可能吗我是否必须在 PHP 中进行身份验证才能存储用户名如果您激活 mod authnz ldap 模块并按如下方式配置您的部分
当 S3 上的 ZIP 包更改时如何更新 aws_lambda_function Terraform 资源？

Zip 包不是由 Terraform 上传到 S3 Lambda 由 Terraform aws lambda function 资源配置当我在 S3 上更改 Zip 包并运行时terraform apply命令 Terraform 说没
在控制台应用程序中使用 swift 处理可可按键事件（按下按键）

好吧我正在尝试登录控制台输出按下的键我只是无法理解可可的结构无论是 Obj c 还是 swift 我不是这两种语言的大师但是这是我的代码 import Cocoa import Foundation import AppKit v
使用 git，如何在冲突期间“使用他们的”？

使用 git 如何执行使用他们的类型的分支合并命令该命令应该用原始版本覆盖我的本地版本要将您的 master 替换为 origin master git checkout master git branch M master old
SSDT-BI 可以与 SQL Server 2008 R2 一起使用吗？

有人可以告诉我在 Visual Studio 2012 或 2013 中开发的 SSIS 包是否可以在 2008r2 服务器上运行吗如果是 2008r2服务器上还需要安装其他软件吗这里不关心部署我只想通过 sql 代理作业在 2008
同位素重叠图像？

似乎它只发生在 Chrome 和 Safari 中而不是 Firefox 我将它与基础响应框架一起使用所以我不确定如何设置高度 Chrome Safari 中的图像之间似乎也没有足够的间距我该如何解决编辑这是一个小提琴http j
在 NuGet 包中添加解决方案级项目

我想通过 NuGet 包将解决方案文件夹和解决方案项不是项目添加到解决方案文件中我想这将通过 Powershell 来完成我浏览了 NuGet Powershell 和 EnvDTE 的文档但无法弄清楚我会使用哪些命令方法我
可以设计自定义推文按钮并利用数据属性吗？

我正在使用自己的样式创建自定义推文按钮但是当您选择自定义自己的样式时您似乎无法使用数据属性数据文本数据网址等仅当您使用使用小部件 javascript 的 Twitter 样式按钮时数据属性的使用才显得可用 http platf
从 Fortran 字符串中提取单个字符

我需要一个程序将基数 a 转换为基数 b 其中基数 a 和 b 可以是从 2 到 36 我的想法是使用字符串作为数字作为中介转换为基数 10 然后从基数 10 转换为基数 b 由于我是 Fortran 新手我不太理解函数和子字符串现在
如何从 ScheduledExecutorService 中删除任务？

我有一个ScheduledExecutorService定期执行一些不同的任务scheduleAtFixedRate Runnable INIT DELAY ACTION DELAY TimeUnit SECONDS 我也有不一样的Runn
使用 Underscore debounce 获取事件对象[React]

我正在尝试对我已设法做到的操作使用去抖但是我想将 e 作为参数传递但它不起作用我有什么办法可以做到这一点吗 constructor props context super props context this testing debo
Jupyter Notebook 上未显示结构化流输出

我有两个笔记本第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台不幸的是我没有在 jupyter 控制台上得到

热门标签