pyspark 将 twitter json 流式传输到 DF

2024-05-18

我正在从事集成工作spark-streaming with twitter using pythonAPI。我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理。但根据我的用例，我需要所有字段twitter JSON并将其转换为数据框。这就是我面临问题的地方sqlContext.read.json()正在倾倒整个JSON DStream into _corrupt_record

+--------------------+
|     _corrupt_record|
+--------------------+
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|
|{u'quote_count': ...|

另外，这个问题似乎可以通过使用来解决structured streaming使用spark 2+版本。但我必须坚持spark 1.6。以下是我的代码片段。

def process(time, rdd):
    print("========= %s =========" % str(time))
    try:

        sqlContext = getSqlContextInstance(rdd.context)

        jsonRDD = sqlContext.read.json(rdd)
        jsonRDD.registerTempTable("tweets")
        jsonRDD.printSchema()
    except:
        pass


rawKafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "kafka-consumer", {kafkaTopic: 4})
parsed_stream = rawKafkaStream.map(lambda rawTweet: json.loads(rawTweet[1]))

parsed_stream.foreachRDD(process)

Python json.dumps()在 Spark 中创建 RDD[Dict] 类型的字典 RDD。要使其成为 DF，以下行将起作用

SQLContext.jsonRDD(RDD[dict].map(lambda x: json.dumps(x)))

为了使它在我的情况下工作，我必须执行以下操作

def process(time, rdd):
    print("========= %s =========" % str(time))
    try:

        sqlContext = getSqlContextInstance(rdd.context)

        jsonRDD=sqlContext.jsonRDD(rdd.map(lambda x: json.dumps(x)))
        jsonRDD.registerTempTable("tweets")
        jsonRDD.printSchema()
    except:
        pass


rawKafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "kafka-consumer", {kafkaTopic: 4})
parsed_stream = rawKafkaStream.map(lambda rawTweet: json.loads(rawTweet[1]))

parsed_stream.foreachRDD(process)

有关此方法的更多详细信息。请参阅link https://issues.apache.org/jira/browse/SPARK-2870

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

apachespark

pyspark 将 twitter json 流式传输到 DF 的相关文章

python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
Rails escape_javascript 通过转义单引号创建无效的 JSON

ActionView中的escape javascript方法转义撇号作为反斜杠撇号解析为 JSON 时会出错例如消息我在这里在打印时是有效的 JSON message I m here But 输出 I m here 导致无效
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
为什么 Python 中的“pip install”会引发语法错误？

我正在尝试使用 pip 安装软件包我试着跑pip install从Python shell 但我得到了SyntaxError 为什么我会收到此错误如何使用 pip 安装软件包 gt gt gt pip install selenium
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
创建一个类似于 Tkinter 的表

我希望创建类似于 Tkinter 中的表格的东西但它不一定是这样的例如我想创建标题 Name1 Name2 Value 并在每个标题下面有几个空白行然后我希望稍后用我计算的值或名称的字符串值填充这些行因此是标签对于 Name2
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
如何为 Jackson 编写一个包罗万象的（反）序列化器

当您提前知道类型时编写自定义序列化器非常容易例如 MyType一个人可以写一个MyTypeSerializer extends StdSerializer
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
张量流：注册 numpy bfloat16 扩展

正如我所见 tensorflow 中有 bfloat16 的 numpy 扩展 https github com tensorflow tensorflow blob 24ffe9f729160a095a5cab8f592392018280
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

Nginx docker容器代理传递到另一个端口

我想在 docker 容器中运行 Nginx 它监听端口 80 并且当 url 以 word 开头时我希望它 proxy pass 到端口 8080api 我有一些网络应用程序侦听端口 8080 这在没有 docker 的情况下对我来说一
C#：如何防止主窗体过早显示

在我的 main 方法中我像往常一样启动主窗体 Application EnableVisualStyles Application SetCompatibleTextRenderingDefault false Application
Bigquery - 选择时间戳作为人类可读的日期时间

如何在 Google Bigquery 中选择时间戳存储为秒作为人类可读的日期时间 schema id STRING signup date TIMESTAMP 我使用编写了一个查询DATE功能但出现错误 SELECT DATE cr
使用多个值过滤 JFX TableView

我目前正在尝试过滤我的数据TableView using FilteredList with predicate 我有2个ComboBoxes来过滤值我的表包含Result Each Result has a Student that S
如何在Java媒体框架中学习.wav持续时间？

我正在尝试使用 java 媒体框架将 mov 文件与 wav 文件合并因此我需要知道它们的持续时间我怎样才能做到这一点任何想法将不胜感激您可以使用以下方式了解声音文件的持续时间即 VitalyVal 的第二种方式 import
将目录压缩为单个文件的方法有哪些

不知道怎么问所以我会解释一下情况我需要存储一些压缩文件最初的想法是创建一个文件夹并存储所需数量的压缩文件并创建一个文件来保存有关每个压缩文件的数据但是我不被允许创建许多文件只能有一个我决定创建一个压缩文件其中包含有关进一步
Excel：#CALC！使用 MAP 函数计算间隔重叠时出现错误（嵌套数组）

我正在努力解决以下公式它适用于某些情况但不适用于所有情况名字input有失败的数据集得到一个 CALC 描述嵌套数组错误 LET input N1 0 0 N1 0 10 N1 10 20 names INDEX input 1
在.rdlc报告的底部设置一个文本框

我在 rdlc 报告中使用 tablix 有一个文本框其中包含文本签名我想将此文本框放置在报告最后一页的底部就在页脚之前我已经用谷歌搜索了这个解决方案但没有找到满意的结果我的环境是VS2010 framework 4 0 有什
内嵌显示定义术语和描述

我正在为页面上的某些元素使用定义列表并需要它们内联显示例如它们normally看起来像我需要它们看起来像注意多个 DD 我可以让它们在 moz 中使用 float 来正常工作但无论我尝试什么它们都无法在 IE 中工作我通常会
C 预处理器库

我的任务是开发源分析工具C程序并且我需要在分析本身之前预处理代码我想知道什么是最好的图书馆我需要一些重量轻便于携带的东西与其推出自己的为什么不使用cpp这是的一部分gcc suite http gcc gnu org onlin
索引后文件被锁定

我的网络应用程序中有以下工作流程从存档下载 pdf 文件索引文件删除文件我的问题是对文件进行索引后它仍然处于锁定状态并且删除部分会引发异常这是我用于索引文件的代码片段 try ContentStreamUpdateReq
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
Json.NET - 反序列化接口属性引发错误“类型是接口或抽象类，无法实例化”

我有一个类其属性是接口 public class Foo public int Number get set public ISomething Thing get set 尝试反序列化Foo使用 Json NET 的类给我一条错误消息
当按钮处于加载状态时，如何向按钮添加微调器图标？

Twitter 引导按钮 http getbootstrap com javascript buttons有一个很好的Loading 状态可用问题是它只显示一条消息例如Loading 通过了data loading text像这样的属性
webpack中动态加载外部模块失败

我正在尝试建立以下架构一个核心 React 应用程序它具有一些基本功能并且能够在运行时加载其他 React 组件这些额外的 React 组件可以按需加载并且它们在构建核心应用程序时不可用因此它们不能包含在核心应用程序的捆绑包中
如何通过 jQuery 中的类获取特定 html 元素的innerHTML？

我有这样的 HTML 代码 div class a html value 1 div div class a html value 2 div 我怎样才能访问html value 1 and html value 2使用jquery 分别地
如果使用 SingleOrDefault() 并在数字列表中搜索不在列表中的数字，如何返回 null？

使用查询正数列表时SingleOrDefault 当在列表中找不到数字时如何返回 null 或像 1 这样的自定义值而不是类型的默认值在本例中为 0 你可以使用 var first theIntegers Cast
接口中的构造方法

接口中的构造方法不好吗为什么人们认为有人想要实例化接口我们想要做的是强制实现者实现构造函数就像其他接口方法一样接口就像一个合同假设我有一个接口 Queue 并且我想确保实现者创建一个带有一个参数的构造函数该构造函数创建一个单例队
SKNode 上的 runAction 未完成

我使用 NSOperation 子类来获取串行执行SKAction正如这个问题中所描述的如何在 Swift 中子类化 NSOperation 以将 SKAction 对象排队以进行串行执行 https stackoverflow com
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J

pyspark 将 twitter json 流式传输到 DF

pyspark 将 twitter json 流式传输到 DF 的相关文章

随机推荐

热门标签