如何在 Python 中将 JSON 文件的目录加载到 Apache Spark 中

2023-11-22

我对 Apache Spark 比较陌生，我想从保存在多个 JSON 文件中的字典列表（每个文件都经过 gzip 压缩并包含字典列表）在 Python 中创建单个 RDD。粗略地说，生成的 RDD 将包含组合成单个字典列表的所有字典列表。我在文档中找不到这个（https://spark.apache.org/docs/1.2.0/api/python/pyspark.html），但如果我错过了，请告诉我。

到目前为止，我尝试读取 JSON 文件并在 Python 中创建组合列表，然后使用 sc.parallelize()，但是整个数据集太大，无法容纳在内存中，因此这不是一个实用的解决方案。 Spark 似乎有一种聪明的方法来处理这个用例，但我不知道。

如何在 Python 中创建包含所有 JSON 文件中的列表的单个 RDD？

我还应该提到，我不想使用 Spark SQL。如果可能的话，我想使用地图、过滤器等功能。

根据 tgpfeiffer 在他们的回答和评论中提到的内容，这就是我所做的。

首先，正如他们提到的，必须对 JSON 文件进行格式化，以便每行有一个字典，而不是单个字典列表。然后，事情就这么简单：

my_RDD_strings = sc.textFile(path_to_dir_with_JSON_files)
my_RDD_dictionaries = my_RDD_strings.map(json.loads)

如果有更好或更有效的方法来做到这一点，请告诉我，但这似乎可行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Python 中将 JSON 文件的目录加载到 Apache Spark 中的相关文章

Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
使用 Jade 评估自定义 javascript 方法 (CircularJSON)

我想通过 Jade 将一个对象解析为客户端 JavaScript 通常这会起作用 script var object JSON parse JSON stringify object but my object is circular ht
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar

随机推荐

正确安装 mingw-get - mingw/msys 路径缺失以及更多！

我运行的是Windows XP 我一直在关注本教程所以下载 mingw get insthere 我已经这样做过几次了最后一次我检查了 boes 以安装所有内容包括但不限于 gcc g MSYS 和 MinGW 编译套件我告诉它也创建
使用 Tensorflow 2.0 进行逻辑回归？

我正在尝试使用 TensorFlow 2 0 构建多类逻辑回归并且我编写了我认为正确的代码但它没有给出好的结果我的准确率实际上是 0 1 甚至损失也没有减少我希望有人能在这里帮助我这是我到目前为止编写的代码请指出我在这里做错了什
通过核心数据、NSExpression 进行不同计数到 NSFetchedResultsController

目前使用核心数据我有一张表我试图在其中检索以下信息 SELECT item COUNT FROM myTable GROUP BY item 为了产生这种类型的结果 item COUNT group 1 2 group 2 5 grou
ConfigurationManage ->section.SectionInformation.ProtectSection() 是否依赖于机器？

在代码中 Configuration config ConfigurationManager OpenExeConfiguration Application ExecutablePath ConnectionStringsSection
使用 Image.FromFile 不会释放文件句柄

我正在将多个多图像 tiff 文件连接到单个多图像 tiff 文件并且在删除源 tiff 文件时遇到问题因为 Image 类继续保留它们的句柄我正在通过 Image FromFile 读取 tiff 图像 Bitmap resultT
如何将输入元素与其标签放在同一行？

我想放一个label and an input type text 在同一条线上我想要input的宽度来填充包含元素的剩余宽度无论标签文本的长度如何请参见第一张图片我尝试使用width auto 为了input 但它似乎有一个静态宽
C 如何在不使用图形库或任何其他库函数的情况下绘制点/设置像素

我试图了解如何在不使用库函数的情况下绘制一组形成圆圈的点设置像素现在获取给定半径的点的 x y 坐标非常简单 for x r x
似乎无法覆盖 Magento 中的结帐控制器

我正在尝试对 Magento 商店中的 Checkout 控制器进行一些更改但是当我尝试将控制器文件放入本地目录时它似乎并不尊重本地文件我已经检查过这些文件是否位于各自代码池中的同一位置并且这些文件的名称相同但它只是不会这样做
在动态元素上使用 .on() 和 e.stopPropagation()

我一直在尝试使用捕获元素之外的点击事件stopPropagation container children on click function e e stopPropagation container on click function
将使用 S3 类的包转换为 S4 类，性能会下降吗？

我有一个当前使用的 R 包S3类系统具有两个不同的类和几种用于通用 S3 函数的方法例如plot logLik and update 用于模型公式更新由于我的代码由于所有有效性检查而变得更加复杂if else结构因为没有基于两个参数
Malloc 分段错误

这是发生分段错误的代码段未调用 perror job malloc sizeof task t if job NULL perror malloc 更准确地说 gdb 说segfault发生在一个 int malloccall 这是一个子
使用 JavaScript 滚动到页面顶部？

如何使用 JavaScript 滚动到页面顶部立即跳转到页面顶部的滚动条也是理想的因为我不希望实现平滑滚动如果您不需要更改动画那么您不需要使用任何特殊插件我只需使用本机 JavaScriptwindow scrollTo 方法传
如何检查给定进程在运行时加载了哪些共享库？

有没有办法检查正在运行的进程使用哪些库更具体地说如果程序使用以下方式加载一些共享库dlopen 那么 readelf 或 ldd 将不会显示它是否有可能从正在运行的进程中获取该信息如果是怎么办其他人都走在正确的道路上这里有几种
带有 Groovy 'with' 闭包的重复 try-catch 块？

我有以下 Groovy 课程 Slf4j class WidgetService WidgetDao widgetDao new WidgetDao createWidget String name int type try widgetD
在 Angular 中取消转义 html 实体的正确方法是什么？

我从 json 文件获取 html 实体例如 8217 如何在 html 组件中取消转义它我创建了自定义管道但它仅适用于像 amp import Pipe PipeTransform from angular core import
异步 ReadDirectoryChangesW - GetQueuedCompletionStatus 总是超时

正如听起来的那样我正在尝试异步ReadDirectoryChangesW使用 IO Completion 并且它不起作用具体来说 GetLastError重复返回 258 GetQueuedCompletionStatus暂停我有结构
R 中带有 rCharts 的 nvd3 scatterPlot：不同大小的点？

我已经使用 rCharts 和 nvd3 一段时间了现在我需要一个气泡图或者至少需要一个散点图其中点的大小取决于数据中的变量从这个例子看来有可能 rCharts 中散点图的示例是 library rCharts p1 lt nP
java中int.class和Integer.TYPE有什么区别？ [复制]

这个问题在这里已经有答案了我想知道Java中int class和Integer TYPE的区别绝对没有如果运行以下代码您将看到int class是一样的Integer TYPE public class Test public st
如何计算安卓手机电池的剩余时间？ [复制]

这个问题在这里已经有答案了我正在 Android Studio 上开发电池健康应用程序我想知道如何计算播放音乐或视频浏览网站或待机的剩余时间我见过很多这样的android应用程序但看不到源代码我想查看计算播放音乐或视频等剩余时间
如何在 Python 中将 JSON 文件的目录加载到 Apache Spark 中

我对 Apache Spark 比较陌生我想从保存在多个 JSON 文件中的字典列表每个文件都经过 gzip 压缩并包含字典列表在 Python 中创建单个 RDD 粗略地说生成的 RDD 将包含组合成单个字典列表的所有字典列表我

如何在 Python 中将 JSON 文件的目录加载到 Apache Spark 中

如何在 Python 中将 JSON 文件的目录加载到 Apache Spark 中 的相关文章

随机推荐

热门标签

如何在 Python 中将 JSON 文件的目录加载到 Apache Spark 中的相关文章