Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

2024-05-23

我想问一下 Spark 中输入的可能性。我可以看到从http://spark.apache.org/docs/latest/programming-guide.html http://spark.apache.org/docs/latest/programming-guide.html，我可以使用sc.textFile()用于将文本文件读取到 RDD，但我想在分发到 RDD 之前进行一些预处理，例如我的文件可能是 JSON 格式，例如{id:123, text:"...", value:6}我只想使用 JSON 的某些字段进行进一步处理。

我的想法是是否有可能以某种方式使用 Python 生成器作为 SparkContext 的输入？

或者 Spark 中是否有一些更自然的方式如何处理自定义文件，而不是 Spark 的纯文本文件？

EDIT:

看来接受的答案应该有效，但它让我想到了更实际的以下问题Spark 和 Python 尝试使用 gensim 解析维基百科 https://stackoverflow.com/questions/26202978/spark-and-python-trying-to-parse-wikipedia-using-gensim

最快的方法可能是按原样加载文本文件并进行处理以在生成的 RDD 上选择所需的字段。这可以跨集群并行工作，并且比在单台机器上进行任何预处理更有效地扩展。

对于 JSON（甚至 XML），我认为您不需要自定义输入格式。由于 PySpark 在 Python 环境中执行，因此您可以使用 Python 中常用的函数来反序列化 JSON 并提取所需的字段。

例如：

import json

raw = sc.textFile("/path/to/file.json")
deserialized = raw.map(lambda x: json.loads(x))
desired_fields = deserialized.map(lambda x: x['key1'])

desired_fields现在是下面所有值的 RDDkey1在原始 JSON 文件中。

您可以使用此模式来提取字段的组合，通过空格或其他方式分割它们。

desired_fields = deserialized.map(lambda x: (x['key1'] + x['key2']).split(' '))

如果这变得太复杂，您可以替换lambda使用常规的 Python 函数来完成您想要的所有预处理并只需调用deserialized.map(my_preprocessing_func).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入的相关文章

导入错误：无法导入名称“FFProbe”

我无法获取ffprobe包 https github com simonh10 ffprobe在 Python 3 6 中工作我使用 pip 安装它但是当我输入import ffprobe it says Traceback most
在函数内的 for 循环上使用 tqdm 来检查进度

我正在使用 for 循环迭代目录树内的一大组文件这样做时我想通过控制台中的进度条来监视进度因此我决定使用 tqdm 来实现此目的目前我的代码如下所示 for dirPath subdirList fileList in tqdm
docker 容器中的“（pygame parachute）分段错误”

尝试在 docker 容器中使用 pygame 时出现以下错误我想从容器中获取显示 Fatal Python error pygame parachute Segmentation Fault 重现 Docker已安装 docker ru
从内存地址创建python对象（使用gi.repository）

有时我需要调用仅存在于 C 中的 gtk gobject 函数但返回一个具有 python 包装器的对象之前我使用过基于 ctypes 的解决方案效果很好现在我从 PyGtk import gtk 切换到 GObject intro
如何在 Pandas Python 中按 id 对行进行排名

我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
Python 不考虑 distutils.cfg

我已经尝试了给出的所有内容并且所有教程都指向相同的方向即使用 mingw 作为 python 而不是 Visual C 中的编译器我确实有 Visual C 和 mingw 当我想使用 pip 安装时问题开始出现它总是给Unabl
Python speedtest.net，或等效的[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否有一个 Python 库可以实现 SpeedTest net 测试或等效的互联网连接速度测试 GitHub上有一个项目叫速度检查 https gi
NSUserNotificationCenter.defaultUserNotificationCenter() 使用 PyInstaller 返回 None

我正在尝试将通知发送到通知中心 Mac OSX 我正在使用 PyObjC 绑定来使用我们的 python 应用程序中的 cocoa api 我正在使用以下代码片段 import Foundation import objc NSUserNo
我可以用关闭的文件对象做什么？

当您打开文件时它存储在一个打开的文件对象中该对象使您可以访问该文件的各种方法例如读取或写入 gt gt gt f open file0 gt gt gt f
如何从 python 脚本执行 7zip 命令

我试图了解如何使用 os system 模块来执行 7zip 命令现在我不想用 Popen 或 subprocess 让事情变得复杂我已经安装了 7zip 并将 7zip exe 复制到我的用户文件夹中我只想提取我的测试文件 inst
Pandas 字典键到列[重复]

这个问题在这里已经有答案了我有一个像这样的数据框 index column1 e1 u c680 5 u c681 1 u c682 2 u c57 e2 u c680 6 u c681 2 u c682 1 u c57 e3 u c68
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
Flymake的临时文件可以在系统临时目录下创建吗？

我目前正在使用以下代码在 emacs 中连接 Flymake 和 Pyflakes defun flymake create temp in system tempdir filename prefix make temp file or
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
如何通过selenium中弹出的身份验证？

我正在尝试使用带有 Selenium 的 Python 脚本加载需要身份验证的网页 options webdriver ChromeOptions prefs download default directory r download de
获取多个同名请求参数

我的问题是给定的代码 from flask import Flask request app Flask name app route def hello return str request values get param None a
tf.print() vs Python print vs tensor.eval()

看来在Tensorflow中至少有三种方法可以打印出张量的值我一直在读here https www freecodecamp org news debugging tensorflow a starter e6668ce72617 an
py2exe ImportError：没有名为的模块

我已经实现了一个名为 myUtils 的包它由文件夹 myUtils 文件组成 init py 和许多名称为 myUtils 的 py 文件该包包含在 myOtherProject py 中当我从 Eclipse 运行它们时可以找到
Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

我陷入了一个问题我需要在 AWS lambda 上做一些抓取工作所以我按照下面提到的博客及其代码库作为起点这非常有帮助并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM

随机推荐

C# 根据当前日期传递日期时间值

我正在尝试根据 sql server 中的两个日期获取记录 Select from table where CreatedDate between StartDate and EndDate我通过了5 12 2010 and 5 12 20
Laravel，控制器中的 Auth::user()

Laravel 框架为什么我无法在 laravel 项目的控制器中使用 Auth user 查看用户是否已登录 Session 是否未连接到控制器 HomeController php public function isauthoriz
将客户分配到 magento 的多个客户组

您好我想将多个组分配给特定客户例如 Rajat 客户属于批发零售商电力实际上我在上面看到了同样的话题每个客户有多个客户组 https stackoverflow com questions 6153011 multiple c
OpenGL：如何检查用户是否支持glGenBuffers()？

我检查了文档它说 OpenGL 版本必须至少为 1 5 才能制作glGenBuffers 工作用户使用的是1 5版本但是函数调用会导致崩溃这是文档中的错误还是用户的驱动程序问题我正在用这个glGenBuffers 对于VBO 我如
将不连续范围从一张纸复制到另一张纸

VBA 新手也是第一次发帖可能会问一个非常基本的问题然而我在互联网上或在我拥有的参考书中没有找到答案所以我很困惑如何将一张纸中的一堆间隔开的列放入另一张纸中但没有间隙例如我想从这样的工作表中复制标记为 x 的单元格 x
通过单击两次提交来避免在 Asp.net MVC 中重复提交表单

我正在 Asp net MVC 中渲染一个带有提交按钮的表单成功将记录添加到数据库后页面将重定向以下是代码 HttpPost public ActionResult Create BrandPicView brandPic if Mo
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
如何将查找和替换限制为 CSV 中的一列？

我有一个 4 列 CSV 文件例如 0001 fish animal eats worms I use sed对文件进行查找和替换但我需要将此查找和替换限制为仅在第 3 列中找到的文本如何让查找和替换仅发生在这一列上您确定要使用se
在“onClick”上切换 DIV 高度

我想切换分区的高度我尝试过将 animate 与 if else 语句一起使用但它只会反弹我现在使用的代码将隐藏我的分区而不是切换高度点击时会触发 document ready function content1 toggle fu
Unity手游触摸动作不扎实

我的代码中有一种错误我只是找不到它发生的原因以及如何修复它我是统一的初学者甚至是统一的手机游戏的初学者我使用触摸让玩家从一侧移动到另一侧但问题是我希望玩家在手指从一侧滑动到另一侧时能够平滑移动但我的代码还会将玩家移动到您点击的
寻找局部最小值

下面的代码正确地找到了数组的局部最大值但未能找到局部最小值我已经进行了网络搜索以找到找到最小值的最佳方法并且根据这些搜索我认为我正在使用下面的正确方法但是在几天的时间里多次检查每一行之后下面的代码中有一些我仍然没有看到的错误
Lua 上的 For 循环

我的作业是如何执行 for 循环我已经从数字上弄清楚了但无法从名称上弄清楚我想创建一个 for 循环来运行名称列表以下是我到目前为止所拥有的 names John Joe Steve for names 1 3 do print n
Guid.NewGuid().GetHashCode() 用于数据库

这对于用作数据存储 SQL Server 的 ID 可靠吗我会使用 guid 但我更喜欢数字值 A guid更有可能代表一个记录uniquely than a numeric value 随着 GUID 确保全球唯一性 GUID 可以跨数
一个地址有多少字节？ [复制]

这个问题在这里已经有答案了在64位机器上我们知道一个地址是8个字节然而我并不完全清楚一个地址中有多少字节的信息虚拟内存中的每个字节都有一个地址吗或者内存中的每 64 位都有一个地址还是取决于架构如果这取决于架构那么我应该如
NHibernate 克服 NotSupportedException

有谁知道有什么方法可以克服 NotSupportedException 我有一个针对用户的方法 public virtual bool IsAbove User otherUser return HeirarchyString Starts
如何通过 Android 按钮单击运行单独的应用程序

我尝试在 Android 应用程序中添加两个按钮以从单独的两个应用程序订单系统和库存系统中选择一个应用程序如图所示我已将这两个应用程序实现为两个单独的 Android 项目当我尝试运行此应用程序时它会出现直到正确选择窗口但是当按
VBA - 如何从网站下载.xls并将数据放入Excel文件

我设法使用 VBA 达到准备从网络下载 Excel 文件的程度但我无法弄清楚如何实际下载该文件并将其内容放入我正在使用的 Excel 文件中有什么建议么谢谢这是到目前为止的代码 Sub GetData Dim IE As Inter
Angular 6 服务器端错误：找不到模块：错误：无法解析“./dist/server/main.bundle”

我正在开发一个项目将其更新到 Angular 6 更新后我现在在尝试运行服务器端渲染构建时收到此错误 Module not found Error Can t resolve dist server main bundle 我尝试去ht
在 Clojure 中解压缩 zlib 流

我有一个二进制文件其内容由zlib compress在Python上有没有一种简单的方法可以在Clojure中打开和解压缩它 import zlib import json with open data json zlib wb as
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro

Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入 的相关文章

随机推荐

热门标签

Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入的相关文章