在Python Spark中查看RDD内容?

2024-05-05

在 pyspark 中运行一个简单的应用程序。

f = sc.textFile("README.md")
wc = f.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add)

我想使用 foreach 操作查看 RDD 内容:

wc.foreach(print)

这会引发语法错误:

SyntaxError: invalid syntax

我缺少什么?


在 Spark 2.0 中(我没有使用早期版本进行测试)。简单地:

print myRDD.take(n)

Where n是行数并且myRDD is wc在你的情况下。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在Python Spark中查看RDD内容? 的相关文章

  • 为什么我不能使用“exclude”从 python 轮子中排除“tests”目录?

    考虑以下包结构 与以下setup py内容 from setuptools import setup find packages setup name dfl client packages find packages exclude te
  • DataFrame 在函数内部修改

    我面临一个我以前从未观察到的函数内数据帧修改的问题 有没有一种方法可以处理这个问题 以便初始数据帧不被修改 def test df df tt np nan return df dff pd DataFrame data 现在 当我打印时d
  • 子进程改变目录

    我想在子目录 超级目录中执行脚本 我需要首先进入该子目录 超级目录 我无法得到subprocess进入我的子目录 tducin localhost Projekty tests ve python Python 2 7 4 default
  • Python 中的安全解除引用

    Groovy 有一个很好的安全取消引用运算符 这有助于避免 NullPointerExceptions variable method The method仅当以下情况时才会被调用variable is not null 有没有办法在 Py
  • Python sqlite3游标没有属性commit

    当我运行这段代码时 path Scripts wallpapers single png conn sqlite3 connect Users Heaven Library Application Support Dock desktopp
  • 字典中的列表,Python 中的循环

    我有以下代码 TYPES hotmail type hotmail lookup mixed dkim no signatures S Return Path email protected cdn cgi l email protecti
  • Django 的 URL 覆盖率测试为 0%,为什么?

    使用姜戈鼻子 我对 URL 进行了测试 但 URL 覆盖率仍然为 0 为什么 python manage py 测试配置文件 这是我的报道 Name Stmts Miss Cover Missing profiles 0 0 100 pro
  • 如何使用循环将十进制转换为二进制?

    我想编写一个程序 将十进制数 0 到 9 转换为二进制数 我可以编写如何使用重复除法将十进制数转换为二进制数的代码 但是 我在创建一个以二进制格式打印十进制数字 0 到 9 的循环时遇到了麻烦 这是我的代码 number 0 remaind
  • Django - 电子邮件发送两次

    每当我使用如下所示的电子邮件设置从views py调用下面的方法时 电子邮件的两份副本都会发送给收件人 并且我收到如下所示的错误 def sendEmailBasic request msg EmailMessage Request Cal
  • 在 matplotlib 中使用 yscale('log') 时缺少误差线

    在某些情况下 当使用对数刻度时 matplotlib 会错误地显示带有误差条的图 假设这些数据 例如在 pylab 内 s 19 0 20 0 21 0 22 0 24 0 v 36 5 66 814250000000001 130 177
  • 一起使用 Flask 和 Tornado?

    我是以下的忠实粉丝Flask 部分是因为它很简单 部分是因为它有很多扩展 http flask pocoo org extensions 然而 Flask 是为了在 WSGI 环境中使用而设计的 而 WSGI 不是非阻塞的 所以 我相信 它
  • 如何在 Python 中从 HTML 页面中提取 URL [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我必须用Python 编写一个网络爬
  • numpy.cov() 返回意外的输出

    我有一个 X 数据集 有 9 个特征和 683 行 683x9 我想获取这个 X 数据集和另一个与 X 具有相同形状的数据集的协方差矩阵 我使用np cov originalData generatedData rowvar False 代
  • Django 接受 AM/PM 作为表单输入

    我试图弄清楚如何使用 DateTime 字段在 Django 中接受 am pm 作为时间格式 但我遇到了一些麻烦 我尝试在 forms py 文件中这样设置 pickup date time from DateTimeField inpu
  • Spyder 如何在同一线程的后台运行 asyncio 事件循环(或者确实如此?)

    我已经研究 asyncio 模块 功能几天了 因为我想将它用于我的应用程序的 IO 绑定部分 并且我认为我现在对它的工作原理有一个合理的理解 或者在至少我认为我已经理解了以下内容 任一时刻 任一线程中只能运行一个异步事件循环 一旦一切都设置
  • 如何设置 matplotlib 表中列的背景颜色

    我在一个目录中有多个 txt 文件 例如 d memdump 0 txt 1 txt 10 txt 示例文本文件如下 Applications Memory Usage kB Uptime 7857410 Realtime 7857410
  • 最小硬币找零问题——回溯

    我正在尝试用最少数量的硬币解决硬币找零问题 采用回溯法 我实际上已经完成了它 但我想添加一些选项 按其单位打印硬币数量 而不仅仅是总数 这是我下面的Python代码 def minimum coins coin list change mi
  • 在 Python 的 Textmate 中突出显示尾随空格?

    我想做类似的事情this http remysharp com 2008 03 30 trailing white space in textmate Textmate 提示 这样当我在 Python 中编写代码时 尾随空白总是以某种方式突
  • 在游戏中实现功能

    我在完成这部分作业时遇到了麻烦 我必须宣布游戏的获胜者 然后输入到函数中 输入所有 if 语句后 我必须创建一个函数def playGame 这必须包括 showRules user getUserChoice computer getCo
  • 为什么用字符串和时间增量转置 DataFrame 会转换数据类型?

    这种行为对我来说似乎很奇怪 id列 字符串 在转置后转换为时间戳df如果另一列是时间增量 import pandas as pd df pd DataFrame id 00115 01222 32333 val 12 14 170 df v

随机推荐

  • GDB错误:“进程记录:当前架构不支持记录功能”

    我正在尝试在 GDB 中进行反向执行 特别是target record按照说明在 gdb 中运行我的程序后here https stackoverflow com questions 1206872 go to previous line
  • 检查 2 个数组是否至少有 1 个相等的值 [重复]

    这个问题在这里已经有答案了 目前我有2个数组 array 1 2 3 4 array 4 5 6 7 我如何检查它们是否至少有一个相等的值 上面的示例有 1 个相等值 gt 4 因此该函数应返回 true 数组相交 http php net
  • #ifdef MACRO 相当于注释吗

    假设 MACRO 没有定义 这些是等价的 ifdef MACRO Not valid C or C code endif Not valid C or C code 在 GCC 4 7 1 中 它似乎是等效的 但是否有预处理器可以做更多的事
  • 如何应用着色器并仅生成图像一次?

    我正在尝试将像素化着色器应用于我的纹理 并且我只需要将其应用一次 之后我可以一遍又一遍地重复使用我的着色器生成的图像作为纹理 而不必每次都进行计算 那么我如何拍摄一些图像 gt 应用着色器并在每次游戏加载时仅渲染它们一次 gt 并将它们用作
  • Javascript-CSS 显示和隐藏表单元素

    通过使用 Javascript 如何显示和隐藏表格的某些部分 例如 TR 或 TD 这应该取决于从数据库获取的数据 我在我的应用程序中使用 CakePHP 框架 并使用单个视图文件进行添加和编辑 在编辑模式下 根据获取的数据 我需要显示和隐
  • 更改 的默认按钮标签

    我在用
  • 如何使用 msw 有条件地模拟错误响应

    我正在处理的 UI 根据收到的响应以不同的方式呈现 我想测试用户界面4xx and 5xx收到答复 我的 api 处理程序看起来像 import rest from msw import items from apiValues expor
  • 如何基于Scrapy构建一个永远运行的网络爬虫?

    我想基于Scrapy构建一个网络爬虫 从多个新闻门户网站抓取新闻图片 我希望这个爬虫是 永远奔跑 意味着它将定期重新访问一些门户页面以获取更新 安排优先事项 为不同类型的 URL 赋予不同的优先级 多线程获取 我已经阅读了Scrapy文档
  • 如何仅为自定义类型覆盖模板“folder_full_view_item.pt”?

    这个问题的演变方式令人困惑 不过 它的某些部分 特别是一些答案 可能对某人有用 因此 我将不修改这个问题 并尝试重新表述这个问题here https stackoverflow com q 23809810 1659599 覆盖模板fold
  • 强制执行 IQueryable?

    我有一个 没有转换为 SQL 的方法 我想在 IQueryable 上执行该方法 有没有办法强制 IQueryable 执行 而不必将其存储在某个中间类中 问题是您希望您的方法在本地执行而不是在数据库中执行吗 如果是这样 AsEnumera
  • Node js:如何获取文件签名标头而不是 mime 类型?

    我下载了this https www npmjs com package mime types我的 Node js 项目的模块 它似乎在某种程度上工作正常 如果你console log mime lookup pathToFile 它返回文
  • 如何在 Windows 上的 PostgreSQL 中创建具有 UTF-8 排序规则的数据库?

    我正在为 Windows 上的 Bitbucket 服务器配置 PostgreSQL 数据库 在官方guide https confluence atlassian com bitbucketserver connecting bitbuc
  • jsonb 与 jsonb[] 对于客户的多个地址

    在 PostgreSQL 的 jsonb 字段中保存多个地址是个好主意 我是 nosql 新手 我想测试 PostgreSQL 来做到这一点 我不想有另一个包含地址的表 我更喜欢将其放在同一个表中 但我有疑问 我见过PostreSQL有js
  • 如何在C#中获取登录SID

    如何在 C net 中检索 Windows 登录 SID 不是用户 SID 而是每个会话的唯一新 SID 恐怕您必须求助于使用 P Invoke 有一个如何做到这一点的示例pinvoke net http www pinvoke net d
  • C#中为什么需要锁和对象?

    这是我一直不明白的事情 创建一个虚拟对象几乎看起来像是一个黑客locked 就像例子一样 class Account decimal balance private Object thisLock new Object public voi
  • MVC3 提交在我的复杂数据类型上返回 null

    在我的 MVC3 项目中 我有以下模型 public class CustomerModules public int ModuleId get set public string ModuleName get set public int
  • 我可以通过 Amazon API 网关异步启动长时间运行的 AWS Lambda 进程吗?

    我需要启动一个长时间运行的 AWS Lambda 作业 几分钟 将其输出写入 S3 它将用 Java 编写 实际上是 Kotlin 但这并不重要 我正在研究 Amazon API Gateway 作为此作业和其他 AWS Lambda 作业
  • 找不到模块“webpack”

    决定不在我的项目中使用 webpack 当我把它从package json出现以下错误ng s 找不到模块 webpack 错误 找不到模块 webpack 在 Function Module resolveFilename 内部 modu
  • 通过 :ref:? 从 ReST 文档中提取文本块

    我有一些 reStructuredText 文档 我想在在线帮助中使用其中的片段 似乎一种方法是通过引用 剪掉 标记片段 例如 my boring section Introductory prose blah blah blah my i
  • 在Python Spark中查看RDD内容?

    在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea