访问 Scala 中可用但 PySpark 中不可用的依赖项

2024-04-04

我正在尝试访问 RDD 的依赖项。在 Scala 中，这是一个非常简单的代码：

scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2)
myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24

scala> myRdd.dependencies
res0: Seq[org.apache.spark.Dependency[_]] = List(org.apache.spark.ShuffleDependency@6c427386)

但 PySpark 中不提供依赖项。有关如何访问它们的任何指示吗？

>>> myRdd.dependencies
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'PipelinedRDD' object has no attribute 'dependencies'

没有支持的方法来做到这一点，因为它没有那么有意义。你可以

rdd = sc.parallelize([1, 2, 3]).map(lambda x: x)
deps = sc._jvm.org.apache.spark.api.java.JavaRDD.toRDD(rdd._jrdd).dependencies()
print(deps)
## List(org.apache.spark.OneToOneDependency@63b86b0d)

for i in range(deps.size()):
    print(deps.apply(i))

## org.apache.spark.OneToOneDependency@63b86b0d

但我认为这不会让你走得太远。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

RDD

访问 Scala 中可用但 PySpark 中不可用的依赖项的相关文章

Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv

随机推荐

使用 C# 在预先打印的纸张表单上的特定位置打印文本

我需要在打印纸的特定位置打印纸张文本原因是打印是在已打印的表单上完成的其中包含名字和姓氏等字段因此当我得到这个人的名字时它应该以纸质形式打印在分配的空间内想知道是否有任何现有的库允许我使用 X 和 Y 坐标等坐标系在特定位置进行
Maven - 在 Eclipse 中抑制覆盖托管版本警告

我在用spring boot 并且遇到了类似于所描述的错误here https stackoverflow com q 14730329 2860319 我将以下内容添加到我的 pom xml 中
逆向工程iOS天气应用程序UI组件[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在尝试写下 iOS 天气应用程序的摘要我感兴趣的主要组件在下图中标记为 1 2 3 4 和 5 UI 应获取如下一个 ViewContr
如果行中的特定单元格不为空，则格式化整行

我想根据其中的特定单元格是否为空来格式化整行我希望条件格式能够遍历所有行并在该行中的 C 列不为空时添加背景颜色我该如何解决为了说明假设整行包含 A Z 列请尝试格式条件格式自定义公式是 C1 lt gt 与您选择的格式和
何时使用表达式混合创建用户控件

因此我正在开发一个新应用程序并且我正在使用 Expression Blend 第一次来创建布局和样式等但我有一个关于何时要创建用户控件的问题我有一个蛀虫我想用它作为很多东西的背景但它实际上是边框中的边框然后我们将把任何控件放
如何使用 Exchange Web 服务 (EWS) API 通过共享邮箱发送电子邮件

我正在使用 MS Exchange Web 服务 API 通过共享邮箱发送电子邮件发送电子邮件可以工作但它们不会保存在已发送的项目中如下所示手动执行此操作项目保存在已发送项目中但通过我的代码不会保存它们 using Micros
循环变量文件名[重复]

这个问题在这里已经有答案了我正在使用 Fortran 对分成许多文件的庞大数据集进行计算文件的名称是 maltoLyo12per reimage set1 traj maltoLyo12per reimage set2 traj mal
使用 angularjs 将多个对象发送到 webapi

我的 ASP NET WebApi 应用程序中有以下控制器 Route api PutItem HttpPut public IHttpActionResult PutItem Guid id Item item if ModelState
如何在TabControl.ContentTemplate中添加新的用户控件？

我不太愿意在中添加用户控件的新实例TabControl ContentTemplate 我的 Xaml 在这里
软件版本编号遵循什么规则？ [复制]

这个问题在这里已经有答案了我一直在开发一些软件并想给它版本号我该怎么做呢为什么有些软件有两个版本比如1 3v1 1 或者有些有 3 个数字 4 0 1 这一切背后的方法是什么 Thanks 我见过的常用方法是X Y Z 一般对应ma
单元测试作为构建的一部分

我有一个 CMake 项目分为三个部分我的库的编译编译许多单元测试程序来测试这些库的每个精确子部分使用这些库编译程序示例 My question is about the 2nd part My unit tests executa
如何使用 django-filters 重命名（在 API 中公开）过滤器字段名称？

正如问题所述我正在尝试重命名 API 中公开的过滤器字段名称我有以下型号 class Championship Model class Group Model championship ForeignKey Championship c
qwt 图表示例 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案大家好我正在使用 qwt 我是新手我想使用 qwt 和 qt 创建者绘制图表我不知道要在我的 qt 项目中包含哪些库来绘制图表我已
在 Python 中下载、解压并读取 gzip 文件

我想在 Python 中下载提取和迭代文本文件而无需创建临时文件基本上这个管道但是在 python 中 curl ftp ftp theseed org genomes SEED SEED fasta gz gunzip proc
Array.prototype.filter.call(forms, function(form) 这是做什么的？

我很难完全理解这段代码是如何工作的这只是表单验证代码复制并从引导程序粘贴我的问题从这一行开始 var 验证 Array prototype filter call forms function form 在我看来它正在创建一个名为va
如果启用身份验证，Azure 上的查询/标头太大

我有一个在本地运行良好的节点快速应用程序我已将其上传到 Azure Web App 只要我不启用身份验证它就可以正常工作当我启用 AAD 身份验证时应用程序失败并显示状态 500 1011 错误请求我的网址中有很多查询参数如果
在 Git 中：为什么经常提交是件好事？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案所以我对 Git 和 DVCS 总体来说还很陌生而且我一直在到处读到至少在私有分支上一直提交总是好的问题是为什么我正在使用 Sour
纯Python四叉树实现

All 有一些使用 Python 实现四叉树的示例但我的问题是有谁知道用纯 python 编写的类在单个 py 文件中我可以轻松地将其包含在我的项目中这里列出了三个最受欢迎的软件包这些四叉树库中的任何一个都好吗 https sta
Silverlight：如何处理标准程序集

一个常见的 Silverlight 任务减小 xap 文件的大小有很多热门手册解释了如何使应用程序模块化但我没有找到任何人解释如何制作模块化标准库我的 xap 文件的最大部分 1 7Mb 当整体大小为 1 8Mb 时被标准程序
访问 Scala 中可用但 PySpark 中不可用的依赖项

我正在尝试访问 RDD 的依赖项在 Scala 中这是一个非常简单的代码 scala gt val myRdd sc parallelize 0 to 9 groupBy 2 myRdd org apache spark rdd RDD

访问 Scala 中可用但 PySpark 中不可用的依赖项

访问 Scala 中可用但 PySpark 中不可用的依赖项 的相关文章

随机推荐

热门标签

访问 Scala 中可用但 PySpark 中不可用的依赖项的相关文章