RDD 中的分区数量和 Spark 中的性能

2024-03-01

在 Pyspark 中，我可以从列表创建 RDD 并决定有多少个分区：

sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)

我决定对 RDD 进行分区的分区数量如何影响性能？这与我的机器的核心数量有何关系？

主要影响是指定太少的分区或far分区太多。

分区太少您不会利用集群中所有可用的核心。

分区过多管理许多小任务将会产生过多的开销。

在两者之间，第一个对性能的影响更大。对于分区计数低于 1000 的情况，调度过多的小任务此时影响相对较小。如果您有数万个分区，那么 Spark 会得到very slow.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

apachespark

PySpark

RDD

RDD 中的分区数量和 Spark 中的性能的相关文章

isinstance（foo，types.GeneratorType）还是inspect.isgenerator（foo）？

Python中似乎有两种方法来测试一个对象是否是生成器 import types isinstance foo types GeneratorType or import inspect inspect isgenerator foo 本着
总分配超过堆内存的 95.00%（960,285,889 字节）- pyspark 错误

我用 python 2 7 编写了一个脚本使用 pyspark 将 csv 转换为 parquet 和其他内容当我在小数据上运行脚本时它运行良好但是当我在更大的数据 250GB 上运行脚本时我遇到了以下错误总分配超过堆内存的 9
空 while 循环有什么影响？

我知道这可能是一个有点愚蠢的问题但有时我只想循环直到条件为假但我不喜欢让循环保持为空所以代替 Visible true while IsRunning Visible false 我通常prefer while IsRunnin
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
非阻塞方法中的饥饿

一段时间以来我一直在阅读有关非阻塞方法的内容这是一段所谓的无锁计数器的代码 public class CasCounter private SimulatedCAS value public int getValue return va
去除字符串的最佳方法是什么？

我需要具有最佳性能的想法来删除过滤字符串 I have string Input view 512 3 159 删除 view 和的最佳性能方法是什么和引号我可以做这个 Input Input Replace view Replac
如何有效地从 DB2 表中删除所有行

我有一个大约有 50 万行的表我想删除所有行如果我做简单的delete from tbl 事务日志已满我不关心这种情况下的事务无论如何我都不想回滚我可以删除许多事务中的行但是有更好的方法吗如何有效地从 DB2 中的表中删除所有
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
这个 cProfile 结果告诉我需要修复什么？

我想提高Python脚本的性能并且一直在使用cProfile生成性能报告 python m cProfile o chrX prof bgchr py args 我打开这个chrX prof使用 Python 的文件pstats并打印出统计
在Python列表中交换元素的最快方法

在Python中交换两个列表元素是否有比 L a L b L b L a 或者我必须求助于Cython http cython org or Weave http www scipy org Weave或类似的看起来 Python 编译器
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
用于选择特定 div 中具有特定类的锚元素的 jQuery 选择器是什么

我有一些这样的代码我想选择每个 a 带有类的标签status在 div 中foo div a class status a div 你可以这样做 foo find status a
无法在 virtualenv 中加载 pyspark

我已经在 python virtualenv 中安装了 pyspark 我还安装了新发布的jupyterlabhttp jupyterlab readthedocs io en stable getting started installa
jQuery mousemove 性能 - 节流事件？

我们面临着与 mousemove 连接的 jQuery 事件传播性能问题我们有一个屏幕填充画布需要跟踪用户是否在其上拖动鼠标因此我们在该对象上添加了一个鼠标移动侦听器如下所示 ourCanvas on mousemove funct
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数

随机推荐

带有虚线图案的渐变线

我需要创建一条具有线性渐变的虚线我设法使用创建了一条虚线 hr 以及以下样式 line border 0px border bottom 2px dashed 我也知道要实现渐变我需要这样做 background webkit grad
在 ec2 中启动 minikube 显示“X 抱歉，Kubernetes v1.18.0 需要将 conntrack 安装在 root 路径中”

我正在尝试启动 Minikube 所以我跑了 minikube start vm driver none 但它在控制台中显示以下行 Amazon 2 Xen amd64 上的 minikube v1 9 2 根据用户配置使用无驱动程序 X
使用 Google Apps 脚本 (GAS) V8 定义私有类字段

自从 Google 推出 V8 引擎以来我正在将一些代码迁移到新引擎 ES6 允许定义私有类但是在 Google App Script 上运行时我收到错误 Example class IncreasingCounter count 0
SharePlum 错误：“无法获取用户信息列表”

我正在尝试使用分享梅花 https pypi python org pypi SharePlum 0 1 1这是 SharePoint 的 Python 模块但是当我尝试连接到我的 SharePoint 时 SharePlum 会向我抛出
对象拥有 QObject 派生类集合的正确方法是什么？

我正在尝试创建一个类公开 QObject 派生类具有其自己的 qt 属性的集合或多个我可以在 qml 中使用 qt 属性根据http qt project org doc qt 5 0 qtcore qobject html n
如何从wpf中的代码隐藏更改控件的Grid.Row和Grid.Column

我已将控件放置在DataGrid像这样
python结构解包长度错误

我有一个长度为 41 的字节对象我尝试用以下方法解压它 struct unpack 2B2B32sBi data 但我收到一个错误 struct error 解包需要长度为 44 的字节对象我认为长度2B2B32sBi应该2 1 2 1
使c++程序在windows中的特定核心上运行

我想知道如何强制 Visual Studio 中的 C 程序在特定的核心上运行在拥有多个核心的计算机上 i found this https stackoverflow com questions 8326427 how to force
以编程方式设置Android动画列表

我正在尝试将 gif 动画添加到我的应用程序中 1 我可以从服务器下载 gif 动画 2 我能够解码动画 gif 使用我的自定义解码器并拥有与其帧相对应的单独位图现在我想使用逐帧动画来制作它的动画正如我所读到的要执行逐帧动画首先需
如何设置camel处理器或其他路由成分的id

Camel 自动生成处理器和其他内容的 ID processor1 processor25 有没有办法设置这个名字我们需要通过 jmx 识别某些处理器来获取遥测数据我想要设置的名称是通过属性给出的它们在开始时是已知的因此我需要在定
jQuery 交换图像未加载

我正在尝试使用 jQuery attr 将图像从 Images origImage 的原始图像源位置交换到 Images newImage 的新图像源位置当我单击 div 时如果右键单击图像并查看地址 URL 属性图像 Url 属性会
如何将不同类型的列插入到numpy数组中？

我想附加两个类型的 numpy 数组np datetime64 and int到另一个这会导致错误我需要做什么来纠正这个问题如果我将向量附加到自身上即 np append c c axis 1 or np append a a ax
如何设置gdb的默认选项？

我每次打开 GDB 时都会设置几个选项例如 set print thread events off 有没有办法默认设置这些选项也许类似于 gdb rc 文件初始化文件为gdb叫做 gdbinit 您可以将所需的选项放入此文件中它们将
当 div 滚动到视口时淡入

好的所以我一直在寻找simple当用户将其滚动到视图中时淡入 div 的方法但我找不到直接的解决方案 HTML div class container div class topdiv This is a 100 height div
C# - 无法在方法内声明委托

我这里真的是一片空白我在想why我无法在方法中声明委托类型但我必须在类级别声明委托类型 namespace delegate learning class Program Works fine public delegate void
静态内存实例中的字符串计数

据我所知编译时类似 C 的字符串仅作为一个实例保存在静态内存中例如我两者都有true在 gcc 4 6 上运行下面的示例但我想知道它是否总是如此并且可以便携 C 和 C 上的行为都很有趣 include
Spark如何执行join+filter？它具有可扩展性吗？

假设我有两个大型 RDD A 和 B 包含键值对我想使用密钥连接 A 和 B 但是在匹配的 a b 对中我只想要一小部分好的所以我进行连接并随后应用过滤器 A join B filter isGoodPair where isGo
Laravel 5.1 防止 CSRF 不匹配引发异常 [重复]

这个问题在这里已经有答案了我遇到向用户抛出 CSRF 异常的问题发生这种情况的原因完全是无辜的例如如果有人在最终提交表单时花了太长时间填写表单则会话已过期并且令牌不匹配现在显然这是一个错误但它不需要杀死所有内容并抛出异常有
优化 Solr 的排序

我正在使用 Solr 进行实时搜索索引我的数据集大约有 60M 大文档我需要按时间排序而不是按相关性排序目前我在查询中使用排序标志按时间排序这对于特定搜索效果很好但是当搜索返回大量结果时 Solr 必须获取所有结果文档并在返回
RDD 中的分区数量和 Spark 中的性能

在 Pyspark 中我可以从列表创建 RDD 并决定有多少个分区 sc SparkContext sc parallelize xrange 0 10 4 我决定对 RDD 进行分区的分区数量如何影响性能这与我的机器的核心数量有何关系

RDD 中的分区数量和 Spark 中的性能

RDD 中的分区数量和 Spark 中的性能 的相关文章

随机推荐

热门标签

RDD 中的分区数量和 Spark 中的性能的相关文章