合并减少 JDBC 读取并行度

2024-01-01

我杠杆Spark's JDBC能力如下：

Read MySQL表成DataFrame
转换 them
Coalesce them
将它们写给HDFS

在整个生命周期中DataFrame, no action执行在上面。它曾经按预期工作，但最近我遇到了问题。谢谢Spark's 惰性评估, the coalesce导致减少并行性的读操作。

所以如果我读DataFrame using DataFrameReader.jdbc(..numPartitions..) with numPartitions=42，进而coalesce到 6partitions 在写入之前，然后读取DataFrame with a 并发性仅 6 个（仅触发 6 个查询MySQL）。我想重复一下之前它使用的 read with并行性42 并执行coalesce然后。

我最近迁移到Spark 2.3.0 on EMR 5.13，这可能与此有关吗？有解决方法吗？

由于 Spark 的惰性求值，合并导致读取操作的并行性降低。

这与懒惰无关。coalesce故意不创造分析障碍 https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset@coalesce(numPartitions:Int):org.apache.spark.sql.Dataset%5BT%5D:

然而，如果你正在进行剧烈的合并，例如numPartitions = 1，这可能会导致您的计算发生在比您想要的更少的节点上（例如，在 numPartitions = 1 的情况下只有一个节点）。为了避免这种情况，您可以调用repartition。这将添加一个洗牌步骤，但意味着当前的上游分区将并行执行（无论当前分区是什么）。

所以只需遵循文档并使用repartition代替coalesce.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

合并减少 JDBC 读取并行度的相关文章

Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array
Spark - 构建时出现 scala 初始化错误

我正在尝试在我的 scala 应用程序中使用 Spark 这是我正在使用的 Spark 依赖项
Spark LDA 困境 - 预测和 OOM 问题

我正在评估 Spark 1 6 0 来构建大型数百万个文档数百万个特征数千个主题 LDA 模型并进行预测这是我可以使用 Yahoo 轻松完成的任务 LDA 从小处开始按照 Java 示例我使用分布式模型 EM 优化器构建了 10
scalac 编译生成“对象 apache 不是包 org 的成员”

我的代码是 import org apache spark SparkContext 它可以在交互模式下运行但是当我使用 scalac 编译它时出现以下错误消息对象 apache 不是包 org 的成员这似乎是路径的问题但我不知道
使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
在 Scala 中创建 Java 对象

我有一个 Java 类 Listings 我在 Java MapReduce 作业中使用它如下所示 public void map Object key Text value Context context throws IOExcept
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus

随机推荐

Font Awesome 5 图标无法与 React 一起使用（“找不到图标”错误）

我正在尝试在我的 React 项目中使用 Font Awesome 5 Pro 我有许可证并且我已按照API https www npmjs com package fortawesome react fontawesome尽我所能但我
jQuery 获取高度和宽度

我做了一个if函数检查宽度是否 document ready function var pic pic need to remove these in of case img element has set width and height
Django + PostgreSQL 连接 - 无法使用服务器端游标

我在 PostgreSQL 中有一个存储过程它返回一个引用游标它的名称可以作为参数传递 Example stored procedure CREATE OR REPLACE FUNCTION example stored procedu
UWP 中的扩展执行

我想为我的 UWP 应用程序使用后台任务下面的代码是我在Windows Mobile中的后退按钮单击事件 private async void MainPage BackRequested object sender BackReques
我如何使用 SVN 作为 Maven 存储库

我正在开发具有多个依赖项的项目大多数依赖项都可以在我们的集中 Maven 存储库中找到我的项目包含一些仅特定于我的应用程序且在我们的 Maven 存储库中不可用的 JAR 由于某些政策限制我无法将该 jar 部署到我们的 Maven
匹配 XPath 中的不间断空格值

假设我有这样的 XML 结构 table tr td nbsp td tr table 我将如何指定与谓词中的节点值的比较 tr td 应该指定什么而不是解决办法是 tr td u0160 实际的 unicode 表示方式取决于您使用的工
在angularjs中为多个部分视图创建单个html视图

我希望创建一个包含多个标签的 html 文件这些应该作为单独的单独视图通常保存在部分文件夹中然后我希望在路由控制器中指定它们现在我正在做如下应用程序 js angular module productapp config rout
如何完成这个 Google Calendar Api v3 - FreeBusy PHP - 示例？

我想使用 google api v3 freebusy php 来查找我的三个日历的免费 freebusy 信息但我找不到代码的正确结尾我想访问 freebusy response 的日历忙值由于 api 参考中没有示例代码而
使用 roxygen2 时如何指定加载 S4 方法的顺序

我已经多次遇到以下问题假设你有两节课 classA and classB在以下文件中描述classA R the class classA This is a class A blabla section Slots describe i
如何根据指针变量计算数组的大小？

我有数组指针内存中的数组我可以根据数组的指针计算数组的大小吗我实际上不知道数组在内存中的位置我只得到指针地址假设9001 使用该地址我必须计算数组大小 Thanks 不您无法计算数组的大小 C 中的对象不携带类型信息因此您必须
window.scrollTo 在手机中不起作用

在我的网页的移动视图上我可以垂直和水平方向滚动但这始终从左上角开始现在我想使用 window scrollTo 或类似的东西将视口设置为我的自定义位置 window scroll 似乎只适用于桌面浏览器知道我该如何解决这个问题吗我
ESLint 和 Prettier 冲突，无法为代码块禁用 Prettier

我们的项目使用 Prettier 和 ESLint 通常它们可以很好地协同工作但我们遇到了两者发生冲突的问题我不知道为什么我不知道如何修复它并且我无法禁用该行的 prettier 因为我收到错误我们设置的相关部分 prettier
Lambda 和 std::function

我正在努力赶上 C 11 和所有出色的新功能我有点被 lambda 困住了这是我能够开始工作的代码 include
用 javascript 替换输入

大家好我正在尝试将 text 输入类型替换为 password 它适用于以下代码 function replaceT obj var newO document createElement input newO setAttribute
了解 C 中的函数和指针

这是一个很简单的问题但是下面的函数原型是什么意思呢 int square int y size t x size t 的剂量是什么意思我知道 size t 是一种数据类型 int gt 0 但是我如何阅读它所附的呢它是指向 x 的内
R：计算指定时间范围内不同类别的数量

这是一些虚拟数据 user id date category 27 2016 01 01 apple 27 2016 01 03 apple 27 2016 01 05 pear 27 2016 01 07 plum 27 2016 01
为什么我们必须手动刷新（）扩展 PersistenceContext 中的 EntityManager？

在我们的 J2EE 应用程序中我们使用 EJB 3 有状态 bean 来允许前端代码创建修改和保存持久实体通过 JPA 2 管理它看起来像这样 LocalBean Stateful TransactionAttribute Tran
为什么我的控制台应用程序在使用 Process.Start() 启动时没有图标？

我有一个应用程序可以将 exe 下载到临时文件夹并使用以下命令运行它System Diagnostics Process班级到目前为止我已经用它运行了两个不同的应用程序一个是控制台应用程序另一个是完整的 Windows 应用程序
Ninject 和信任级别中等

我正在尝试使用 hostgator 托管我的 asp net mvc 4 Web 应用程序目前的问题是我使用的计划仅允许中等信任级别我的应用程序当前安装了 Ninject MVC 包我尝试过使用 Ninject 主页上的 NET F
合并减少 JDBC 读取并行度

我杠杆Spark s JDBC能力如下 Read MySQL表成DataFrame 转换 them Coalesce them 将它们写给HDFS 在整个生命周期中DataFrame no action执行在上面它曾经按预期工作但最近我

合并减少 JDBC 读取并行度

合并减少 JDBC 读取并行度 的相关文章

随机推荐

热门标签

合并减少 JDBC 读取并行度的相关文章