Spark 中的倾斜

2023-12-10

我有一个数据集，我想按特定键（clientID）进行分区，但某些客户端产生的数据比其他客户端多得多。 Hive 中有一个功能称为“列表分桶“由”调用倾斜于”专门针对这种情况。

但是，我找不到任何迹象表明 Spark 支持此功能，或者如何（如果支持的话）使用它。

Spark 是否有等效的功能？或者，Spark 是否有其他一些功能可以复制此行为？

（作为奖励 - 以及我的实际用例的要求 - 您建议的方法是否适用于 Amazon Athena？）

据我所知，Spark中没有这样的开箱即用的工具。如果数据存在偏差，最常见的是添加人工列来进一步对数据进行分桶。

假设您想按列“y”进行分区，但数据非常倾斜，就像这个玩具示例一样（1 个分区有 5 行，其他分区只有一行）：

val df = spark.range(8).withColumn("y", when('id < 5, 0).otherwise('id))
df.show()
+---+---+
| id|  y|
+---+---+
|  0|  0|
|  1|  0|
|  2|  0|
|  3|  0|
|  4|  0|
|  5|  5|
|  6|  6|
|  7|  7|
+-------+

现在让我们添加一个人工随机列并写入数据框。

val maxNbOfBuckets = 3
val part_df = df.withColumn("r", floor(rand() * nbOfBuckets))
part_df.show
+---+---+---+
| id|  y|  r|
+---+---+---+
|  0|  0|  2|
|  1|  0|  2|
|  2|  0|  0|
|  3|  0|  0|
|  4|  0|  1|
|  5|  5|  2|
|  6|  6|  2|
|  7|  7|  1|
+---+---+---+

// and writing. We divided the partition with 5 elements into 3 partitions.
part_df.write.partitionBy("y", "r").csv("...")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hive

Spark 中的倾斜的相关文章

Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
使用 MySQL 作为元存储从 HIVE 查询元数据

我正在寻找一种使用 HiveQL 命令查询 HIVE 数据元数据的方法我配置了一个 MySQL 元存储但需要通过 HIVE 命令查询元数据因为然后我想通过 ODBC 连接到 HIVE 系统来访问数据要从 Hive 查看它们必须使用
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
Apache Impala 中是否有相当于 Hive 的“爆炸”功能的函数？

Hive的函数explode是记录在这里 https cwiki apache org confluence display Hive LanguageManual UDF LanguageManualUDF Built inTable G
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
Spark 执行器登录 YARN

我正在 Cloudera 集群上以 YARN 客户端模式启动分布式 Spark 应用程序一段时间后我在 Cloudera Manager 上看到一些错误一些执行者会断开连接并且这种情况会系统性地发生我想调试该问题但 YARN 未
如何在 Spark Dataframe 中显示完整的列内容？

我正在使用 Spark csv 将数据加载到 DataFrame 中我想做一个简单的查询并显示内容 val df sqlContext read format com databricks spark csv option header
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0

随机推荐

如何正确地将事件附加到jqGrid“列选择器”的“关闭对话框”？

我在正确使用 jqGrid 的列选择器插件小部件的关闭对话框事件时遇到一些问题这就是我所拥有的我从 jqGrid 初始化开始最后附加了列选择器如下所示 ticketsTable tableWrap jqGrid url datat
ASP.NET MVC - 服务器软件要求？

我今天刚刚了解了 asp net mvc 我想知道服务器端需要什么来托管它我想是 IIS 6 及更新版本和 NET 3 5 您还需要什么吗来自 MSDN 如何部署 ASP NET MVC 应用程序基本上你需要 NET 3 5 Sy
RoR 4 中带有验证的正则表达式

有如下代码 class Product lt ActiveRecord Base validates title description image url presence true validates price numericalit
将 Identity 2.0 函数移至存储库类

我在我的应用程序中使用 Identity 2 0 并希望将数据功能移动到存储库层例如以下代码 public class ApplicationDbInitializer DropCreateDatabaseIfModelChanges
如何避免列表之间出现双边框？

我正在使用列表视图其中有一个引用可绘制列表的 xml 如下所示
如何启动 Android GCM 令牌刷新？

根据docs 保护客户端应用程序和应用程序服务器免受潜在恶意攻击重复使用注册token 应定期发起token 从服务器刷新当 GCM 注册令牌刷新时从服务器端启动客户端应用程序必须处理 tokenRefreshed 消息与 GCM
如何正确启动 Angular Universal 到实时服务器

我通过修改此处找到的通用启动器种子来设置和工作网站 https github com angular universal starter我已经让我的网站在 localhost 节点服务器上工作呈现 HTML 现在我已经安装了 SSH 连接
jQuery fullCalendar 和 qTip

我正在考虑使用 fullCalendar 并使用 qTip 使用 eventMouseover 显示描述有没有人设法做到这一点或知道解决方案我已经谷歌搜索并尝试实施这个帖子但我没有任何快乐我唯一一次让它工作时它陷入了循环并导致我的浏览
可选择注入内容脚本

内容脚本可以通过在扩展清单文件中声明以编程方式或永久注入程序注入需要主机权限通常由浏览器或页面操作授予在我的用例中我想注入 gmail outlook com 和 yahoo 邮件网站而无需用户操作我可以通过声明所有这些清单来做
在 C++ 中以编程方式设置 Firemonkey 控件字体

我有一个自定义 Firemonkey 控件它扩展了TEdit这是在表单上动态创建的我试图在创建它时设置它的字体大小 Search gt Font gt Size 15 但是控件上的字体保持不变我有另一个相同类型的控件该控件已经在表
在 CF.NET 中创建大位图时出现 OutOfMemoryException

我的紧凑框架应用程序通过将所有项目渲染到大位图表面然后将该位图复制到屏幕上的偏移位置以便仅显示适当的项目来创建平滑滚动列表旧版本仅渲染当时应该出现在屏幕上的项目但这种方法对于平滑滚动界面来说太慢了最初创建大位图时它偶尔会生成 O
PHP - MySQL 从存储过程中获取输出参数的值

我使用 PHP 从 PHP 调用了 MySQL 存储过程mysqli 它有一个输出参数 rs mysqli gt query CALL addNewUser name age id 这里 id 是输出参数接下来我触发以下查询来获取 ou
如何从 UICollectionViewCell 呈现 AlertView

我正在使用 UICollectionView 和标题中的地图我想处理核心位置错误我有 3 种错误类型对于其中两种我想提供一个UIAlertView 但我收到错误因为UICollectionViewCell没有名为的成员presen
使用 java 中的代理代码连接到站点

我想通过java中的代理连接到as站点这是我写的代码 public class ConnectThroughProxy Proxy proxy new Proxy Proxy Type HTTP new InetSocketAddress
wss 龙卷风连接问题

龙卷风服务器 ssl options certfile server crt keyfile server key application Application server tornado httpserver HTTPServer a
Spring验证返回很长的错误消息，而不仅仅是自定义的消息

Spring验证返回很长的错误消息而不是自定义的一次这是 dto 中的代码部分 public class RequestDto implements Serializable NotNull message id required pri
IE 11 的模板标签 polyfill - 不适用于表 tr 和 td

我使用polyfill js 它允许处理不支持它的浏览器的标签上的polyfill源代码jsfiddle Source question 但我注意到在 IE 11 中这个 polyfill 无法与包含以下内容的模板一起使用 tr an
使用 Visual Studio 2010 和 HG 进行版本控制

最近我和我的团队获得了一个用于版本控制的 HG 存储库因为这将使我们的应用程序开发变得更容易更好我们使用 Visual Studio 2010 和 c 所有项目都处于版本控制之下不幸的是当我们其中一个人提交时另一个人在打开解决
正则表达式在所有标点符号之间添加空格

我需要在字符串中的所有标点符号之间添加空格 Hello World gt Hello World It s 9 00 gt It s 9 00 1 B 3 D gt 1 B 3 D 我认为正则表达式是正确的方法可以匹配所有非标点符号 a
Spark 中的倾斜

我有一个数据集我想按特定键 clientID 进行分区但某些客户端产生的数据比其他客户端多得多 Hive 中有一个功能称为列表分桶由调用倾斜于专门针对这种情况但是我找不到任何迹象表明 Spark 支持此功能或者如何如果支

Spark 中的倾斜

Spark 中的倾斜 的相关文章

随机推荐

热门标签

Spark 中的倾斜的相关文章