Apache Spark 处理倾斜数据

2023-11-22

我有两张桌子想连接在一起。其中之一的数据偏差非常严重。这导致我的 Spark 作业无法并行运行，因为大部分工作都是在一个分区上完成的。

我听过、读过并尝试对我的密钥进行加盐以增加分发。https://www.youtube.com/watch?v=WyfHUNnMutg12:45 秒正是我想做的。

任何帮助或提示将不胜感激。谢谢！

是的，您应该在较大的表上使用加盐键（通过随机化），然后复制较小的表/笛卡尔将其连接到新的加盐表：

这里有一些建议：

Tresata 倾斜加入 RDDhttps://github.com/tresata/spark-skewjoin

python 倾斜连接：https://datarus.wordpress.com/2015/05/04/fighting-the-skew-in-spark/

The tresata库看起来像这样：

import com.tresata.spark.skewjoin.Dsl._  // for the implicits   

// skewjoin() method pulled in by the implicits
rdd1.skewJoin(rdd2, defaultPartitioner(rdd1, rdd2),   
DefaultSkewReplication(1)).sortByKey(true).collect.toLis

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

Hadoop

apachespark

apachesparksql

Apache Spark 处理倾斜数据的相关文章

AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
如何在hadoop mapreduce/yarn中设置VCORES？

以下是我的配置 mapred site xml map mb 4096 opts Xmx3072m reduce mb 8192 opts Xmx6144m yarn site xml resource memory mb 40GB min
scala play框架如何对异步控制器进行单元测试

使用 Scala play 2 5 版并尝试遵循以下文档中的单元测试控制器指南 https www playframework com documentation 2 5 x ScalaTestingWithScalaTest https
将 yaml 中的列表映射到 Scala 中的对象列表（Spring Boot）

背景我已经阅读了很多关于如何使用的示例ConfigurationProperties从配置中读取列表见下文 https github com konrad garus so yaml https github com konrad ga
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
Akka Streams / HTTP：从响应中获取原始请求

我有一个 Akka Streams 源它会遍历流程并发布 HTTP 请求 source map toRequest via Http outgoingConnection host map toMessage 假设toRequest方法将
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
如何定义与更高类型类型（类型构造函数）绑定的上下文

我尝试过以下方法 def test Option T Ordering value1 Option T value2 Option T val e implicitly Ordering Option T compare value1 va
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
必须包含 log4J，但它会导致 Apache Spark shell 中出现错误。如何避免错误？

由于我必须将 jar 包含到 Spark 代码中因此我想请求帮助找出解决此问题而不删除 log4j 导入的方法简单代码如下 cp symjar log4j 1 2 17 jar import org apache spark rdd v
sbt 项目构建中的多个目标目录

我有一个这样结构的 sbt 项目 build sbt project build properties plugins sbt src main java smcho App java test java smcho AppTest jav
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
配置Scala工作表的工作目录

我希望 Scala 工作表和 Scala 解释器的工作目录是 Eclipse 项目路径而不是 Eclipse 安装目录我怎样才能非编程方式实现这一目标我知道我可以使用System setProperty user dir 但恕我
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
如何将函数应用于元组？

这应该是一件容易的事如何将函数应用于 Scala 中的元组即 scala gt def f i Int j Int i j f Int Int Int scala gt val p 3 4 p Int Int 3 4 scala gt
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
从 scala 的 Type 获取 ParameterizedType？

有用的是 scala 的 Universe typeOf 保留了类的类型参数 import scala reflect runtime universe case class X T TypeTag val t typeOf T e g S

随机推荐

Apollo 2.0.0 Graphql cookie 会话

有人可以帮助我吗在 Apollo 2 0 之前我的设置如下我有一个 server js 其中使用了express和graphql server express 我有一个仅 http 的 cookie 会话当用户登录时我将 jwt 令
R 在多个数据框列中查找值

给定一个数据集其中值可以位于数据帧中任意一组列中 df lt data frame h1 c a b c a a b c h2 c b c d b c d b h3 c c d e e e d c 如何获得指定哪些行包含目标值的逻辑向量
将 Amazon RDS 表名称重命名为大写字母会引发错误

我将 MySQL 数据库表导入到 Amazon RDS 我的问题是我的查询不再有效并且收到错误消息表明我的表文件夹不存在原因是表名不全是小写导致查询抛出这个错误有没有一种方法可以使用 MySQL Workbench 针对 Am
如何删除最后一个字符

如何删除字符串的最后一个字符substring或者什么例如 var query String begin query test 1 line 5 end 输出必须是 query gt test1 line 5 第三个选项是这样的 SetL
Python 中使用 pop() 进行列表操作

简而言之我需要根据索引从列表中删除多个项目但是我不能使用 pop 因为它会改变索引没有一些笨拙的补偿系统有没有办法同时删除多个项目我有一个遍历列表的算法如果条件正确则通过 pop 方法删除该项目由于这一切都是在循环中完成的
错误 file_get_contents()：读取 8192 字节失败，errno=21

我有一个简单的脚本它在每个子文件夹的每个文件中搜索给定的字符串它工作得很好直到我相信我的 PHP 已更新我不太确定是否是因为这个这是代码
重叠两个盒子喷气背包组成

我试图重叠两个Box或者也许更好用Row关于这个案子我的设计是一个Row与另一个重叠我把它包裹在一个Column 那是对的吗这就是设计我想要的是顶部的矩形与下面的矩形大小相同然后将其移动一些像素如图所示但它们应该具有相同的宽度
如何将自定义协议映射到 Mac 上的应用程序？

我正在尝试向 Mac 上的应用程序注册自定义协议即用户点击 abcdef some url here 链接已安装的应用程序将启动并将上述字符串作为第一个参数传递我已经使用此问题中的信息在 Windows 上成功完成了此操作如何创
ASP.NET MVC 6 中 FilterAttribute 内的依赖注入

我正在努力使用 ASP NET MVC 6 beta 4 版本尝试在类型的控制器过滤器属性中注入服务AuthorizationFilterAttribute 这是服务它注入了另一个服务 public class UsersTableRe
Chrome 扩展中的同步消息传递？

我试图阻止脚本文件在用户定义的网站上加载阻止我正在使用的脚本文件beforeload event and event preventDefault 在内容脚本中只要我已经知道网站列表它就可以正常工作我的问题是我事先不知道网站列表因
如何在 Windows 7 中从代理后面使用 sbt？

我正在尝试跑步SBT on Windows 7的为此我按照类似线程中的步骤进行操作如何从代理后面使用 sbt 我有以下相关的系统变量变量名称 JAVA OPTS变量值 Dhttp proxySet true Dhttp proxy
如何在 IIS 管理器中为 ASP.NET 4.0 应用程序添加用户？

我已在 IIS 7 5 中安装了 ASP NET 4 0 Web 表单应用程序如果我将应用程序池设置为默认应用程序池 NET Framework 2 0 我得到的图标提供商 NET 角色和 NET 用户显示在 IIS 管理器中应用程序的配
使用 ThreadLocal 进行日期转换

我需要将传入日期字符串格式 20130212 YYYYMMDD 转换为 12 02 2013 DD MM YYYY using ThreadLocal 我知道一种无需ThreadLocal 谁能帮我转换无ThreadLocal final
Twitter Bootstrap 工具提示在要移出窗口时无法正确对齐

当我有一个与 Twitter Bootstrap 工具提示关联的元素并且工具提示将在浏览器窗口外重叠时它会尝试在窗口内重新对齐但垂直方向未对齐即工具提示的顶部对齐现在居中而不是在目标元素上方以前有人遇到过这个问题吗如果有解决修
注意：...第 0 行未知 - 如何找到正确的行，它不是“第 0 行”

编辑添加了 PDO 调用这是实际的错误 Notice Object of class PDOStatement could not be converted to int in Unknown on line 0 一般来说我怎样才能找
矢量分配崩溃

vector lt vector
tkinter TclError：读取位图文件时出错

我正在尝试设置一个应用程序图标 python3 tkinter 如下所示 Interface root title Quicklist Editor root iconbitmap home jacob icons qle icon ico
ASP.NET MVC：ViewModel 与域实体

我正在使用 MVC 3 构建一个概念应用程序试图了解它的方法我之前在 WebForms 中使用 n 层方法完成了一些非常繁重的应用程序通常由具有存储库的域对象和在存储之前对其进行操作的服务组成我正在尝试将我过去做事的方式与在 MVC
如何更改当前的 URL？

我有以下代码可以从 JavaScript 中更改页面 var newUrl some code to build up URL string window location replace newUrl 但它不会更改顶部 URL 因此当有人
Apache Spark 处理倾斜数据

我有两张桌子想连接在一起其中之一的数据偏差非常严重这导致我的 Spark 作业无法并行运行因为大部分工作都是在一个分区上完成的我听过读过并尝试对我的密钥进行加盐以增加分发 https www youtube com watch v

Apache Spark 处理倾斜数据

Apache Spark 处理倾斜数据 的相关文章

随机推荐

热门标签

Apache Spark 处理倾斜数据的相关文章