Apache Spark 处理倾斜数据

2023-11-22

我有两张桌子想连接在一起。其中之一的数据偏差非常严重。这导致我的 Spark 作业无法并行运行,因为大部分工作都是在一个分区上完成的。

我听过、读过并尝试对我的密钥进行加盐以增加分发。https://www.youtube.com/watch?v=WyfHUNnMutg12:45 秒正是我想做的。

任何帮助或提示将不胜感激。谢谢!


是的,您应该在较大的表上使用加盐键(通过随机化),然后复制较小的表/笛卡尔将其连接到新的加盐表:

这里有一些建议:

Tresata 倾斜加入 RDDhttps://github.com/tresata/spark-skewjoin

python 倾斜连接:https://datarus.wordpress.com/2015/05/04/fighting-the-skew-in-spark/

The tresata库看起来像这样:

import com.tresata.spark.skewjoin.Dsl._  // for the implicits   

// skewjoin() method pulled in by the implicits
rdd1.skewJoin(rdd2, defaultPartitioner(rdd1, rdd2),   
DefaultSkewReplication(1)).sortByKey(true).collect.toLis
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Spark 处理倾斜数据 的相关文章

随机推荐

  • Apollo 2.0.0 Graphql cookie 会话

    有人可以帮助我吗 在 Apollo 2 0 之前我的设置如下 我有一个 server js 其中使用了express和graphql server express 我有一个仅 http 的 cookie 会话 当用户登录时 我将 jwt 令
  • R 在多个数据框列中查找值

    给定一个数据集 其中值可以位于数据帧中任意一组列中 df lt data frame h1 c a b c a a b c h2 c b c d b c d b h3 c c d e e e d c 如何获得指定哪些行包含目标值的逻辑向量
  • 将 Amazon RDS 表名称重命名为大写字母会引发错误

    我将 MySQL 数据库表导入到 Amazon RDS 我的问题是我的查询不再有效 并且收到错误消息 表明我的表 文件夹 不存在 原因是表名不全是小写 导致查询抛出这个错误 有没有一种方法可以使用 MySQL Workbench 针对 Am
  • 如何删除最后一个字符

    如何删除字符串的最后一个字符substring或者什么 例如 var query String begin query test 1 line 5 end 输出必须是 query gt test1 line 5 第三个选项是这样的 SetL
  • Python 中使用 pop() 进行列表操作

    简而言之 我需要根据索引从列表中删除多个项目 但是 我不能使用 pop 因为它会改变索引 没有一些笨拙的补偿系统 有没有办法同时删除多个项目 我有一个遍历列表的算法 如果条件正确 则通过 pop 方法删除该项目 由于这一切都是在循环中完成的
  • 错误 file_get_contents():读取 8192 字节失败,errno=21

    我有一个简单的脚本 它在每个子文件夹的每个文件中搜索给定的字符串 它工作得很好 直到我相信我的 PHP 已更新 我不太确定是否是因为这个 这是代码
  • 重叠两个盒子喷气背包组成

    我试图重叠两个Box或者也许更好用Row关于这个案子 我的设计是一个Row与另一个重叠 我把它包裹在一个Column 那是对的吗 这就是设计 我想要的是顶部的矩形与下面的矩形大小相同 然后将其移动一些像素 如图所示 但它们应该具有相同的宽度
  • 如何将自定义协议映射到 Mac 上的应用程序?

    我正在尝试向 Mac 上的应用程序注册自定义协议 即 用户点击 abcdef some url here 链接 已安装的应用程序将启动 并将上述字符串作为第一个参数传递 我已经使用此问题中的信息在 Windows 上成功完成了此操作 如何创
  • ASP.NET MVC 6 中 FilterAttribute 内的依赖注入

    我正在努力使用 ASP NET MVC 6 beta 4 版本 尝试在类型的控制器过滤器属性中注入服务AuthorizationFilterAttribute 这是服务 它注入了另一个服务 public class UsersTableRe
  • Chrome 扩展中的同步消息传递?

    我试图阻止脚本文件在用户定义的网站上加载 阻止我正在使用的脚本文件beforeload event and event preventDefault 在内容脚本中 只要我已经知道网站列表 它就可以正常工作 我的问题是我事先不知道网站列表 因
  • 如何在 Windows 7 中从代理后面使用 sbt?

    我正在尝试跑步SBT on Windows 7的 为此 我按照类似线程中的步骤进行操作 如何从代理后面使用 sbt 我有以下相关的 系统变量 变量名称 JAVA OPTS变量值 Dhttp proxySet true Dhttp proxy
  • 如何在 IIS 管理器中为 ASP.NET 4.0 应用程序添加用户?

    我已在 IIS 7 5 中安装了 ASP NET 4 0 Web 表单应用程序 如果我将应用程序池设置为默认应用程序池 NET Framework 2 0 我得到的图标提供商 NET 角色和 NET 用户显示在 IIS 管理器中应用程序的配
  • 使用 ThreadLocal 进行日期转换

    我需要将传入日期字符串格式 20130212 YYYYMMDD 转换为 12 02 2013 DD MM YYYY using ThreadLocal 我知道一种无需ThreadLocal 谁能帮我 转换无ThreadLocal final
  • Twitter Bootstrap 工具提示在要移出窗口时无法正确对齐

    当我有一个与 Twitter Bootstrap 工具提示关联的元素并且工具提示将在浏览器窗口外重叠时 它会尝试在窗口内重新对齐 但垂直方向未对齐 即工具提示的顶部对齐现在居中而不是在目标元素上方 以前有人遇到过这个问题吗 如果有 解决 修
  • 注意:...第 0 行未知 - 如何找到正确的行,它不是“第 0 行”

    编辑 添加了 PDO 调用 这是实际的错误 Notice Object of class PDOStatement could not be converted to int in Unknown on line 0 一般来说 我怎样才能找
  • 矢量分配崩溃

    vector lt vector
  • tkinter TclError:读取位图文件时出错

    我正在尝试设置一个应用程序图标 python3 tkinter 如下所示 Interface root title Quicklist Editor root iconbitmap home jacob icons qle icon ico
  • ASP.NET MVC:ViewModel 与域实体

    我正在使用 MVC 3 构建一个概念应用程序 试图了解它的方法 我之前在 WebForms 中使用 n 层方法完成了一些非常繁重的应用程序 通常由具有存储库的域对象和在存储之前对其进行操作的服务组成 我正在尝试将我过去做事的方式与在 MVC
  • 如何更改当前的 URL?

    我有以下代码可以从 JavaScript 中更改页面 var newUrl some code to build up URL string window location replace newUrl 但它不会更改顶部 URL 因此当有人
  • Apache Spark 处理倾斜数据

    我有两张桌子想连接在一起 其中之一的数据偏差非常严重 这导致我的 Spark 作业无法并行运行 因为大部分工作都是在一个分区上完成的 我听过 读过并尝试对我的密钥进行加盐以增加分发 https www youtube com watch v