如何在数据帧中引用广播变量

2023-12-31

我用的是spark1.6。我尝试广播 RDD，但不确定如何访问数据帧中的广播变量？

我有两个数据框员工和部门。

员工数据框

-------------------
Emp Id | Emp Name | Emp_Age
------------------
1 | john | 25

2 | David | 35

部门数据框

--------------------
Dept Id | Dept Name | Emp Id
-----------------------------
1 | Admin | 1

2 | HR | 2

import scala.collection.Map

val df_emp = hiveContext.sql("select * from emp")

val df_dept = hiveContext.sql("select * from dept")

val rdd = df_emp.rdd.map(row => (row.getInt(0),row.getString(1)))

val lkp = rdd.collectAsMap()

val bc = sc.broadcast(lkp)

print(bc.value.get(1).get)

--Below statement doesn't work

val combinedDF = df_dept.withColumn("emp_name",bc.value.get($"emp_id").get)

如何在上面的combinedDF语句中引用广播变量？
如果lkp没有返回任何值怎么处理？
有没有办法从 lkp 返回多条记录（假设在查找中有 2 条 emp_id=1 的记录，我想获取这两条记录）
如何从广播返回多个值...(emp_name & emp_age)

如何在上面的combinedDF语句中引用广播变量？

Use udf. If emp_id is Int

val f = udf((emp_id: Int) =>  bc.value.get(emp_id))

df_dept.withColumn("emp_name", f($"emp_id"))

如果lkp没有返回任何值怎么处理？

不要使用get如上图

有没有办法从lkp返回多条记录

Use groupByKey:

val lkp = rdd.groupByKey.collectAsMap()

and explode:

df_dept.withColumn("emp_name", f($"emp_id")).withColumn("emp_name", explode($"emp_name"))

或者直接跳过所有步骤broadcast:

import org.apache.spark.sql.functions._

df_emp.join(broadcast(df_dep), Seq("Emp Id"), "left")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

如何在数据帧中引用广播变量的相关文章

Scala：如何编写将类型化为接收者的实现类型的对象返回的方法

我知道 Scala 中不推荐使用案例类继承但为了简单起见我在以下示例中使用了它 scala gt case class Foo val f String def foo g String Foo this copy f g define
自定义 NIO 文件系统无法通过 SBT 的测试任务加载

为了进行测试我使用内存中的 NIOFileSystem执行 memoryfs https github com openCage memoryfs 我以前已经利用过它并且它似乎运行良好例如梅文然而现在在SBT项目中不可能初始化
新式（“内联”）宏需要 scala.meta

我刚刚更新到 scala meta 2 0 0 M1 和最新的 scala 2 12 3 现在宏不再编译我所做的唯一更改是将元版本从 1 8 0 更改为 2 0 0 M1 错误新式内联宏需要 scala meta 有谁知道是否有快速
对于空列表，max() 应该返回什么？

Got java util NoSuchElementException head of empty list所以我试着检查一下但现在我明白了 info max of a few numbers FAILED info 0 did not
逆变方法参数类型

wiki 逆变方法参数类型 https en wikipedia org wiki Covariance and contravariance 28computer science 29 Contravariant method argum
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
Scala Array.apply 有何魔力

来自 scala 2 10 4 的 array scala Array定义为 final class Array T length Int extends java io Serializable with java lang Clonea
使用 Akka 玩 2.5 - 找不到参数超时的隐式值：akka.util.Timeout

我正在尝试使用 Play 2 5 测试 Akka 但遇到了一个似乎无法解决的编译错误我正在关注 Play 文档中的此页面 https playframework com documentation 2 5 x ScalaAkka http
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
阶乘的 Scala 排列

我怎样才能找到n Scala 中某些字母的排列 Scala 2 9 RC1 scala gt abc permutations toList res58 List String List abc acb bac bca cab cba
使用 Spray-json 解析简单数组

我正在尝试但失败了了解 Spray json 如何将 json feed 转换为对象如果我有一个简单的 key gt value json feed 那么它似乎可以正常工作但是我想要读取的数据出现在如下列表中 name John a
如何在 Scala 中打印任何内容的列表？

目前我有一个打印整数的方法 def printList args List Int Unit args foreach println 我如何修改它使其足够灵活可以打印任何内容的列表您不需要专用的方法所需的功能已经在集合类中 pri
在 Scala 和 SBT 中调试较长的编译时间

在我的 Scala SBT 项目中我有一个文件需要 5 分钟才能编译所有其他的都可以在几秒钟内编译这使得开发非常痛苦我确信我滥用了一些 Scala 构造但我不知道如何调试它如何在 Scala 中调试较长的编译时间我正在使用 S
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Scala：如何在超类上实现克隆方法，并在子类中使用它？

我可能会以错误的方式处理这个问题但我想要一个像这样的对象 class MyDataStructure def myClone val clone new MyDataStructure do stuff to make clone the
Scala 模式匹配变量绑定

为什么提取器返回时不能以样式绑定变量Option
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Scala 中的 Shapeless 结构编程：如何正确使用 SYB 实现？

我想使用SYB http research microsoft com en us um people simonpj papers hmap 实施于无形图书馆 https github com milessabin shapeless编写

随机推荐

在 CentOS 上“脚本输出在标题之前结束”，但在其他 LAMP 堆栈上工作

我已经设置了 Centos 6 CPanel 11 VPS 一切都与开箱即用的一样我已在 public html 目录中安装了 Phorum 5 2 20 但 Phorum 导致错误 500 错误日志报告 Mon Jul 27 11 21
我可以将 intel 的 TBB 与 gcc 一起使用吗？

我可以将 intel 的 TBB 与 gcc 一起使用吗如果不是那么等效的东西是什么以便我可以在使用 gcc 编译时使用它我认为我不能但最好还是问一下你可以这就是他们的文档 http threadingbuildingbloc
TCP 客户端和服务器，使用 objectstreams 的 cmd 提示符

我有一个客户端文件 clientRPC java 和服务器文件 serverRPC java 两者都使用TCP协议进行通信并使用对象输入和输出流来传输数据我的客户文件 public class clientRPC public stat
使用curftpfs 进行FTP 速度非常慢，以至于无法使用

我使用curftpfs安装了ftp位置问题是它非常慢以至于毫无用处执行几乎所有操作的时间约为 10 秒它甚至包括让任何 VIM 命令正常工作包括导航我开始认为我可能做错了什么因为根本不可能以这种响应能力来工作如果我在 vim
在 iOS 7 中如何将用户背景添加到应用程序中作为半透明背景？

我想知道是否可以让用户将背景设置为 iOS 7 中的实际应用程序背景类似于当用户没有放置任何杂志时报亭将用户背景作为半透明元素提供在plist集中UIApplicationIsOpaque to NO 假然后设置 self wind
无法在phonegap中显示联系人数据图像

我正在尝试使用以下代码获取联系人个人资料图片即联系人数据的头像PhoneGap for android但我得到以下网址作为回报我不知道如何在img tag Code var defaultImagePath resources imag
如何将此 zsh 函数转换为 Fish shell？

我有这个函数在 zsh 中运行得很好但我想将它转换为 Fish shell 但无法让它运行 function ogf echo Cloning your editor will open when clone has completed
Android如何计算最佳缩放级别？

如何计算跟踪路线的缩放级别以完美适合地图屏幕的视图我在经度纬度位置有根整个轨道的起点和终点我可以使用输入参数米计算缩放级别但是我需要设置多少米我想在地图上显示记录的轨迹我显示了路线但不适合地图您可以使用此代码片段设置
记录读取器和记录边界

假设我有一个输入文件并且 HDFS 中为该文件创建了三个块假设我有三个数据节点每个数据节点存储一个块如果我有 3 个输入拆分则 3 个映射器将并行运行以处理相应数据节点本地的数据每个映射器使用输入格式和记录读取器以键值对形式获取
ASP.NET MVC AjaxForm 未正确更新部分视图

我不确定我做错了什么我以前从未遇到过这个问题或者也许我有过但我从未注意到我有一个带有部分视图的页面提交页面时会检查模型是否有 ID 如果是则会更新记录如果没有它会创建一个新的相当标准完成后模型将返回到视图我似乎遇到
WPF - 带按钮的列表视图

我有一个列表视图模板其中一列是一个按钮当我单击此按钮时我需要选择项目我怎样才能做到这一点要捕获按钮按下事件中选定的 ListView 项目您可以利用 MVVM 模式在 ListView 的 XAML 中我将 ItemsSou
将带有解析的推送通知发送到单个设备

我可以在 Android 应用程序中仅向一台特定设备发送推送消息吗可能使用设备 ID 而不是每个设备一个简单的是的可以使用解析或不你不能使用解析就足够了如果答案是肯定的那么我需要知道如何您可以将设备 ID 保存在Pars
“2<&1”重定向在 Bourne shell 中起什么作用？

2 gt 1Bourne shell 中的重定向将发送到文件描述符 2 默认情况下为标准错误的输出发送到文件描述符 1 默认情况下为标准输出但有什么作用2 lt 1重定向做什么它会将 stderr 发送到 stdin 吗我的理论是它
Django 中的灵活分页

我想实现分页以便用户可以选择每页的记录数例如 10 25 50 等我应该如何处理是否有一个应用程序可以添加到我的项目中来执行此操作 Thanks Django 在核心中内置了一个 Paginator 对象这是一个使用起来相当简单的
set-cookie 标头未在 Edge 中设置 cookie

我正在本地测试一个应用程序并发出授权请求http localhost 3000 api auth 登录 http localhost 3000 api auth login 响应中将返回 set cookie 标头以及 JWT 身份验证令牌
流星卡在提取中 [电子邮件受保护]

我遇到一个问题我在我的项目中运行meteor 并且它开始安装电子邮件受保护 cdn cgi l email protection 一旦达到 100 就会显示提取电子邮件受保护 cdn cgi l email protection 但
ggplot2：用直线连接极坐标中的点2

coord polar曲线有时您可能不希望这样做即当空间被认为是离散的而不是连续的时 iris gt gather dim val Species gt group by dim Species gt summarise val mea
为什么需要为 iTerm 中的每个新 shell 获取 .zshrc 源？

在过去的 3 年里我每天都将 Iterm2 与 zsh 一起使用但我有了一台新计算机不得不重新设置它问题是当我跑步时 zshrc它工作正常但我必须在打开的每个新终端窗口上执行此操作不是一个好的经历我注意到我没有任何bashrc
GWT - FlowPanel 和调整大小

我有一些Composite我的应用程序中使用的小部件FlowPanel作为他们的主要元素我想知道的是我是否需要为此以任何方式调整大小 FlowPanel不实施RequiresResize 所以我不能使用ResizeComposite 但
如何在数据帧中引用广播变量

我用的是spark1 6 我尝试广播 RDD 但不确定如何访问数据帧中的广播变量我有两个数据框员工和部门员工数据框 Emp Id Emp Name Emp Age 1 john 25 2 David 35 部门数据框 Dept Id D

如何在数据帧中引用广播变量

如何在数据帧中引用广播变量 的相关文章

随机推荐

热门标签

如何在数据帧中引用广播变量的相关文章