Spark：如何在每个执行器中创建本地数据帧

2024-02-03

在spark scala中有一种方法可以创建执行器中的本地数据帧，例如 pyspark 中的 pandas。在mappartitions方法中，我想将迭代器转换为本地数据帧（如python中的pandas数据帧），以便可以使用数据帧功能，而不是在迭代器上手动编码它们。

这是不可能的。

数据框 https://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes是 Spark 中的分布式集合。并且数据帧只能在驱动程序节点上创建（即在转换/操作之外）。

此外，在 Spark 中，您无法在其他操作中对 RDD/Dataframes/Dataset 执行操作：例如以下代码将产生错误。

rdd.map(v => rdd1.filter(e => e == v))

DF 和 DS 下面也有 RDD，因此行为相同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark：如何在每个执行器中创建本地数据帧的相关文章

使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
如何发现 Scala 远程 Actor 已死亡？

在 Scala 中当另一个远程 actor 终止时可以通过设置 trapExit 标志并以第二个 actor 作为参数调用 link 方法来通知一个 actor 在这种情况下当远程参与者通过调用 exit 结束其工作时第一个参与者
Pandas DataFrame：如果列为空，则复制列的内容

我有以下带有命名列和索引的 DataFrame a a b b 1 5 NaN 9 NaN 2 NaN 3 3 NaN 3 4 NaN 1 NaN 4 NaN 9 NaN 7 数据源导致某些列标题的复制方式略有不同例如如上所述某些列标
Source.getLines 中的默认参数错误 (Scala 2.8.0 RC1)

假设我运行 Scala 2 8 0 RC1 以下 scala 代码应该打印出文件 c hello txt 的内容 for line lt Source fromPath c hello txt getLines println line 但
使用 Spray-json 解析简单数组

我正在尝试但失败了了解 Spray json 如何将 json feed 转换为对象如果我有一个简单的 key gt value json feed 那么它似乎可以正常工作但是我想要读取的数据出现在如下列表中 name John a
获取数据框中列与特定值匹配的整数行索引

给定一个 Pandas 数据框其中一列如下所示 Date 2016 04 15 2016 04 14 2016 04 13 2016 04 12 2016 04 11 2016 04 08 假设值是唯一的如何获取特定值的行索引例如 2
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
Play Framework 2.3 (Scala) 中的自定义 JSON 验证约束

我设法使用自定义约束实现表单验证但现在我想对 JSON 数据执行相同的操作如何将自定义验证规则应用于 JSON 解析器示例客户端的 POST 请求包含用户名 username 我不仅要确保该参数是非空文本而且还要确保该用户确实存在
错误：协变类型 A 出现在逆变位置

我试图写一个不可变的Matrix A 班级我希望该类是协变的A但是当我把在前面A编译器开始抱怨类中的某些操作以下是我的相关子集Matrix类实际类比以下子集大 5 倍左右 class Matrix A private val co
使用 pandas 中的数据透视表进行加权平均

我编写了一些代码来使用 pandas 中的数据透视表计算加权平均值但是我不确定如何添加执行加权平均的实际列添加一个新列其中每行包含累积计数值数据看起来像这样 VALUE COUNT GRID agb 1 43 1476 10
Scala Tuple2Zipped 与 IterableLike zip

两种实现有什么区别这个比那个好吗有一篇博客文章说 Tuple2Zipped 性能更好但没有提供原因并且查看源代码我没有看到差异 val l1 List 1 2 3 val l2 List 5 6 7 val v1 l1 zip l2
Scala 模式匹配变量绑定

为什么提取器返回时不能以样式绑定变量Option
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
对于多列，将当前行和上一行的差异附加到新列

对于 df 中的每一列我想从前一行 row n 1 row n 中减去当前行但我遇到了困难我的代码如下 usr bin python3 from pandas datareader import data import pandas
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以

随机推荐

如何在谷歌地图中添加多个标记

我需要在谷歌地图中添加多个标记通过使用谷歌地图库添加谷歌地图我还在这张地图中添加了一个标记对于单个标记代码控制器 data tunnels this gt functional gt getTunnelData config cen
最终用户实用程序/应用程序是否应该在 crates.io 上注册？

是否可以在以下网站上注册普遍有用的实用程序应用程序 crates io http crates io The FAQ http doc crates io faq html没有解决这个问题并且通过浏览有最终用户应用程序的示例主要是
如何使用动态 IP 地址将自己从 Google Analytics 中过滤掉？

如果您从动态 IP 地址访问该网站有人知道如何设置 Google Analytics 来过滤掉自己吗我不想将自己纳入家庭使用的统计数据中因为我通过 Verizon FiOS 拥有动态 IP 地址谷歌目前有一个浏览器插件可以阻止您的
在java中调用main内部的main方法

我们可以在main中调用main方法吗 public static void main String args main a b c 尝试谷歌找不到链接抱歉如果问题很琐碎您可以但使用正确的格式 main new String a b
重构我的 C# 代码 - Switch 语句

我目前正在使用以下代码基本上此方法为每个任务分配正确的布尔标志 TRUE FALSE 随着需要添加的任务越来越多我可以看到 switch 语句必须增长才能满足每个任务必须有一种更简单的方法来保持方法较小代码忘记命名约定已更改
什么是ReservedCodeCacheSize 和InitialCodeCacheSize？

有人可以解释一下 JVM 选项吗ReservedCodeCacheSize and InitialCodeCacheSize是具体来说我什么时候为什么要改变它我如何确定合适的尺寸这就是文档所说的 XX ReservedCodeCac
为什么Java NIO专门引入Buffer类而不是使用数组？

有人问我一个问题为什么字节数组不够用 NIO专门引入了一个类Buffer 这个问题的好答案是什么它只是一种简化读写操作的包装类吗如果可能的话请给我们举个例子来说明我们如何从中受益Buffer不能很难用数组完成的类 None
Facebook API 实时好友在线状态更新

我目前正在 Facebook 上开发一个应用程序其中包含我的朋友列表并显示他们的在线状态为了得到这个我使用了 fql SELECT uid name online presence status FROM user WHERE uid
如何知道列表中元素的个数是偶数还是奇数

如何确定任意列表中的元素数量是偶数还是奇数 I tried list index 获得所有索引但我仍然不知道如何告诉程序什么是偶数什么是奇数您可以使用内置函数len 为了这 Python 文档 len http docs python
WPF 从 DataTrigger 设置 Image.Source

我正在尝试定义一个DataTrigger for an Image元素以便显示连接断开连接的图像我不断收到Invalid PropertyDescriptor信息有任何想法吗
根据方法名称过滤 log4net - 不太明白

我使用 log4net 来记录我的 Web 应用程序的进度使用 Log4PostSharp 来 AOP 注入所有方法这达到了记录几乎所有内容的预期效果并且很好我现在需要将 Page Load 方法记录到文件控制台显然我可以
如何在 Silverlight 中序列化派生类

我在 XAML 中创建了一个自定义控件并添加了一些自定义属性现在如果可能的话我想将其序列化为 JSON 这是基本上我所拥有的 public partial class MyCustomClass UserControl publ
Ninject MVC3 - 引导程序抛出“已初始化”异常

我创建了一个空的 Asp Net MVC3 项目并使用 nugetinstall package Ninject MVC3 无需执行任何其他操作没有注册服务甚至没有创建控制器我就运行该应用程序该项目在 NinjectMVC3 cs
在 ASP.NET MVC 中组合和缩小 JS 和 CSS

我创建了默认的 ASP NET MVC 3 Web 应用程序然后我将三个 css 和三个 js 文件添加到 Views Shared Layout cshtml 视图中 Content Site css rel stylesheet ty
Google 地图 API 找不到 $(document).ready 中定义的回调

我在使用 Jquery 和 Google 地图 API 时遇到问题脚本似乎在 html 中正确定位
在 R 中，如何访问因子每个级别的第一个元素？

我有一个像这样的数据框 n c 2 2 3 3 4 4 n lt as factor n s c a b c d e f df data frame n s df n s 1 2 a 2 2 b 3 3 c 4 3 d 5 4 e 6 4
CSS 文件被阻止：MIME 类型不匹配（X-Content-Type-Options：nosniff）

我正在开发一个 Angular 4 应用程序我想应用一些全局样式继角度站点的教程 https angular io tutorial toh pt5 global application styles 我在应用程序的根目录中创建了一个
Excel 2007 条件格式有 2 个条件，一个基于另一列

我正在使用 Excel 2007 中的表格我试图根据一列中的值及其状态位于另一列中以一种格式突出显示单元格例如我试图突出显示毛利润为负且状态为 IN 的所有单元格仅单元格而不是行这样做的正确方法是什么我尝试过 if 语句
无法设置二维数组的属性“0”

谁能告诉我为什么下面的代码会出现此错误未捕获的类型错误无法设置未定义的属性 0 var vehicles get poll index php data vehicles function data var rows data find
Spark：如何在每个执行器中创建本地数据帧

在spark scala中有一种方法可以创建执行器中的本地数据帧例如 pyspark 中的 pandas 在mappartitions方法中我想将迭代器转换为本地数据帧如python中的pandas数据帧以便可以使用数据帧功能而不

Spark：如何在每个执行器中创建本地数据帧

Spark：如何在每个执行器中创建本地数据帧 的相关文章

随机推荐

热门标签

Spark：如何在每个执行器中创建本地数据帧的相关文章