Spark：替换嵌套列中的空值

2024-05-10

我想更换所有n/a以下数据框中的值unknown。它可以是scalar or complex nested column。如果它是一个StructField column我可以循环遍历列并替换n\a using WithColumn。但我希望这能在generic way尽管type列的因为我不想明确指定列名，因为我的例子中有 100 个列名？

case class Bar(x: Int, y: String, z: String)
case class Foo(id: Int, name: String, status: String, bar: Seq[Bar])

val df = spark.sparkContext.parallelize(
Seq(
  Foo(123, "Amy", "Active", Seq(Bar(1, "first", "n/a"))),
  Foo(234, "Rick", "n/a", Seq(Bar(2, "second", "fifth"),Bar(22, "second", "n/a"))),
  Foo(567, "Tom", "null", Seq(Bar(3, "second", "sixth")))
)).toDF

df.printSchema
df.show(20, false)

Result:

+---+----+------+---------------------------------------+
|id |name|status|bar                                    |
+---+----+------+---------------------------------------+
|123|Amy |Active|[[1, first, n/a]]                      |
|234|Rick|n/a   |[[2, second, fifth], [22, second, n/a]]|
|567|Tom |null  |[[3, second, sixth]]                   |
+---+----+------+---------------------------------------+

预期输出：

+---+----+----------+---------------------------------------------------+
|id |name|status    |bar                                                |
+---+----+----------+---------------------------------------------------+
|123|Amy |Active    |[[1, first, unknown]]                              |
|234|Rick|unknown   |[[2, second, fifth], [22, second, unknown]]        |
|567|Tom |null      |[[3, second, sixth]]                               |
+---+----+----------+---------------------------------------------------+

对此有什么建议吗？

如果您喜欢使用 RDD，这里有一个简单、通用且进化的解决方案：

  val naToUnknown = {r: Row =>
    def rec(r: Any): Any = {
      r match {
        case row: Row => Row.fromSeq(row.toSeq.map(rec))
        case seq: Seq[Any] => seq.map(rec)
        case s: String if s == "n/a" => "unknown"
        case _ => r
      }
    }
    Row.fromSeq(r.toSeq.map(rec))
  }

  val newDF = spark.createDataFrame(df.rdd.map{naToUnknown}, df.schema)
  newDF.show(false)

Output :

+---+----+-------+-------------------------------------------+
|id |name|status |bar                                        |
+---+----+-------+-------------------------------------------+
|123|Amy |Active |[[1, first, unknown]]                      |
|234|Rick|unknown|[[2, second, fifth], [22, second, unknown]]|
|567|Tom |null   |[[3, second, sixth]]                       |
+---+----+-------+-------------------------------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

Spark：替换嵌套列中的空值的相关文章

尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
Scala 中缺少多重集吗？

我正在尝试 Scala 中的 Facebook Hacker Cup 2013 资格赛问题对于第三个问题我觉得需要一个有序的 Multiset 但在 scala 的 2 10 集合中找不到一个 scala 的集合中是否缺少此数据结构会
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
如何初始化子类型中特征的值？

如果我写 trait T val t 3 val u 1 t Nil class U extends T override val t 2 new U u 它表明了这一点 List 1 0 我应该如何更改上面的代码以使其显示以下内容 Lis
如何从java程序的main方法调用Scala程序的main方法？

假设我在 Java 项目中有一个 Scala 类和一个 Java 类 scala 类如下所示 class Sam def main args Array String Unit println Hello 如何从同一项目中存在的 java
错误：无法在 scala 中找到或加载主类

安装 eclipse scala 插件和 eclipse maven scala 插件后我是 scala 新手所以我尝试确保在测试 scala hello world 项目后环境正常工作它按预期工作但我在尝试执行我从公司存储库中签出
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
Build.scala中%和%%符号含义

我是新来玩的 Framework 2 1 java版本并且没有scala经验我不明白什么是以及什么是 and 在 Build scala 中表示我用谷歌搜索了它们但找不到它们的含义在我的 Build scala 文件中我有 org
SBT 对 Scala 类型感到困惑

SBT 抛出以下错误 value split is not a member of String String error filter arg gt arg split delimiter length gt 2 对于以下代码块 impl
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
比较 javascript 元素和 scala 变量的 Play 框架 Twirl 模板

如下面的代码示例所示我想比较 scala 辅助元素内的 javascript 元素然而即使存在元素 abcde 它也始终返回 false 除了使用标签之外如何获取 scala 辅助元素内的 javascript 值 appSeq S
Scala 2.8 中 <:<、<%< 和 =:= 的含义是什么？它们的文档在哪里？

我可以在 API 文档中看到Predef https scala lang org files archive api 2 8 2 scala Predef 24 html它们是通用函数类型 From gt To 的子类但仅此而已嗯什么
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
Map 和 Set 的实际类（不是抽象类，也不是特征类）是什么？

在 Scala 中映射和集合文字可以通过以下方式创建 val m Map 1 gt a 以及引用的类型m字面意思都是Map Int String 然而 scala文档表明Map实际上是一个特征具有需要实现才能实例化的抽象成员 scala
在 AKKA 中，对主管调用 shutdown 是否会停止其监督的所有参与者？

假设我有一位主管连接了 2 位演员当我的应用程序关闭时我想优雅地关闭这些参与者调用supervisor shutdown 是否会停止所有参与者还是我仍然需要手动停止我的参与者 gracias 阻止主管 https github co
如何在scala中生成n-gram？

我正在尝试在 scala 中编写基于 n gram 的分离新闻算法如何为大文件生成 n gram 例如对于包含蜜蜂是蜜蜂中的蜜蜂的文件首先它必须选择一个随机的 n 元语法例如蜜蜂然后它必须寻找以 n 1 个单词开头的 n 元

随机推荐

访问动态创建的 Shiny 模块的返回值

我正在寻找构建一个闪亮的应用程序它动态创建返回简单表单的模块通过 callmodule 我有两个未解决的问题希望得到一些指导首先当向用户提供多个表单通过单击按钮时先前呈现的表单上的值将恢复为默认值如何停止这种行为以便值保
当我尝试在 ubuntu:18.04 中移动 /etc/resolv.conf 时，出现“设备或资源繁忙”。怎么解决呢？

我的 Docker 容器中有一个 VPN 客户端 ubuntu 18 04 客户必须执行以下操作 mv etc resolv conf etc resolv conf orig 然后客户端应该创建新的 etc resolv conf与他们的
使用 Ruby 验证 Jenkins 插件表单

我正在用 Ruby 开发一个 Jenkins 插件您应该能够配置连接到服务器的每个节点以便在该节点失去与主服务器的连接时将电子邮件发送到指定的地址 EmailNodeProperty添加一个字段来输入电子邮件地址 Save an ema
定义我自己的 BASE_PATH 与 set_include_path？

我了解了函数set include path 一直以来我在config php文件中定义了一个常量 define BASE PATH var www mywebsite public html 在所有后续的 php 文件中我会像这样包含
业务代表与服务定位器

Business Delegate 和 Service Locator 之间有什么区别两者都负责封装查找和创建机制如果 Business Delegate 使用 Service Locator 来隐藏查找和创建机制那么 Busines
DataFrame 中的字符串，但 dtype 是对象

为什么 Pandas 告诉我我有对象尽管所选列中的每个项目都是一个字符串即使在显式转换之后也是如此这是我的数据框
在 Windows 10 应用程序中获取 WiFi 适配器列表失败

我有一个 Windows 10 通用应用程序我正在尝试获取 WiFi 适配器列表 var adapters await WiFiAdapter FindAllAdaptersAsync 我已设置所有必需的权限这调用一次就有效然后当我
TypeScript 编译错误 TS5037：除非提供“--module”标志，否则无法编译外部模块

无法编译任何 TS node js 项目包括示例中列出的项目 http typescript codeplex com sourcecontrol latest samples imageboard README txt http typ
接收新推送的子项的通知

I m push ing 到 firebase 参考中我希望听众能够上网然后仅收到新消息的通知 push ed 孩子们因此如果节点已经包含 5 个子节点并且客户端希望收到新子节点的通知并且推送了 2 个子节点则客户端应该只收到
Maven 多模块项目结构问题

自从过去几周构建我的 Maven 多模块项目以来这是我的一次有趣的经历当我决定使用 Maven 进行构建生命周期管理时我有几个原因希望选择 Maven A 大多数开发团队都是分开的这样每个团队都可以在项目中的单独模块上工作例如团队
我在 C 的输出中收到未知字符

我正在做这个练习编写一个程序反转句子中的单词如下所示我的名字是约翰 gt 约翰的名字是我的我写了这个 include
拦截来自外部应用程序的意图

假设我想开发一个以某种方式扩展的应用程序让我说合作非常受欢迎的应用程序我显然无法控制为了简单起见我们还假设非常著名的应用程序作者不会发布更新来阻止我的应用程序我研究了该应用程序的功能并发现它广泛使用BroadcastReceiv
使用 jQuery 对 CSS 变换进行动画处理

我正在尝试为 div 制作动画并让它绕 y 轴旋转 180 度当我调用以下代码时出现 jQuery 错误 my div animate transform rotateY 180deg webkit transform rotateY
页面其余部分完成加载后延迟加载 html5 视频

我有一个视频元素用作我正在构建的页面底部部分的背景我试图通过将 src 存储为 data src 属性并使用 jQuery 在其他资源加载后将其应用到 src 属性因为它不是英雄图像或任何东西我想加载海报以节省加载时间然后稍后加载视
Ng Bootstrap 日期范围选择器 [markDisabled] 不适用于输入

我正在尝试禁用某些日期ng 引导范围选择器 https ng bootstrap github io components datepicker overview 目前我在弹出窗口中有一个范围选择器并且我正在使用 markDisable
Pytest：如何使用从夹具返回的列表来参数化测试？

我想使用由固定装置动态创建的列表来参数化测试如下所示 pytest fixture def my list returning fixture depends on other fixtures return a dynamically
GapDebug：哪里可以获得最新版本？

Genuitec 宣布 GapDebug 生命周期结束因此他们不再托管任何安装文件我想下载最新版本 2 4 0 但找不到托管服务商 None
修复 VS Mobile Center 错误：发布构建工件失败并出现错误：未找到 PathtoPublish

在 Visual Studio App Center 中启动构建时我在构建日志中收到此错误我该如何解决 error Publish build artifacts failed with error Not found PathtoPu
将 iPhone 应用程序降级到以前的 SDK 安全吗？

我发布了一个带有 2 2 1 SDK 的应用程序意识到我毫无意义地失去了仍在使用固件 2 2 的大部分客户请参阅这篇文章 http arstechnica com apple news 2009 03 app store lessons
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希

Spark：替换嵌套列中的空值

Spark：替换嵌套列中的空值 的相关文章

随机推荐

热门标签

Spark：替换嵌套列中的空值的相关文章