如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

2024-05-17

我知道使用以下方法将新列添加到 Spark 数据集的方法.withColumn() and a UDF，它返回一个 DataFrame。我还知道，我们可以将生成的 DataFrame 转换为 DataSet。

我的问题是：

如果我们仍然遵循传统的 DF 方法（即将列名称作为 UDF 输入的字符串传递），那么 DataSet 的类型安全性在这里如何发挥作用
是否有一种“面向对象的方式”来访问列（无需将列名作为字符串传递），就像我们以前对 RDD 所做的那样，用于附加新列。
如何在地图、过滤器等正常操作中访问新列？

例如：

    scala> case class Temp(a : Int, b : String)    //creating case class
    scala> val df = Seq((1,"1str"),(2,"2str),(3,"3str")).toDS    // creating DS
    scala> val appendUDF = udf( (b : String) => b + "ing")      // sample UDF

    scala> df.withColumn("c",df("b"))   // adding a new column
    res5: org.apache.spark.sql.DataFrame = [a: int, b: string ... 1 more field]

    scala> res5.as[Temp]   // converting to DS
    res6: org.apache.spark.sql.Dataset[Temp] = [a: int, b: string ... 1 more field]

    scala> res6.map( x =>x.  
    // list of autosuggestion :
    a   canEqual   equals     productArity     productIterator   toString   
    b   copy       hashCode   productElement   productPrefix

新专栏c，我添加了使用.withColumn()不可访问，因为列c不在案例类别中Temp（它只包含a & b）在使用转换为 DS 的瞬间res5.as[Temp].

如何访问专栏c?

在类型安全的世界中Dataset您可以将一个结构映射到另一个结构中。

也就是说，对于每个转换，我们需要数据的模式表示（因为 RDD 需要它）。要访问上面的“c”，我们需要创建一个新的架构来提供对其的访问。

case class A(a:String)
case class BC(b:String, c:String)
val f:A => BC = a=> BC(a.a,"c") // Transforms an A into a BC

val data = (1 to 10).map(i => A(i.toString))
val dsa = spark.createDataset(data)
// dsa: org.apache.spark.sql.Dataset[A] = [a: string]

val dsb = dsa.map(f)
//dsb: org.apache.spark.sql.Dataset[BC] = [b: string, c: string]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？的相关文章

重塑案例类构造函数？

试图找到一种方法来重塑案例构造函数以填充某些默认值以下情况可能吗 def reshape T R1 lt HList R2 lt HList h R1 R2 gt T example case class MyClass a Doub
Scala - 如何解决“值不是 Nothing 的成员”错误

此示例代码基于 Atmosphere 类但如果有人可以让我了解该错误的一般含义我想我可以找出任何特定于 Atmosphere 的解决方案 val bc BroadcasterFactory getDefault lookup broad
新式（“内联”）宏需要 scala.meta

我刚刚更新到 scala meta 2 0 0 M1 和最新的 scala 2 12 3 现在宏不再编译我所做的唯一更改是将元版本从 1 8 0 更改为 2 0 0 M1 错误新式内联宏需要 scala meta 有谁知道是否有快速
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Scala Array.apply 有何魔力

来自 scala 2 10 4 的 array scala Array定义为 final class Array T length Int extends java io Serializable with java lang Clonea
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
阶乘的 Scala 排列

我怎样才能找到n Scala 中某些字母的排列 Scala 2 9 RC1 scala gt abc permutations toList res58 List String List abc acb bac bca cab cba
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
使用 Spray-json 解析简单数组

我正在尝试但失败了了解 Spray json 如何将 json feed 转换为对象如果我有一个简单的 key gt value json feed 那么它似乎可以正常工作但是我想要读取的数据出现在如下列表中 name John a
通用特征的隐式转换

我正在实现一个数据结构并希望用户能够使用任何类型作为密钥只要他提供一个合适的密钥类型来包装它我有这个关键类型的特质这个想法是进行从基类型到键类型的隐式转换反之亦然实际上只使用基类型该特征看起来像这样 trait Key T
Scala：类似 Option (Some, None) 但具有三种状态：Some、None、Unknown

我需要返回值当有人询问值时告诉他们以下三件事之一这是值没有价值我们没有关于该值的信息未知情况 2 与情况 3 略有不同示例 val radio car radioType 我们知道该值返回无线电类型例如 pioneer
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
在 Scala 和 SBT 中调试较长的编译时间

在我的 Scala SBT 项目中我有一个文件需要 5 分钟才能编译所有其他的都可以在几秒钟内编译这使得开发非常痛苦我确信我滥用了一些 Scala 构造但我不知道如何调试它如何在 Scala 中调试较长的编译时间我正在使用 S
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Scala Tuple2Zipped 与 IterableLike zip

两种实现有什么区别这个比那个好吗有一篇博客文章说 Tuple2Zipped 性能更好但没有提供原因并且查看源代码我没有看到差异 val l1 List 1 2 3 val l2 List 5 6 7 val v1 l1 zip l2
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
在 Scala 中，使用“_”和使用命名标识符有什么区别？

为什么当我尝试使用时会出现错误而不是使用命名标识符 scala gt res0 res25 List Int List 1 2 3 4 5 scala gt res0 map gt item toString

随机推荐

RoR - Rails 中的大文件上传

我有一个 Rails Web 应用程序允许用户上传视频视频存储在 NFS 安装的目录中当前的设置适用于较小的文件但我也需要支持大文件上传最多 4GB 当我尝试上传 4GB 文件时它最终会发生但从用户体验的角度来看很糟糕上传开
R - 与 SpatialPolygonsDataFrame 对象相交的 SpatialLinesDataFrame 列表的嵌套循环

我有一系列需要完成的步骤SpatialLinesDataFrame 此处的线基于对象与多特征中各个特征的关系SpatialPolygonsDataFrame 多边形对象简而言之每个线列表元素源自单个面要素内部并且可能会也可能不会
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
php下拉菜单人口

我正在尝试编写一个 php 脚本该脚本将根据主下拉菜单的选择填充第二个下拉菜单我想使用 jquery 来完成所有非页面刷新的事情但我发现现有的所有东西都很难理解和修改你知道有什么写得很好且易于理解的东西吗或者可能是现有的教程下面
Boost Spirit X3 量产准备好了吗？

我正在将手写解析器迁移到 Boost Spirit 2 5 4 第一印象是积极的但由于我使用的是 C 17 X3 似乎是一个非常有吸引力的选择幸运的是有很多关于 X3 的资源 many Stackoverflow 上有关 X3 的问题
IE 中的每个 JavaScript 支持？

我有这个代码
过期时自动重新填充缓存

我当前缓存方法调用的结果缓存代码遵循标准模式如果存在则使用缓存中的项目否则计算结果在返回之前将其缓存以供将来调用我想保护客户端代码免受缓存未命中的影响例如当项目过期时我正在考虑生成一个线程来等待缓存对象的生命周期然后运行
BigQuery 标准 SQL 错误，根本未触及日期字段时的时间戳无效

答案here https stackoverflow com questions 41195883 bigquery standard sql error invalid timestamp对我没有帮助尽管我在一个相当简单的更新查询中遇到
Silverlight Datagrid：在对列进行排序时突出显示整个列

我的 Silverlight 应用程序中有一个 DataGrid 我想在对该列进行排序时突出显示整个列它在概念上与上一个问题类似 Silverlight DataGrid 突出显示整列 https stackoverflow com qu
除法和乘法 2 的幂

我在一篇论文中读到数字除以 2 的幂并乘以 2 的幂是一个微不足道的过程我在互联网上搜索了很多解释但没有得到它任何人都可以用简单的语言解释一下这实际上意味着什么从位操作的角度来看这是微不足道的乘以2相当于左移1位除法相当于右
OxyPlot WPF 不适用于按钮单击

我在使用 OxyPlot 时遇到了一些问题但无法通过他们的文档或其他搜索来解决我正在开发一个 wpf 应用程序它允许用户通过按钮单击事件打开 csv 然后执行一些数学运算并报告一些有用的信息我想绘制一些生成的数据因此使用 OxyP
iOS 视图控制器内存在被关闭后未释放

当用户单击按钮时它会显示一个带有两个视图控制器的新选项卡栏视图控制器我是这样做的 ACLevelDownloadController dvc ACLevelDownloadController alloc initWithNibName
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
尝试创建发布包时无法解析模块“AccessibilityInfo”

我在跑步 react native bundle platform windows dev false entry file index windows js bundle output windows app ReactAssets in
Google Sheets 自定义数字格式、颜色规范

我有一个自定义的百分比数字格式这是代码 Green 0 0 Red 0 0 输出预览 Positive 123 456 0 Green Negative 123 456 0 Red 我想要绿色更深一些我已经尝试过了 Dark Green
Windows Phone 8 错误 - 应用程序安装失败

我正在开发一个 Windows Phone 8 项目我们通过 HockeyApp 将其部署为公司应用程序我有一个从我们的赛门铁克证书生成的 PFX 文件并且设备上安装了正确的 aetx 文件如果我获取打算部署的 XAP 文件并将其复
F# 检查列表是否为空

作为 F 新手我正在尝试实现一个简单的函数该函数将索引和列表作为参数然后返回给定索引的列表值 let rec getElementAtIndex index int list a list match index list with
32位PPC rlwinm指令

我在理解上有点困难rlwinmPPC 汇编指令旋转左字立即然后与掩码我正在尝试反转函数的这一部分 rlwinm r3 r3 0 28 28 我已经知道什么了r3 is r3在本例中是一个 4 字节整数但我不确定这条指令到底是什么rlw
尝试通过 Google Drive API 创建权限时出现错误“需要权限类型字段”

我改编了 Google Drive API Quickstart for Node js 中的代码发现here https developers google com drive v3 web quickstart nodejs 20 2
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的

如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？ 的相关文章

随机推荐

热门标签

如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？的相关文章