在spark中的子字符串中使用长度函数

2023-12-30

我正在尝试在子字符串函数中使用长度函数DataFrame但它给出了错误

val substrDF = testDF.withColumn("newcol", substring($"col", 1, length($"col")-1))

下面是错误

 error: type mismatch;
 found   : org.apache.spark.sql.Column
 required: Int

我用的是2.1。

可以使用函数“expr”：

val data = List("first", "second", "third")
val df = sparkContext.parallelize(data).toDF("value")
val result = df.withColumn("cutted", expr("substring(value, 1, length(value)-1)"))
result.show(false)

output:

+------+------+
|value |cutted|
+------+------+
|first |firs  |
|second|secon |
|third |thir  |
+------+------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

Substring

stringlength

在spark中的子字符串中使用长度函数的相关文章

宏：knownDirectSubclasses 被嵌套类型破坏？

我有一个宏它枚举密封特征的直接子类型 import scala reflect macros Context import language experimental macros object Checker def apply A U
将 pandas DataFrame 中的数字转换为特定字符串格式

我需要运行一个可以通过循环完成的任务但我想有一种更有效更漂亮的方法来做到这一点我有一个DataFrame它有一个整数列我想将其转换为 4 位字符串表示形式也就是说 3 应转换为 0003 234 应转换为 0234 我正在寻找一种
Scala Array.apply 有何魔力

来自 scala 2 10 4 的 array scala Array定义为 final class Array T length Int extends java io Serializable with java lang Clonea
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
闪亮错误：参数暗示行数不同

我正在尝试开发一个简单的应用程序从 Kijiji 网站获取本地分类广告我用几乎相同的脚本制作了一个类似的应用程序但我没有收到下面描述的错误所以我不知道这个脚本出了什么问题我尝试了我能想到的一切但无法让它发挥作用的结构df数据框
使用 Akka 玩 2.5 - 找不到参数超时的隐式值：akka.util.Timeout

我正在尝试使用 Play 2 5 测试 Akka 但遇到了一个似乎无法解决的编译错误我正在关注 Play 文档中的此页面 https playframework com documentation 2 5 x ScalaAkka http
如何向 pandas 数据框中的新列添加值？

我想在 Pandas 数据框中创建一个新的命名列将第一个值插入其中然后将另一个值添加到同一列就像是 import pandas df pandas DataFrame df New column append a df New col
使用 Spray-json 解析简单数组

我正在尝试但失败了了解 Spray json 如何将 json feed 转换为对象如果我有一个简单的 key gt value json feed 那么它似乎可以正常工作但是我想要读取的数据出现在如下列表中 name John a
Scala：类似 Option (Some, None) 但具有三种状态：Some、None、Unknown

我需要返回值当有人询问值时告诉他们以下三件事之一这是值没有价值我们没有关于该值的信息未知情况 2 与情况 3 略有不同示例 val radio car radioType 我们知道该值返回无线电类型例如 pioneer
Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
Play Framework 2.3 (Scala) 中的自定义 JSON 验证约束

我设法使用自定义约束实现表单验证但现在我想对 JSON 数据执行相同的操作如何将自定义验证规则应用于 JSON 解析器示例客户端的 POST 请求包含用户名 username 我不仅要确保该参数是非空文本而且还要确保该用户确实存在
Scala 模式匹配变量绑定

为什么提取器返回时不能以样式绑定变量Option
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
使用 scala 集合 - CanBuildFrom 麻烦

我正在尝试编写一个接受任何类型集合的方法CC 并将其映射到一个新的集合相同的集合类型但不同的元素类型我正在挣扎基本上我正在尝试实施map but 不在集合本身上问题我正在尝试实现一个带有签名的方法它看起来有点像 def map
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

将外部属性添加到县的 TopoJSON 文件中

相关问题 https stackoverflow com questions 17450273 adding external properties to topojson file 我正在尝试将外部属性添加到 topojson 文件 us
C# 6.0 TFS 构建

我正在 Visual Studio 2015 CTP 中试用 C 6 0 的新功能但我的项目无法在 TFS 2013 中构建并且视觉工作室在线 http www visualstudio com en us products what
获取嵌入式 IronPython v2 中的最后一条语句结果

Mike Stall 博客中的这篇文章 https web archive org web 20151031235957 http blogs msdn com 80 b jmstall archive 2005 09 01 howto e
确定连接到 Qt 中给定插槽的信号

我已将自己注入到 Qt 应用程序中并试图找出给定插槽连接到的信号但找不到任何有关执行此操作的信息是否有一种开箱即用的机制可以做到这一点如果是这样这是否暴露给 QtScript 如果没有我可以很容易地将其包裹起来如果没有这样的机
如何检测图像是照片、剪贴画还是线条画？

识别图像类型的最佳方法是什么 rwong s https stackoverflow com users 377657 rwong answer https stackoverflow com a 3446199 18437 on 这个问题
如何使 iFrame 在单击按钮时全屏显示？

我想使用 JavaScript 通过单击按钮使 iFrame 显示在全屏上您必须做两件事使窗口全屏显示然后填满整个尺寸您可以使用 JS 使其全屏显示例如这个答案 https stackoverflow com
如何使用XMPP框架检索成员聊天室列表？

如何使用XMPP框架检索聊天室的成员列表我尝试使用 void xmppRoom XMPPRoom sender didFetchMembersList NSArray items 但它返回一个空数组有人请帮帮我吗当您加入房间委托时 x
在 Haskell 中比较两个项的构造函数的一般方法[重复]

这个问题在这里已经有答案了给定某些数据类型的两个项 t1 t2 是否有某种方法可以检查 t1 和 t2 是否以相同的构造函数开头而不需要对构造函数进行一些详尽的案例或模式匹配就像如果我的类型是 Either a b 那么我想要 che
如何创建 50 个州的地图（而不仅仅是 48 个州）

如何用 R 制作 50 个州的地图看起来人们创建的所有示例地图都只是 48 级以下的地图有很多方法可以做到这一点就我个人而言我发现谷歌拥有最有吸引力的地图我建议ggmap googleVis 和或RgoogleMaps 例如 r
测试 WebApi 控制器 Url.Link

我有以下控制器操作 public void Post Dto model using var message new MailMessage var link Url Link ConfirmAccount new model Id mes
在 Ruby 中导出环境变量

如何将 Ruby 脚本中的环境变量导出到父 shell 例如实现一个简单的实现readbash 内置 usr bin ruby varname ARGV 0 ENV varname STDIN gets but have varname
Eloquent - 更新集合中的所有模型

我想在集合的所有模型中设置某个属性在简单的 SQL 中 UPDATE table SET att foo WHERE id in 1 2 3 我的代码 models MyModel findMany 1 2 3 models gt upd
在表单提交时保留选项选择下拉列表中的所有多选值

我正在使用多选下拉菜单here https silviomoreto github io bootstrap select examples The
CamcorderProfile.QUALITY_HIGH 分辨率产生绿色闪烁视频

到目前为止我还没有找到任何解释基本上我有一个视频录制类当我的三星 Galaxy S2 上的 setVideoSize 设置为 720 x 480 时它的工作效果非常好我希望它以尽可能高的分辨率进行录制因此使用 Camcorder
结构体的部分初始化？ [复制]

这个问题在这里已经有答案了是否可以静态初始化结构体的一部分我的结构 struct data char name 20 float a int b char c 首字母缩写和打印时 struct data badge badge 307
当我在 requirejs 中时，如何调用全局加载的 api？

我继承了一个使用magento和foundation的项目我在此之上合并了 requirejs 和主干我试图让一个基础轨道画廊工作该画廊正在通过主干中的霍根渲染加载到 dom 中我遇到的问题是基础已经在 magento 模板之
失败 - 上下文路径 /Hello 处的应用程序无法启动

我正在尝试在 Tomcat 6 0 中部署新的 Web 应用程序但是每当我单击开始按钮时我都会反复收到失败上下文路径 Hello 处的应用程序无法启动每当我单击开始按钮时其他部署的应用程序都运行良好但为什么不是这个应用程序呢 w
C# 应用程序中的非托管调用堆栈

我在编写的非托管 dll 中遇到访问冲突错误但是当我尝试在 C 应用程序中调试它时它只会在 Visual Studio 的调试窗口中获取调用堆栈的最后一帧我将 debug gt exceptions gt System AccessV
如何检查 Clang ASTvisitor 中的变量声明是否是数组

我试图确定 ASTvisitor 中的变量声明是否是一个数组如果是一个数组我想确定该数组的维数您可以在下面找到我的代码 bool VisitVarDecl VarDecl var if astContext gt getSourceM
在spark中的子字符串中使用长度函数

我正在尝试在子字符串函数中使用长度函数DataFrame但它给出了错误 val substrDF testDF withColumn newcol substring col 1 length col 1 下面是错误 error type

在spark中的子字符串中使用长度函数

在spark中的子字符串中使用长度函数 的相关文章

随机推荐

热门标签

在spark中的子字符串中使用长度函数的相关文章