Spark 中将字符串字段转换为时间戳的更好方法

2023-12-10

我有一个 CSV，其中字段是特定格式的日期时间。我无法将其直接导入到我的数据框中，因为它需要是时间戳。所以我将其作为字符串导入并将其转换为Timestamp像这样

import java.sql.Timestamp
import java.text.SimpleDateFormat
import java.util.Date
import org.apache.spark.sql.Row

def getTimestamp(x:Any) : Timestamp = {
    val format = new SimpleDateFormat("MM/dd/yyyy' 'HH:mm:ss")
    if (x.toString() == "") 
    return null
    else {
        val d = format.parse(x.toString());
        val t = new Timestamp(d.getTime());
        return t
    }
}

def convert(row : Row) : Row = {
    val d1 = getTimestamp(row(3))
    return Row(row(0),row(1),row(2),d1)
}

有没有更好、更简洁的方法来做到这一点，使用 Dataframe API 或 Spark-sql？上述方法需要创建 RDD 并再次给出 Dataframe 的架构。

火花 >= 2.2

从 2.2 开始，您可以直接提供格式字符串：

import org.apache.spark.sql.functions.to_timestamp

val ts = to_timestamp($"dts", "MM/dd/yyyy HH:mm:ss")

df.withColumn("ts", ts).show(2, false)

// +---+-------------------+-------------------+
// |id |dts                |ts                 |
// +---+-------------------+-------------------+
// |1  |05/26/2016 01:01:01|2016-05-26 01:01:01|
// |2  |#$@#@#             |null               |
// +---+-------------------+-------------------+

火花 >= 1.6，

您可以使用Spark 1.5中引入的日期处理函数。假设您有以下数据：

val df = Seq((1L, "05/26/2016 01:01:01"), (2L, "#$@#@#")).toDF("id", "dts")

您可以使用unix_timestamp解析字符串并将其转换为时间戳

import org.apache.spark.sql.functions.unix_timestamp

val ts = unix_timestamp($"dts", "MM/dd/yyyy HH:mm:ss").cast("timestamp")

df.withColumn("ts", ts).show(2, false)

// +---+-------------------+---------------------+
// |id |dts                |ts                   |
// +---+-------------------+---------------------+
// |1  |05/26/2016 01:01:01|2016-05-26 01:01:01.0|
// |2  |#$@#@#             |null                 |
// +---+-------------------+---------------------+

正如您所看到的，它涵盖了解析和错误处理。格式字符串应与 Java 兼容SimpleDateFormat.

火花 >= 1.5，

你必须使用这样的东西：

unix_timestamp($"dts", "MM/dd/yyyy HH:mm:ss").cast("double").cast("timestamp")

(unix_timestamp($"dts", "MM/dd/yyyy HH:mm:ss") * 1000).cast("timestamp")

due to SPARK-11724.

火花

你应该能够使用这些expr and HiveContext.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

Spark 中将字符串字段转换为时间戳的更好方法的相关文章

Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
使用 Akka 玩 2.5 - 找不到参数超时的隐式值：akka.util.Timeout

我正在尝试使用 Play 2 5 测试 Akka 但遇到了一个似乎无法解决的编译错误我正在关注 Play 文档中的此页面 https playframework com documentation 2 5 x ScalaAkka http
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
在 Scala 和 SBT 中调试较长的编译时间

在我的 Scala SBT 项目中我有一个文件需要 5 分钟才能编译所有其他的都可以在几秒钟内编译这使得开发非常痛苦我确信我滥用了一些 Scala 构造但我不知道如何调试它如何在 Scala 中调试较长的编译时间我正在使用 S
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
Play Framework 2.3 (Scala) 中的自定义 JSON 验证约束

我设法使用自定义约束实现表单验证但现在我想对 JSON 数据执行相同的操作如何将自定义验证规则应用于 JSON 解析器示例客户端的 POST 请求包含用户名 username 我不仅要确保该参数是非空文本而且还要确保该用户确实存在
Scala Tuple2Zipped 与 IterableLike zip

两种实现有什么区别这个比那个好吗有一篇博客文章说 Tuple2Zipped 性能更好但没有提供原因并且查看源代码我没有看到差异 val l1 List 1 2 3 val l2 List 5 6 7 val v1 l1 zip l2
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
分析 sbt 构建

我的 sbt 构建需要很长时间它又大又复杂很难知道从哪里开始清理看起来 sbt 保留了很多关于构建结构的元数据包括相互依赖关系命名任务范围界定等有了所有这些元数据似乎很容易跳入并测量每个不同任务及其范围花费的时间在代码
在 Scala 中，使用“_”和使用命名标识符有什么区别？

为什么当我尝试使用时会出现错误而不是使用命名标识符 scala gt res0 res25 List Int List 1 2 3 4 5 scala gt res0 map gt item toString
scala play框架如何对异步控制器进行单元测试

使用 Scala play 2 5 版并尝试遵循以下文档中的单元测试控制器指南 https www playframework com documentation 2 5 x ScalaTestingWithScalaTest https
为什么在 Scala 中函数类型需要以单独的参数组传递到函数中

我是 scala 新手我用两种方式编写了相同的代码但我对两种方式有点困惑在第二种方式中 f 的参数类型是自动派生的但在 type1 中 scala 编译器无法执行相同的操作我只是想了解这背后的想法是什么 Type1 给出编译错误
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
默认情况下，Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么？

我正在开发一个简单的 ETL 项目它读取 CSV 文件执行对每列进行一些修改然后将结果以 JSON 格式写出我想要读取我的结果的下游进程确信我的输出符合一个商定的模式但我的问题是即使我定义我的输入模式的所有字段都为 nu
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R

随机推荐

外连接 Pandas 数据框

我正在尝试外部连接在 df1 上两个 pandas 数据框以下是示例数据框 df1 Index Team 1 Team 2 Team1 Score Team2 Score 0 A B 25 56 1 B C 30 55 2 D E 3
向图例添加额外的项目

我有以下数据 trait beta se p analysis signif trait1 0 078 0 01 9 00E 13 group1 1 trait2 0 076 0 01 1 70E 11 group1 1 trait3 0
Amazon Cognito 将 IAM 角色分配给用户池中的组并与身份池集成

我正在尝试使用用户池中新添加的用户组并将其与联合身份集成我按照以下步骤操作在用户池中创建组其中在 IAM 中创建的角色具有单独的角色政策创建用户并将其添加到用户组创建一个身份池并在下面添加该 Cognito 提供程序身份验证提供
使用异步解析 Json url

运行此代码时出现异常我想解析 url 它是一个 json 对象数组 package com example compsci 734t import java io BufferedReader import java io InputSt
C# 中的随机名称生成器

我有一个女性和男性名字的列表然后是数组中的姓氏列表我想做的是使用随机生成器获取这些数组中的这些名称并根据我的调用输出随机的名字和姓氏完成后我将在其他类中引用该方法而不必每次都将其写出来这是我到目前为止的代码 private v
在 PrimeFaces 中将图标从 jQuery UI 更改为 FontAwesome

我有一个 PrimeFacesp tree我可以使用添加字体很棒的展开和折叠图标this 但之前有一个来自 PrimeFaces 的箭头图标我无法弄清楚如何将其切换为很棒的箭头字体 fa arrow circle down and fa
C# 中的基本算术运算是原子的

基本算术运算是线程安全的吗例如如果有对全局变量的操作会被不同线程修改是否有必要在它周围加锁例如 void MyThread can have many running instances aGlobal 或者应该是 void M
如何在宏中添加前缀/后缀标识符？ [复制]

这个问题在这里已经有答案了当使用定义函数的宏时是否可以为函数添加前缀 macro rules my test id ident arg expr gt test fn id my test impl stringify id arg 例
Laravel，无法复制目录或移动目录

目前我在 Laravel 中遇到问题无法使用 moveDirectory 和 copyDirectory 但是 makeDirectory 或 deleteDirectory 工作正常代码如下
如何从 Win32 上的 Perl 中杀死一个可能不存在的程序？

我正在寻找一种方法让 Perl 杀死 Win32 上的所有 firefox exe 进程并且如果不存在进程则不会给出错误我目前正在使用 system taskkill F IM firefox exe 当 firefox 不存在时会抛
将 BLOB 转换为图像并显示它（ReactJS）

MySQL 数据库保存着用户图像我想查询该图像并将其显示在导航栏上这是我的导航栏组件它使用axios post向我的服务器发出请求我尝试将 blob 转换为图像并将其存储在变量中但我不确定为什么img onload从不火灾 exp
删除特定控件的所有事件处理程序

我正在 winForm 中编写一个应用程序我在 from1 中有一个面板它有很多事件处理程序当我处理 panel1 并创建新 panel 时先前的事件存在并触发为了删除 panel1 事件我尝试了下面的代码 panel1 Cli
这看起来不像一个函数。这是什么？

一个朋友让我用 C 语言编写一个函数来返回数组的第 100 个元素我对 C 不太熟悉所以我不确定如何创建一个可以对任何类型的数组执行此操作的通用函数所以我作弊并假设它是一个整数数组并编写了这个函数 int GetHundredthEl
PyQT5 和使用多列过滤表

我正在尝试做一个PyQt5GUI 以表格形式显示 Pandas 数据框并提供列过滤选项类似于 Microsoft Excel 过滤器到目前为止我设法采用类似的所以答案这是 GUI 中我的表格的图片如上图所示有两种过滤列的方法正
C# Powershell 管道 foreach-object

我使用此 PowerShell 命令将成员添加到 Exchange Online 中的通讯组这在 PS 中可以正常工作但我需要从 C 应用程序执行此操作 arr foreach object Add DistributionGroupM
我通过一些代码使java图像的某些部分透明，它在我制作的笔记本电脑上运行良好，但在其他笔记本电脑上运行不佳，为什么？

没有透明度的图像在其他笔记本电脑中是看不到的另外当我创建一个新的 Eclipse 项目时当我将粘贴代码复制到单独的类文件中时它在我的机器上运行良好但在具有相同代码和项目设置的其他机器上运行不佳 bin中的图像没有被复制我必须单独
List.map 中的下划线和字符串连接与 Scala [重复]

这个问题在这里已经有答案了 Scala 允许您使用下划线来制作简单的映射例如不要写 def roleCall people String people toList map x gt println x 我可以写 def roleCal
为什么在我使用 println 后，在 clojure 中使用“print”打印的字符串仅出现在我的控制台中？

我在 clojure 中有以下代码 do println starting sig a 0 sig b 0 future Thread sleep 4000 println switch 1 sig a 1 sig b 0 Thread s
PHP 检查是否不 > 0

目前我能想到的唯一方法是在没有臃肿逻辑的情况下合理检查这一点 if value gt 0 Okay else Not Okay 有没有更好的办法大于0 的逻辑非是等于或小于0 if value lt 0
Spark 中将字符串字段转换为时间戳的更好方法

我有一个 CSV 其中字段是特定格式的日期时间我无法将其直接导入到我的数据框中因为它需要是时间戳所以我将其作为字符串导入并将其转换为Timestamp像这样 import java sql Timestamp import java

Spark 中将字符串字段转换为时间戳的更好方法

Spark 中将字符串字段转换为时间戳的更好方法 的相关文章

随机推荐

热门标签

Spark 中将字符串字段转换为时间戳的更好方法的相关文章