时间列应使用什么数据类型

2023-12-06

在我的 Spark 应用程序中，我必须拆分时间和数据并将它们存储在单独的列中，如下所示：

val df5=df4.withColumn("read_date",date_format(df4.col("date"), "yyyy-MM-dd")).withColumn("read_time",date_format(df4.col("date"), "HH:mm:ss")).drop("date")

该命令将分割数据和时间

------------+-------------
2012-01-12     00:06:00
------------+-------------

但将这两个字段创建为字符串。所以我必须要.cast("date")对于日期，但是时间列使用什么数据类型？如果我使用像.cast("timestamp")它将把当前服务器日期与时间结合起来。当我们要在 Power BI 中可视化数据时，您认为将时间存储为字符串是正确的方法吗？

Spark 中没有数据类型来保存“HH:mm:ss”值。相反，您可以使用 hour()、min() 和 Second() 函数分别表示值。

所有这些函数都返回int types.

hour(string date) -- Returns the hour of the timestamp: hour('2009-07-30 12:58:59') = 12, hour('12:58:59') = 12.

minute(string date) -- Returns the minute of the timestamp.

second(string date) -- Returns the second of the timestamp.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

时间列应使用什么数据类型的相关文章

我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
使用 Python 用另一个嵌套 Json 更新嵌套 Json

例如我有一套完整的嵌套 JSON 我需要使用另一个嵌套 JSON 中的最新值来更新此 JSON 谁能帮我这个我想在 Pyspark 中实现这个完整的 Json 看起来像这样 email email protected cdn cgi
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
Python - 将整数或字符串发送到 Spark-Streaming

我可以通过 CSV 文件发送我的数据首先将我的随机数写入CSV文件然后发送但是可以直接发送吗我的套接字代码 import socket host localhost port 8080 s socket socket socket
Scala中如何将DataFrame转换为RDD？

有人可以分享一下如何转换dataframe to an RDD Simply val rows RDD Row df rdd
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m

随机推荐

实体框架DbContext无需查询并通过外键更新值

我有一个更新一些表的方法对于更新我需要首先获得TestProcess 但我不喜欢这样我怎样才能更新TestProcess没有select firstOrDefault 操作仅用于更新操作方法示例 public void Update
如何动态地分块重塑矩阵？ [复制]

这个问题在这里已经有答案了假设我有A 1 8 11 18 21 28 31 38 41 48 现在我想将所有内容从第 4 列向前移动到行位置我该如何实现这一目标 A 1 2 3 4 5 6 7 8 11 12 13 14 15 16 1
如何处理“变量时间”（DATE、双精度、8 字节）？

我似乎找不到任何有关变体时间的信息 DATE 双精度 8 字节变量被处理我有一个不同的时间 A 哪个值是 41716 892329 如果我转换 A 使用变体时间到系统时间 or COle日期时间我明白 2014 03 18 21
移动向量会使迭代器失效吗？

如果我有一个向量迭代器a 然后我移动构造或移动分配向量b from a 该迭代器是否仍然指向同一个元素现在在向量中 b 这就是我在代码中的意思 include
如何使用存储过程在sql server 2008中拆分字符串并将数据插入表

我想以这种格式分割一个字符串引用 date 10 10 2000 age 13 date 01 01 2001 age 12 date 02 02 2005 age 8 实际上这个字符串只是一个示例我的原始字符串非常大我不明白的是如
在 ASP.NET MVC 2 中 - 如何将路由值获取到导航控制器中，以便突出显示当前链接？

我正在尝试将当前路线放入导航控制器中以便在填充导航菜单数据时可以运行比较我的链接对象是这样的 public class StreamNavLinks public string Text get set public RouteValu
Struts2；为 StrutsSpringTestCase JUnit 测试保持会话打开

我的项目架构是带有 Spring 集成和 JPA Hibernate 的 Struts2 StrutsSpringTestCase 基类用于 JUnit 集成测试正常情况下 web xml 中的以下配置使单个会话从每个请求的开始到结束保持
退出应用程序会让人不悦吗？

继续尝试学习 Android 我只是阅读以下问题用户是否可以选择终止应用程序除非我们添加一个菜单选项来杀死它如果不存在这样的选项用户如何终止应用程序答案 Romain Guy 用户不这样做系统会自动处理此问题这就是 Acti
OpenCV 中的人脸识别

我试图使用 OpenCV 2 2 来自 Willow Garage 构建一个基本的人脸识别系统 PCA Eigenfaces 我从之前关于人脸识别的许多帖子中了解到没有标准的开源库可以为您提供所有人脸识别功能相反我想知道是否有人使用过
如何在heroku中设置超过30秒的响应超时

伙计们如果响应返回时间超过 30 秒 Heroku 将终止请求那么有什么方法可以让我等待响应返回呢好吧用户正在上传他的文件我需要对服务器中的文件执行一些操作更新完成后我将向用户提供下载链接但服务器处理文件的时间大多超过30秒
Rails 5、Heroku 与 Let's Encrypt SSL - 配置设置时遇到问题

我正在尝试弄清楚如何使用 heroku 上的 Rails 应用程序进行加密我已经尝试了几个 gem 它们似乎是为帮助完成此过程而设计的 letsencrypt plugin 但删除了这些 gem 推荐的所有安装步骤因为我无法正常工作现
矢量填充和调整大小

我正在研究地图生成器我使用二维向量来保存数据 Header class MapGenerator public protected std vector lt std vector
防止以编程方式缓存脚本

我想问一下有没有办法阻止Firefox缓存脚本 js文件我有一个项目 ASP Net Web App 在 Firefox 上存在缓存问题当我第一次运行应用程序脚本正在 Firefox 上缓存并修改脚本并重新运行应用程序时 Firef
如何获取运行时x:Name值

I got
如何选择从Excel运行的.NET框架版本？

除了将 excel exe config 文件添加到 Office Binary 文件夹之外如何指定 Excel 在运行 NET dll 时使用 NET Framework 版本 2 0 我们的应用程序在 Excel 中运行并使用 VB
mypy可以根据当前对象的类型选择方法返回类型吗？

在下面的代码中调用clone 在 A 的实例上调用该方法将返回 A 类型的实例在 B 的实例上调用该方法将返回 B 类型的实例依此类推目的是创建一个与当前实例相同但具有不同的内部生成主键的新实例因此可以从那里对其进行编辑并安全地另
ng-model 作为二维数组中的变量

p span span p
检查 int 是否为素数 Java

对修复我的代码帖子感到抱歉编辑与语法更多相关for循环比质数现在也解决了我的任务是从控制台获取一个 int 并打印出在单独的行上从 1 到 n 含的所有素数我的方法从 n 开始检查是否为素数然后将 n 递减 1 并循
事件和自引用组件 vue.js

我有允许 1 级线程的评论系统意味着第一级评论看起来像内容线其中线程可能有更多评论我认为这对于自引用组件和带有插槽的列表很有用但过了一会儿我不知道如何连接这个东西 SingleComment 组件如下
时间列应使用什么数据类型

在我的 Spark 应用程序中我必须拆分时间和数据并将它们存储在单独的列中如下所示 val df5 df4 withColumn read date date format df4 col date yyyy MM dd withCol

时间列应使用什么数据类型

时间列应使用什么数据类型 的相关文章

随机推荐

热门标签

时间列应使用什么数据类型的相关文章