TIMESTAMP 未按照蜂巢中镶木地板的预期表现

2023-12-14

I have parquet读取时的数据（TIMESTAMP列）使用 Spark 效果非常好。以下是样本记录：

scala> data.select($"BATCH_LOAD_DATE").limit(5).show()

+-------------------+
|    BATCH_LOAD_DATE|
+-------------------+
|2020-02-21 07:35:27|
|2020-02-21 07:35:27|
|2020-02-21 07:35:27|
|2020-02-21 07:35:27|
|2020-02-21 07:35:27|
+-------------------+

我检查了架构，它显示TIMESTAMP作为正确的列之一的数据类型。所以，模式也没有问题。然而，当我尝试阅读相同的内容时TIMESTAMP通过 Hive 的列，它抛出以下异常

Error: java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.hive.serde2.io.TimestampWritableV2 (state=,code=0)

我可以看到从this链接表明这是 Hive 中的一个未决问题。不确定是否已经解决。有什么解决方法吗？加载数据时可以做些什么，或者加载后进行一些转换？

我找到了解决我自己问题的替代方案。我更改了列类型TIMESTAMP列至STRING在获取数据时我使用了from_unixtime方法将该特定列转换为预期的日期格式并能够获取它。
但是，这里的问题是如果我的日期值是2020-02-27 15:40:22当我通过 Hive 获取该列的数据时，它正在返回EpochSeconds i.e 15340232000000.
因此，我通过以下查询在 Hive 中解决了这个问题：

select *, from_unixtime(cast(SOURCE_LOAD_DATE as BIGINT) DIV 1000000) as SOURCE_LOAD_DATE from table_name;

使用上面的查询我能够获得带有时间戳值的正确日期。

Note:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Hadoop

hive

TIMESTAMP 未按照蜂巢中镶木地板的预期表现的相关文章

使用 MySQL 作为元存储从 HIVE 查询元数据

我正在寻找一种使用 HiveQL 命令查询 HIVE 数据元数据的方法我配置了一个 MySQL 元存储但需要通过 HIVE 命令查询元数据因为然后我想通过 ODBC 连接到 HIVE 系统来访问数据要从 Hive 查看它们必须使用
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
没有函数映射到名称“coord:formatTime”

我正在尝试使用 oozie 中的以下内容获取当前时间戳
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
如何在 Spark Dataframe 中显示完整的列内容？

我正在使用 Spark csv 将数据加载到 DataFrame 中我想做一个简单的查询并显示内容 val df sqlContext read format com databricks spark csv option header
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
插入 Hive 表 - 非分区表到具有多个分区的分区表 - 无法插入目标表，因为列号/类型

当我尝试插入分区表时出现以下错误 SemanticException 错误 10044 第 1 23 行无法插入目标表因为列号类型不同表 insclause 0 有 6 列这 3 列已分区我们不需要任何必须从中转储存储的过滤器
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
使用 Hive 计算文本变量的单词频率

我有一个变量每一行都是一个句子例子 Row1 Hey how are you Rwo2 Hey Who is there 我希望输出是按单词分组的计数 Example Hey 2 How 1 are 1 我正在使用 split a bi

随机推荐

根据父宽度定位绝对顶部属性

有以下 HTML div class child of body This is a text div 和以下 CSS child of body position absolute top 10 我可以设置top所选元素的值我看到10
使用值范围作为键的字典对象

我需要一本专门的词典我的用例是这样的用户想要指定值的范围该范围也可以是单个点并将值分配给特定范围然后我们希望使用单个值作为键来执行查找如果该单个值出现在某个范围内那么我们将返回与该范围关联的值例如 represents th
数组中最常见的值

我将如何找到数组中三个最常见的元素我正在处理长度为 10 000 的数组其元素 0 100 之间的随机整数我正在考虑使用两个数组其中一个长度为 100 并且通过使用 if 语句来递增但是我想知道是否有一种方法可以仅使用一个 fo
在 XML 或 java 文件中编写相同的代码（用于布局）是否存在性能差异？

我知道 XML 和 java 文件中可以执行的操作和不能执行的操作之间存在差异但到目前为止我了解到 java 文件可以执行 XML 文件可以执行的所有操作至少在我正在阅读的书中是这样写的请参阅下面的引用因此我的问题是用 jav
安全地存储 api 凭证

我如何安全地存储 API 凭据如身份验证密钥谷歌地图 API 密钥目前我已将该凭据存储在 strings xml KeygenratorSpec 要求最低 API 级别为 23 有什么方法可以安全地存储任何帮助都会更有帮助我陷入困境2
BigQuery 使用 PHP 流式传输“insertAll”性能

我们使用以下方法将大量数据从服务器端流式传输到 BigQuery 中 google api php 客户端图书馆除了性能之外流媒体工作正常我们的负载测试显示将一行流式传输到 BigQuery 的平均时间为 1000 毫秒 1 秒我
无法向某些控件发送 WM_INPUTLANGCHANGEREQUEST

我正在研究又一个键盘布局切换器并在 Skype 窗口 win7 x64 上的版本 6 22 中遇到了奇怪的问题任意组合GetForegroundWindow GetFocus GetParentWindow 无法成功更改布局仅在消息输
将 Double 值格式化为小数点后两位的最佳方法[重复]

这个问题在这里已经有答案了我在应用程序中处理大量双精度值有没有简单的方法来处理 Java 中十进制值的格式还有比这更好的方法吗 DecimalFormat df new DecimalFormat 我想做的基本上是格式化双值例如 2
为什么 numpy.mean 不是多线程的？

自从我注意到 numpy 它只使用一个核心以来我一直在寻找轻松地对一些简单分析代码进行多线程处理的方法尽管事实上它应该是多线程的我知道 numpy 是为多个核心配置的因为我可以看到使用 numpy dot 的测试使用了我的所有核心
CoreData、多对多关系和 NSPredicate

我有一个包含多对多关系的 CoreData 数据模型事实证明 NSPredicate 不支持多对多关系来自 CoreData pdf 谓词的键路径中只能有一个对多元素作为食谱示例许多食谱和许多成分一份食谱可以有多种成分其中盐
为什么 pytesseract 无法识别这个简单图像中的数字？

我正在尝试使用 pytesseract 识别图像中的两个数字我努力了 psm 6 up to 10 我努力了 c tessedit char whitelist 0123456789 以上均不返回49数字我得到的最近的已返回4没有9 您
*通过共享* JavaScript 对象来测试深度相等

在 JavaScript 中测试两个对象的深度相等这一主题已经有很多墨水了然而似乎没有人关心区分以下两个对象 var o1 var subitem var o2 subitem subitem var o3 大多数深度相等算法会说o1
解析嵌入的CSS beautifulsoup

是否可以从 html 标签中提取嵌入的 css 属性例如假设我想找出 s5 的垂直对齐属性是什么我目前正在使用 beautifulsoup 并已检索了跨度标签tag soup find class s5 我试过了tag attrs c
仅在第一次调用方法时调用该方法的块

我有一个方法在这个方法中我有一个块 public void method block instructions 但这个方法在我的程序中被调用了两次我希望该块仅执行一次并且仅在该方法第一次出现时执行最好最优雅的方式是什么 priva
NHibernate 和版本控制（时间戳）

我得到了这个异常在 System Convert ToDateTime 对象值在 p nhibernate core src NHibernate Type DateTimeType cs 中的 NHibernate Type Date
使用 mybatis 或 ibatis 的一对多关系

我有一个有两个表的数据库 post id post name post desc files file id file name post attachments post id file id 在我的 xml 映射中我已经有了
为什么此插件代码中的 CRM 2011 实体关系为空？

这是我为 CRM 2011 编写的插件的工作示例我已在插件注册工具中为此插件创建了创建步骤这执行得很好我还为该插件注册了一个更新步骤由于返回的主要联系人为空因此执行失败这些步骤都注册为异步 using System us
即使将鼠标悬停后也保持下拉菜单处于活动状态（可见）

当我移动鼠标指针滚动到子菜单后我的子菜单立即消失感觉好像我把 CSS 搞砸了经过几次尝试使其保持活跃后我无法弄清楚我遵循了一些教程看看它他们称之为hover on the ul代替a 主播我尝试了类似的方法但无法达到我想要的
从表列中的 SQL Server 日期值获取月份名称

我想创建一个统计查询显示每月的记录数问题是我希望以字母形式显示月份例如一月二月三月等而不是像 1 2 或 3 那样我没有使用字母表显示月份名称month getdate 我不知道如何进行转换这是我的 SQL Server 查
TIMESTAMP 未按照蜂巢中镶木地板的预期表现

I have parquet读取时的数据 TIMESTAMP列使用 Spark 效果非常好以下是样本记录 scala gt data select BATCH LOAD DATE limit 5 show BATCH LOAD DATE

TIMESTAMP 未按照蜂巢中镶木地板的预期表现

TIMESTAMP 未按照蜂巢中镶木地板的预期表现 的相关文章

随机推荐

热门标签

TIMESTAMP 未按照蜂巢中镶木地板的预期表现的相关文章