如何在spark中读取orc事务hive表？

2023-12-19

我在通过 Spark 读取 ORC 事务表时遇到问题我获得了配置单元表的架构，但无法读取实际数据

查看完整场景：

hive> create table default.Hello(id int,name string) clustered by
(id) into 2 buckets STORED AS ORC TBLPROPERTIES
('transactional'='true');
   
hive> insert into default.hello values(10,'abc');

现在我正在尝试从 Spark sql 访问 Hive Orc 数据，但它显示唯一的模式

>spark.sql("select * from  hello").show()

输出：id,名称

是的，作为一种解决方法，我们可以使用压缩，但是当作业是微批量压缩时，压缩将无济于事。所以我决定使用 JDBC 调用。请在下面的链接中参考我对此问题的回答或参考我的 GIT 页面 -https://github.com/Gowthamsb12/Spark/blob/master/Spark_ACID https://github.com/Gowthamsb12/Spark/blob/master/Spark_ACID

这个问题请参考我的回答 https://stackoverflow.com/questions/53199369/how-to-access-the-hive-acid-table-in-spark-sql/56233085#56233085

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在spark中读取orc事务hive表？的相关文章

将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
如何在 Spark Dataframe 中显示完整的列内容？

我正在使用 Spark csv 将数据加载到 DataFrame 中我想做一个简单的查询并显示内容 val df sqlContext read format com databricks spark csv option header
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
如何在SparkR中进行map和reduce

如何使用 SparkR 进行映射和归约操作我能找到的只是有关 SQL 查询的内容有没有办法使用 SQL 进行映射和减少 See 写入从 SparkR map 返回的 R 数据帧 https stackoverflow com quest
Apache Spark：Yarn 日志分析

我有一个 Spark streaming 应用程序我想使用 Elasticsearch Kibana 分析作业的日志我的工作在纱线集群上运行因此日志将按照我的设置写入 HDFSyarn log aggregation enable为真
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
HIVE - 使用WITH CLAUSE插入覆盖

我有一个生成的查询以WITH子句开头当我在控制台中运行它时当我尝试使用INSERT OVERWRITE运行查询以将输出加载到单独的配置单元表中时该查询工作正常 INSERT OVERWRITE TABLE proc db master
Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap

我正在将 Spark 2 4 项目升级到 Spark 3 x 我们遇到了一些现有 Spark ml 代码的问题 var stringIndexers Array StringIndexer for featureColumn lt FEAT
找不到 hadoop 安装：必须设置 $HADOOP_HOME 或 hadoop 必须位于路径中

所以有一点背景我一直在尝试在 CentOS 6 机器上设置 Hive 我按照 YouTube 视频的说明进行操作 http www youtube com watch v L2lSrHsRpOI http www youtube com
pyspark中的函数input()

我的问题是当我输入 p 的值时没有任何反应它不执行请问有办法修复它吗 import sys from pyspark import SparkContext sc SparkContext local simple App p inp
如何在 Scala 中将 DataFrame 模式写入文件

我有一个 DataFrame 它从一个巨大的 json 文件加载并从中获取架构该架构基本上大约有 1000 列我希望将 printSchema 的相同输出保存在文件中而不是控制台中有任何想法吗如果您在本地环境中工作您可以执行以下操

随机推荐

在 cytoscape 中鼠标悬停时显示和隐藏节点信息

我正在浏览器中处理 cytoscape js 图表我想当鼠标悬停在细胞景观图中的节点上时显示节点的一些信息例如节点标签以下代码适用于console log 但我想在浏览器中显示信息 cy on mouseover node funct
静态字段是否开放用于垃圾回收？

给定一个仅在程序设置中使用的假设实用程序类 class MyUtils private static MyObject myObject new MyObject package static boolean doStuff Params
如何在 SQL Server 2008 中同时为多个表设置 IDENTITY_INSERT ON

我有两张桌子tblData1 and tblData2现在我想使用身份插入从另一个表迁移记录我正在尝试运行如下所示的命令 SET IDENTITY INSERT LP1 dbo tblData1 ON GO SET IDENTITY IN
我如何知道 MovieClip 何时放置在舞台上完成播放？

MovieClip mcName play MovieClip mcName addEventListener myStopFunction 或者你对比赛结束的了解有何不同 MovieClip 是一个外部文件根据需要加载到 swf 中使
如何使用aws-sdk Javascript获取EC2公共IP

我想使用 aws sdk for Javascript 获取 EC2 实例的公共 IP 执行下面的代码后返回结果为 Reservations use strict const AWS require aws sdk AWS config
我可以在 R 中使用pairs()函数并绘制默认图的子集吗？

我试图找到选定的目标变量与数据集中的其他变量之间的关系例如如果我考虑自动数据集我会得到以下图假设我的目标变量是mpg library ISLR pairs Auto 情节的图像 https i stack imgur com f3H
服务器之间的资产指纹不同

我正在将 Rails 3 2 14 应用程序部署到两台不同的服务器在它们前面有一个负载均衡器目前正在服务器上预编译资产通过 capistrano 部署由于某种原因两台服务器上的 application js 文件上的指纹不同源文
在 JavaScript 中使用 var 而不是 let 的原因有哪些？ [复制]

这个问题在这里已经有答案了使用新关键字let对于 javascript ES6 中的变量声明我无法再想出使用的充分理由var 到目前为止我一直在这样做并且我没有看到使用的任何缺点let每时每刻使用的充分理由是什么var今天这是一
如何在 MYSQL 中获取第二个最大日期

我想从 mysql 数据库获取我的记录我想从记录中获取第二个最大日期但我失败了这是我的代码
Windows 上的 Dockererized Kong 给出“从上游服务器收到无效响应”

请帮助我因为我在使用 Dockerized Kong 从 REST 端点获取数据时收到从上游服务器收到无效响应错误我尝试使用 Kong 访问的 REST 服务正在我的本地主机上运行 Kong请求添加API curl i X POST
将实体绑定到 Windows DataGridView

我有一个绑定到 DataGridView 的 EF 源绑定是以编程方式发生的但是排序不起作用所以我决定搞乱一些代码并创建一个扩展方法但它似乎仍然不起作用 public static class BindingListEntityE
数组的反序列化不支持类型

我正在尝试对数组进行反序列化但我不断遇到错误 JavaScriptSerializer jsonSerializer new JavaScriptSerializer Profiles thingy jsonSerializer Dese
如何使用nodejs禁用tls 1.0并仅使用tls 1.1

我想禁用 TLS v1 0 并仅使用 TLS 1 1 及更高版本通过nodejs 我使用https模块如何设置https选项我已阅读 api 文档节点 API TLS https nodejs org api tls html 但我还
片段 setuserVisibleHint true 但 getActivity 返回 null

我一直在片段内部做一些逻辑setUserVisibleHint 方法我一直在检查是否isVisibleToUser为 true 然后使用getActivity返回活动在我将支持库更新到最新版本之前这一切都运行良好 100 的时间 su
当鼠标停止移动时执行Jquery

我有一个快速脚本其轨迹跟随光标 jQuery document ready function document mousemove function e fall each function if this css opacity 0 t
SQL：使 COUNT(*) > 1 高效

如果你想知道是否COUNT gt 0 那么你可以使用EXISTS使查询更加高效当我想知道是否可以时有没有一种方法可以使查询更有效COUNT gt 1 需要与 SQL Server 和 Oracle 兼容谢谢杰米 Edit 我正在尝试
Dapper 支持 like 运算符吗？

使用 Dapper dot net 以下在数据对象中不会产生任何结果 var data conn Query select top 25 Term as Label Type ID from SearchTerms WHERE Term l
线程安全和非线程安全 PHP Windows 安装包之间有哪些技术差异？

我目前正准备为基于 Apache Windows 的开发环境安装 PHP 但似乎我即将遇到第一个障碍选择要安装的正确包 PHP 的可用版本不少于four口味 http windows php net download VC9 x86 非线
R：简单乘法导致整数溢出

在较长的脚本中我必须将向量 A 的长度 2614 乘以数据帧 B 的行数 1456000 如果我直接这样做length A nrow B 我收到消息NAs produced by integer overflow尽管当我乘以相同的数字时没
如何在spark中读取orc事务hive表？

如何在spark中读取orc事务hive表我在通过 Spark 读取 ORC 事务表时遇到问题我获得了配置单元表的架构但无法读取实际数据查看完整场景 hive gt create table default Hello id int

如何在spark中读取orc事务hive表？

如何在spark中读取orc事务hive表？ 的相关文章

随机推荐

热门标签

如何在spark中读取orc事务hive表？的相关文章