如何使用 Scala 从 Spark 更新 ORC Hive 表

2024-05-19

我想更新 orc 格式的 hive 表，我可以从 ambari hive 视图进行更新，但无法从 sacla (spark-shell) 运行相同的更新语句

objHiveContext.sql("select * from table_name ") 能够看到数据，但是当我运行时

objHiveContext.sql("update table_name set column_name='testing' ") 无法运行，一些 Noviable 异常（更新附近的语法无效等）发生在我能够从 Ambari 视图更新的地方（因为我设置了所有必需的配置）即 TBLPROPERTIES "orc.compress"="NONE" 事务 true 等）

尝试使用 Insert into using case 语句，但不能我们可以从 Spark 更新 hive ORC 表吗？如果是的话，程序是什么？

下面导入

import org.apache.spark.SparkConf
import org.apache.spark.SparkConf
import org.apache.spark._
import org.apache.spark.sql._
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.hive.orc._

注意：我没有在该表上应用任何分区或存储桶如果我应用分桶，我什至无法查看存储为 ORC 的数据蜂巢版本：1.2.1 火花版本：1.4.1 斯卡拉版本：2.10.6

您是否根据下面的链接尝试过使用 SaveMode.Append 的 DataFrame.write API？

http://spark.apache.org/docs/latest/sql-programming-guide.html#manually-specifying-options http://spark.apache.org/docs/latest/sql-programming-guide.html#manually-specifying-options

使用“orc”作为格式，“append”作为保存模式。示例在上面的链接中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

HiveQL

hivecontext

如何使用 Scala 从 Spark 更新 ORC Hive 表的相关文章

PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
错误：协变类型 A 出现在逆变位置

我试图写一个不可变的Matrix A 班级我希望该类是协变的A但是当我把在前面A编译器开始抱怨类中的某些操作以下是我的相关子集Matrix类实际类比以下子集大 5 倍左右 class Matrix A private val co
Scala 和变量中的模式匹配

我是 Scala 新手有点想知道模式匹配是如何工作的想象一下我有以下内容 case class Cls i Int case b Cls i gt Ok case e Cls gt Ok case f Cls gt Ok case s
Scala：如何在超类上实现克隆方法，并在子类中使用它？

我可能会以错误的方式处理这个问题但我想要一个像这样的对象 class MyDataStructure def myClone val clone new MyDataStructure do stuff to make clone the
Scala 模式匹配变量绑定

为什么提取器返回时不能以样式绑定变量Option
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Scala 中的 Shapeless 结构编程：如何正确使用 SYB 实现？

我想使用SYB http research microsoft com en us um people simonpj papers hmap 实施于无形图书馆 https github com milessabin shapeless编写
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
分析 sbt 构建

我的 sbt 构建需要很长时间它又大又复杂很难知道从哪里开始清理看起来 sbt 保留了很多关于构建结构的元数据包括相互依赖关系命名任务范围界定等有了所有这些元数据似乎很容易跳入并测量每个不同任务及其范围花费的时间在代码
scala play框架如何对异步控制器进行单元测试

使用 Scala play 2 5 版并尝试遵循以下文档中的单元测试控制器指南 https www playframework com documentation 2 5 x ScalaTestingWithScalaTest https
将 yaml 中的列表映射到 Scala 中的对象列表（Spring Boot）

背景我已经阅读了很多关于如何使用的示例ConfigurationProperties从配置中读取列表见下文 https github com konrad garus so yaml https github com konrad ga
Akka 2 中的调度程序有哪些差异和使用模式？

我很难理解它们的差异和推荐用法Akka 2 中的调度程序 http doc akka io docs akka current scala dispatchers html 我想我明白了平衡调度程序 http doc akka io api
Spark 执行器登录 YARN

我正在 Cloudera 集群上以 YARN 客户端模式启动分布式 Spark 应用程序一段时间后我在 Cloudera Manager 上看到一些错误一些执行者会断开连接并且这种情况会系统性地发生我想调试该问题但 YARN 未
如何在 Spark Dataframe 中显示完整的列内容？

我正在使用 Spark csv 将数据加载到 DataFrame 中我想做一个简单的查询并显示内容 val df sqlContext read format com databricks spark csv option header
在 Scala 中调用 WebSocket 中的方法

我是 scala Play 框架和 Akka 的新手我的函数定义为 def socket WebSocket accept String String request gt ActorFlow actorRef out gt MyWebS
如何定义与更高类型类型（类型构造函数）绑定的上下文

我尝试过以下方法 def test Option T Ordering value1 Option T value2 Option T val e implicitly Ordering Option T compare value1 va
您可以为 None 指定类型参数或告诉编译器它是一个 Option[String] 吗？

我想知道我是否可以在我的代码中写这样的东西 None String 我很惊讶没有人提到它的存在Option empty scala gt Option empty String res0 Option String None 请注意在许多

随机推荐

在 React Native 中从父组件调用子函数

我正在开发我的第一个 React Native 应用程序我想要实现的是从父组件执行子函数情况如下 Child export default class Child extends Component myfunct function c
如何将一个变量的字符串分配给另一变量？

这是我在这个网站上的第一个问题如何将一个变量的字符串分配给另一变量我在这里做错了什么 include
Vaadin 网格表：如何禁用排序功能并设置一列的颜色

我在用着GridVaadin 中的表用于数据表示为此我试图弄清楚以下两个问题 1 如何禁用每列标题中的排序功能 2 如何设置表格中某一列的颜色Grid table 首先我找到了Vaadin 文档 https vaadin com do
使用 ng-table 角度计算列的总和

我正在使用 Angular ng table 以表格形式绘制数值数据我无法弄清楚如何在表末尾引入一行该行显示每列所有值的总和我可以在服务器端计算数据并将其呈现在用户界面中但有没有办法在 ng table ng grid 中实现这一点
在 grunt 中禁用 livereload (yeoman)

当我运行 gruntserve 时它会自动在 index html 中注入以下代码我不希望这种事发生我该如何禁用它我尝试了所有提到的选项here https stackoverflow com questions 12830159
Python 中的 grep 等价物是什么？

假设我有一个文本文件其中包含我喜欢大象这一行如果我捕获所述文件并将其通过管道发送到 grep大象我会得到整行我喜欢大象如何使用 re 在 Python 中实现此功能我一直在尝试以下方法 test re search elep
使用 React.js + Express.js 发送电子邮件

我在 ES6 中使用 React js 构建了一个 Web 应用程序我目前想要创建一个基本的联系我们页面并想要发送电子邮件我是 React 新手刚刚发现我实际上无法使用 React 本身发送电子邮件我正在遵循教程nodemail
如何在 django-rest 中处理 M2M 关系

让我们从 django 文档中使用的有关 M2M 关系的模型开始该模型使用 through 参数来指向将充当中介的模型 class Person models Model name models CharField max length
标准标头上的 Visual Studio 2017 错误

我刚刚升级到 Visual Studio 2017 Community Edition 但在加载标准头文件时遇到问题我从各种头文件中收到 507 错误以下是一些片段一些错误 Severity Code Description Proj
更新项目时，NUMBER_VALUE 无法转换为字符串

我在 DynamoDB 上遇到了这个奇怪的问题我似乎无法更新项目这是我的命令 TableName UserTable Key UID S h4XJj3YRxZiF7TDcGkxAhc UpdateExpression SET numRa
如何释放字符指针数组？

我使用此方法将列表中的值转换为数组以便在 execvp 系统调用中使用 char list2argarray struct shellvalue values int count char array char malloc count
在新实例中打开 SAS 程序

我正在尝试找出一种在单击时默认在增强编辑器的新实例中打开 SAS 程序的方法问题是asked https stackoverflow com questions 4654876 open sas program in new window
如何获取结构体中任意成员的位位置

如何获取结构体中任意成员的位位置在示例中 gt typedef struct BitExamStruct unsigned int v1 3 unsigned int v2 4 unsigned int v3 5 unsigned int
在 Xcode 5.1 中构建时，“您必须提供 5.5 英寸 Retina 显示屏的屏幕截图，因为您的应用程序二进制文件支持 5.5 英寸 Retina 显示屏”

我更新了一个旧应用程序并修复了一些小错误该应用程序是使用 Xcode 5 1 编译的无法使用资产目录或添加 iPhone 6 和 6 Plus 图像但当我尝试提交它进行审查时我仍然收到此错误您必须提供 4 7 英寸 Retina
“printf”在 Windows 非控制台应用程序中写入何处？

如果我选择创建 Windows 非控制台应用程序并实施printf cout在代码中在哪里printf cout写它是否写到stdout缓冲如果是有什么办法可以读取它stdout并将其打印到某个文本文件或执行MessageBox与
将图像编码为base64有什么效果？

如果我将图像 jpg 或 png 转换为 base64 那么它会更大还是具有相同的大小会大多少呢是否建议在我的网站上使用 Base64 编码的图像大约会大 37 非常粗略地说 Base64 编码的二进制数据的最终大小等于原始数据大小
R Shiny：如何将无功值从闪亮模块返回到主服务器功能？

我有一个简单的玩具示例它使用 add removeBtn 模块在第一个模块中添加和删除 UI 我需要跟踪单击添加删除的次数如果我不使用模块这很容易但我试图在嵌套模块的上下文中执行此操作代码如下但基本上我似乎无法访问主
在 Borland C++ Builder 6 中使用帧缓冲区对象 (FBO)

我对帧缓冲区对象 FBO 的命令 glGenFramebuffersEXT 有访问冲突 void TGLForm DrawScene wglMakeCurrent ghDC ghRC glEnable GL TEXTURE 2D GLui
从旧的外部 Javascript 更改 React 组件的状态？

如何从旧的 jQuery soup 中更改 React 组件的状态代码我有一个这样的组件 var AComponent React createClass getInitialState function return ids rend
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能

如何使用 Scala 从 Spark 更新 ORC Hive 表

如何使用 Scala 从 Spark 更新 ORC Hive 表 的相关文章

随机推荐

热门标签

如何使用 Scala 从 Spark 更新 ORC Hive 表的相关文章