Hive 0.12 和 Hadoop 2.2.0-cdh5.0.0-beta2 的 SerDe 问题

2023-12-01

标题有点奇怪，因为我很难缩小问题范围。我在 Hadoop 2.0.0-cdh4.4.0 和 hive 0.10 上使用我的解决方案，没有出现任何问题。

我无法使用此 SerDe 创建表：https://github.com/rcongiu/Hive-JSON-Serde

第一次尝试：

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.hadoop.hive.serde2.objectinspector.primitive.AbstractPrimitiveJavaObjectInspector.<init>(Lorg/apache/hadoop/hive/serde2/objectinspector/primitive/PrimitiveObjectInspectorUtils$PrimitiveTypeEntry;)V

第二次尝试：

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Could not initialize class org.openx.data.jsonserde.objectinspector.JsonObjectInspectorFactory

我可以用这个 SerDe 创建一个表：https://github.com/cloudera/cdh-twitter-example
我使用来自水槽的推文创建了一个外部表。我无法执行“从推文中选择*；”

失败：RuntimeException org.apache.hadoop.hive.ql.metadata.HiveException：失败，异常 java.lang.ClassNotFoundException：com.cloudera.hive.serde.JSONSerDejava.lang.RuntimeException：java.lang.ClassNotFoundException：com.cloudera。 hive.serde.JSONSerDe
我可以从推文中选择 id、文本；
我可以执行 SELECT COUNT(*) FROM tweets；
我无法自行加入该表：

执行日志位于：/tmp/jochen.debie/jochen.debie_20140311121313_164611a9-b0d8-4e53-9bda-f9f7ac342aaf.log 2014-03-11 12:13:30 开始启动本地任务来处理映射加入；最大内存 = 257294336 执行失败，退出状态：2 获取错误信息

任务失败！任务编号：第五阶段

提到的执行日志：

2014-03-11 12:13:30,331 ERROR mr.MapredLocalTask (MapredLocalTask.java:executeFromChildJVM(324)) - Hive Runtime Error: Map local work failed
org.apache.hadoop.hive.ql.metadata.HiveException: Failed with exception java.lang.ClassNotFoundException: com.cloudera.hive.serde.JSONSerDejava.lang.RuntimeException: java.lang.ClassNotFoundException: com.cloudera.hive.serde.JSONSerDe

有谁知道如何解决这个问题，或者至少告诉我问题出在哪里？

编辑：我在 Hadoop 2.0.0-cdh4.4.0 和 hive 0.10 上构建 serde 会是一个问题吗？

据我所知，Hive-.11+ 在与自定义 SerDe 连接时存在错误。

https://github.com/Esri/gis-tools-for-hadoop/issues/9

您可以尝试将包含 SerDe 类的 JAR 文件复制到 $HIVE_HOME/lib 的解决方法。

（我在你的问题中看到你在 join 和其他情况下都遇到了 ClassNotFoundException ；到目前为止，我遇到的都是在 join 中遇到的。）

[编辑] 另一种解决方法是使用 HADOOP_CLASSPATH：

env HADOOP_CLASSPATH=some.jar:other.jar hive ...

[编辑] 解决方法适用于 Hive 版本 0.11 和 0.12；那么 0.13 及更高版本包含以下修复HIVE-6670.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

hive

Cloudera

Hive 0.12 和 Hadoop 2.2.0-cdh5.0.0-beta2 的 SerDe 问题的相关文章

公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
全部配对图表上的所有路径

这可能是一个没有最佳解决方案的问题假设我有一个有向图不知道它是否有循环循环检测将是这个问题的方面之一给定一组顶点可能是数百万个顶点我需要计算给定图的所有唯一对之间的所有不同路径没有重复顶点的路径我该如何应对这种情况让我们看
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否
以不同用户身份运行 MapReduce 作业

我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业该集群不是一个安全集群但它使用简单的组身份验证因此如果我以自己的身份通过 ssh 连接到它
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
hive 中的授予权限在 hdp2.2 上不起作用

我正在 CentOS 6 5 上使用 Ambari 设置来试验 HDP2 2 集群但在运行 Hive GRANT 查询时遇到问题例如一个查询 grant select on Tbl1 to user root 给了我一个看起来像这样的
没有函数映射到名称“coord:formatTime”

我正在尝试使用 oozie 中的以下内容获取当前时间戳
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
从机上的 DiskErrorException - Hadoop 多节点

我正在尝试处理来自 hadoop 的 XML 文件在对 XML 文件调用字数统计作业时出现以下错误 13 07 25 12 39 57 INFO mapred JobClient Task Id attempt 201307251234
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
Hive：为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构如下所示但是实际上没有使用以下命令在表上创建分区ALTER TABLE ADD PARTITION命令即使文件夹结构的设置就像表有分区一样如何自动将所有分区添加到Hive表中 Hive 1 0 外
S3并行读写性能？

考虑 Spark 或任何其他 Hadoop 框架从 S3 读取大型例如 1 TB 文件的场景多个spark执行器如何从S3并行读取非常大的文件在 HDFS 中这个非常大的文件将分布在多个节点上每个节点都有一个数据块在对象存储中
Hive 如何选择除一列之外的所有列？

假设我的表看起来像这样 Col1 Col2 Col3 Col20 Col21 现在我想选择除 Col21 之外的所有内容我想在插入其他表之前将其更改为 unix timestamp 因此简单的方法是执行以下操作 INSERT INTO

随机推荐

.htaccess 重定向域别名/停放域

我有一个与 htaccess 相关的问题例如如果我有两个域 a com 和 b com 全部引用一台主机 b com 是 a com 的域别名我希望访问 a com 的访问者将被引用到带有 www 的 url http www a c
Firebase JS API 身份验证 - 具有不同凭据的帐户存在

我们在尝试解决此问题时遇到了实际问题因此希望获得一些 Firebase 帮助那些已经解决了相同问题的人该应用程序是 React Native 0 43 2 并使用 Firebase JS API 最新我们提供 Facebook 和
为什么不鼓励 setAnimationDidStopSelector ？

我在苹果关于 setAnimationDidStopSelector 的文档中看到以下内容在 iOS 4 0 及更高版本中不鼓励使用此方法如果您使用基于块的动画方法则可以将委托的结束代码直接包含在块内我尝试添加要放入动画块内的动画停
将对象数组转换为单个对象

例如我有以下数组 name abc value 1 name xyz value 2 name abc value 3 name abc value 4 name xyz value 5 现在我想通过分组将该数组减少为单个对象value
SPOJ 你能回答这些问题吗？

我正在尝试解决这个问题SPOJ 我在线段树部分发现了这个问题所以我很确定可能有一些使用线段树的可能解决方案但我无法想出应该存储在树节点中的元数据最大总和可以使用以下公式计算卡丹算法但是如何使用线段树来计算它如果我们只存储某个范围的
找不到颤振命令

这个问题的答案是社区努力编辑现有答案以改进这篇文章目前不接受新的答案或互动显然所有 Flutter 命令都无法在 Android Studio 的终端中运行我相信我正在尝试在项目的根目录下运行它 Output bash flutt
R：将一个（大）数据帧的坐标匹配到另一个（大）数据帧的网格单元

我有一个包含 X Y 坐标的大型数据框约 200 000 行例如 points lt data frame X c 1 3 2 5 4 Y c 4 3 2 2 1 另一个大型数据框约 1 000 000 行包含空间矩形网格的角单
LINQtoSQL 中的多重继承？

伙计们我一直在网上冲浪寻找一种可以在 LINQ To SQL 中使用多表继承的方法但看起来它只支持单表继承这不是在 ORM 框架中实现继承的最佳方式我了解到这个问题将在下一个 LINQ 和实体框架实现中得到解决但我们谈论的停留时
android中如何过滤Json数据？

我正在获取数据json形式就像 Users category id 1 user email email protected category id 5 user email email protected category id 1 us
通过 HTML5 Canvas 上的一组坐标移动对象

我想移动一个物体在这种情况下画圈通过坐标数组例如 300 400 200 300 300 200 400 400 在 HTML5 Canvas 上我可以将对象移动到一个坐标如下所示以下代码在 100 100 处绘制一个圆并将其移
为什么 .ToString() 在空字符串上会导致空错误，而 .ToString() 在具有空值的可空 int 上运行良好？

selectedItem有两个字段 int cost string serialNumber 在这个例子中 cost and serialNumber of selectedItem均为空我正在阅读以下领域selectedItem通过它们
使用常用词按行合并两个数据框[重复]

这个问题在这里已经有答案了 df1 lt data frame freetext c open until monday night one more time to insert your coin numid c 291 312 df2
bcrypt-ruby - 您的应用程序中没有安装 bcrypt-ruby

我是 Ruby on Rails 的初学者并试图从中学习http ruby railstutorial org 我正在创建sample app 但卡在了第 6 章我的Ruby版本 ruby 2 0 0p195 2013 05 14 i3
Javascript二进制文件读取

From here shl function a b for b b a a 0x7fffffff 1 0x40000000 0x40000000 a 2 a 0x40000000 2 0x7fffffff 1 return a readB
RestSharp 响应未经授权

我是基于网络的解决方案的新手我正在使用 RestSharp 库访问休息网址我的代码如下 var cleint new RestClient http REST URL cleint Authenticator new HttpBasic
使用 Visual Studio Code 调试和运行 Angular2 Typescript？

使用 Visual Studio Code 调试和运行 Angular2 Typescript 我正在尝试使用 VS 代码调试 Angular2 typescript 应用程序https angular io guide quickstar
Python 2.7：如何获取类中的静态变量列表？

如果我有一堂课如下 class myclass object i 20 j 30 k 40 def init self self myvariable 50 如何获得包含 i j 和 k 的列表类的静态成员我尝试过使用 x for x
使用 mod_rewrite 实现具有多个变量的友好 URL 的最佳方法是什么？

我正在构建一个 Web 应用程序该应用程序的客户端 js 较多数据从服务器分块推送我正在尝试为友好的 URL 解决方案实现一个解决方案该解决方案采用如下 URL http exmample com find SomethingHer
vba代码中的IE失去连接

我制作了一个宏从 www soccer24 com 网站上抓取信息我想获取主页中每场比赛的所有详细信息我已经编写了代码并且它可以工作但是当宏运行时 IE 连接突然丢失我的意思是宏必须进入同一页面内的 150 个不同网站如下所示
Hive 0.12 和 Hadoop 2.2.0-cdh5.0.0-beta2 的 SerDe 问题

标题有点奇怪因为我很难缩小问题范围我在 Hadoop 2 0 0 cdh4 4 0 和 hive 0 10 上使用我的解决方案没有出现任何问题我无法使用此 SerDe 创建表 https github com rcongiu Hiv

Hive 0.12 和 Hadoop 2.2.0-cdh5.0.0-beta2 的 SerDe 问题

Hive 0.12 和 Hadoop 2.2.0-cdh5.0.0-beta2 的 SerDe 问题 的相关文章

随机推荐

热门标签

Hive 0.12 和 Hadoop 2.2.0-cdh5.0.0-beta2 的 SerDe 问题的相关文章