hadoop 中的 -libjars 问题

2024-01-14

我正在尝试在 Hadoop 上运行 MapReduce 作业，但遇到错误，并且不确定出了什么问题。我必须传递我的映射器所需的库罐子。

我正在终端上执行以下命令：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar /home/hadoop/vardtst.jar -libjars /home/hadoop/clui.jar -libjars /home/hadoop/model.jar gutenberg ou101

我收到以下异常：

在 java.net.URLClassLoader$1.run(URLClassLoader.java:202)

在 java.security.AccessController.doPrivileged（本机方法）

在 java.net.URLClassLoader.findClass(URLClassLoader.java:190)

在 java.lang.ClassLoader.loadClass(ClassLoader.java:306)

在 java.lang.ClassLoader.loadClass(ClassLoader.java:247)

在 java.lang.Class.forName0（本机方法）

在 java.lang.Class.forName(Class.java:247)

在 org.apache.hadoop.util.RunJar.main(RunJar.java:149)

请帮助..谢谢

另外值得注意的是微妙但重要的一点：为运行分布式 MapReduce 任务的 JVM 和运行作业客户端的 JVM 指定附加 JAR 的方式非常不同。

-libjars 使 Jars 仅可用于运行远程映射和化简任务的 JVM
为了使这些相同的 JAR 可用于客户端 JVM（运行 hadoop jar 命令时创建的 JVM），需要设置 HADOOP_CLASSPATH 环境变量：

$ export LIBJARS=/path/jar1,/path/jar2
$ export HADOOP_CLASSPATH=/path/jar1:/path/jar2
$ hadoop jar my-example.jar com.example.MyTool -libjars ${LIBJARS} -mytoolopt value

See: http://grepalex.com/2013/02/25/hadoop-libjars/ http://grepalex.com/2013/02/25/hadoop-libjars/

不正确的 -libjars 行为的另一个原因可能是自定义 Job 类的错误实现和初始化。

职位类别must实现工具接口
配置类实例必须通过调用 getConf() 来获取，而不是创建新实例；

See: http://kickstarthadoop.blogspot.ca/2012/05/libjars-not-working-in-custom-mapreduce.html http://kickstarthadoop.blogspot.ca/2012/05/libjars-not-working-in-custom-mapreduce.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

hadoop 中的 -libjars 问题的相关文章

如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
Java8：使用 Stream / Map-Reduce / Collector 将 HashMap 转换为 HashMap

我知道如何改造一个简单的JavaList from Y gt Z i e List
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
如何在Hadoop中序列化List集合对象？

有没有办法在 Hadoop 中序列化 java 集合 The Writable接口仅适用于 Java 原语我有以下类属性 private String keywords private List
在 Google Cloud Dataproc 环境中使用 Hadoop 流式处理运行 python map reduce 作业时出错

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业我的map reduce python脚本输入文件和作业结果输出位于Google Cloud Storage中
如何用snappy解压hadoop的reduce输出文件尾？

我们的 hadoop 集群使用 snappy 作为默认编解码器 Hadoop作业减少输出文件名就像part r 00000 snappy JSnappy 无法解压缩文件 bcz JSnappy 需要以 SNZ 开头的文件归约输出文件以某种
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
使用mongodb聚合框架按数组长度分组

我有一个看起来像这样的集合 id id0 name saved things id id1 name saved things id id2 name saved things etc 我想使用 mongodb 的聚合框架来得出一个直方图结
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
没有函数映射到名称“coord:formatTime”

我正在尝试使用 oozie 中的以下内容获取当前时间戳
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
Mongodb MapReduce 选择最新日期

我似乎无法让我的 MapReduce 缩减功能正常工作这是我的地图功能 function Map day Date UTC this TimeStamp getFullYear this TimeStamp getMonth this T

随机推荐

我的应用程序中的 Google 地图不可见

当我启动我的应用程序时出现以下错误 V GoogleSignatureVerifier 4962 com myapp application signature not valid Found V GoogleSignatureVerif
创建 Maven 项目，无法解析原型，连接被拒绝

我怀疑我有 Maven 代理问题当我创建一个新项目时 1 文件 gt 新建 gt Maven项目 2 我选择原型在 org apache maven archetypes 中 gt maven 原型 webapp 3 我得到这个错误无
从其他进程获取模块句柄

有没有办法使用 C 从另一个进程获取我知道其名称的模块的句柄 GetModuleHandle and GetModuleHandleEx仅从同一进程获取句柄就很好您可以使用读取进程内存 http msdn microsoft com en
域名可以有两个连续的连字符吗

我在 SO 上查找了几个问题这似乎表明不允许使用两个连续的连字符例如 my website com 但是当我在http www register com index rcmx http www register com index rc
Flask-sqlalchemy - PostgreSQL - 为表定义特定模式？

我想使用flask sqlalchemy 为模型定义特定模式当您在 sqlalchemy 本身中创建表对象时它有一个用于传递模式名称的参数我如何在flask sqlalchemy中做到这一点当您定义模型类时请使用 table
最佳实践 - 在 EntityFramework 中混合表实体与视图实体？

我有一个遗留数据库我想与实体框架进行交互该数据库经过高度规范化用于存储有关航班的信息为了更容易地处理某些数据编写了许多 SQL 视图来扁平化数据并将某些多表连接转换为更多逻辑信息快速查看后我发现在 EF 中使用视图有两个问题
Spring Integration 通道统计指标

不知怎的我没有捕捉到 Spring Integration Metrics 内容我想要的是关于每秒有多少消息通过消息通道最小和最大吞吐量是多少的统计输出如果我使用newTicketChannel getSendRate 然后我变成以
如何使用 cmis 查询过滤文件夹子级？

我想通过一个查询从 cmis 1 0 兼容存储库中过滤文件夹的子级到目前为止这似乎不可能所以我决定执行两个查询来检索子项即文件夹和文档但是仍然想按自定义类型过滤子项因此我有以下查询 SELECT cmis objectTypeI
R：将多个二元列转换为一个因子变量，其因子是二元列

我收到了一个可怕的数据集我正在努力清理它 272 个字符变量和 343 个观察值它由许多二元变量组成这些二元变量可以概括为具有多个因素的一个变量因此不要问您是个体经营者还是受雇者并且给定选项 1 自雇 2 受雇以及可能
Mongoose .find() 方法导致请求挂起

我定义了这条路线但对其发出的任何请求都会陷入待处理状态并永远运行当我记录代码时我看到1其次是4 这意味着 find 方法中的代码永远不会被执行 Calendar routes router get calendars req re
Hive UDF 用于选择除某些列之外的所有列

HiveQL 以及一般的 SQL 中常见的查询构建模式是选择所有列 SELECT 或明确指定的一组列 SELECT A B C SQL 没有内置机制来选择除指定的一组列之外的所有列有多种机制可以排除某些列如中所述这个问题 https s
Visual Studio 2012 - F12 进入 razor renderpartial 停止工作

我正在使用 Visual Studio 2012 和 Resharper 7 如果我有一个 cshtml 视图可以在其中渲染部分视图我可以将标记放在该部分视图的名称上然后按 F12 这将带我到部分视图的文件现在它突然停止工作了而是
关于星形图案

我正在尝试打印下面的星形图案我使用以下逻辑来打印前半部分代码 int i j for i 1 i lt 3 i for j 1 j lt i j System out print for j i 1 j gt 1 j System ou
Google App Engine 中的 PHP header() 重定向

我尝试在 Google App 引擎实例上进行标头重定向 header HTTP 1 1 301 Moved Permanently header Location http location header Connection close
MySQL存储过程，处理多个游标和查询结果

如何在同一个例程中使用两个游标如果我删除第二个游标声明并获取循环则一切正常该例程用于在我的网络应用程序中添加朋友它获取当前用户的 id 和我们要添加为好友的好友的电子邮件然后检查该电子邮件是否具有相应的用户 id 如果不存在好友关
使用 python nmap 模块扫描先前扫描生成的主机

我一直在直接从 python 命令行使用该模块尝试弄清楚它是如何工作的并开始拼凑出我想要编写的脚本将如何工作我想做的是首先进行简单的主机发现扫描例如 n sP PE 然后使用 all hosts 函数生成实际端口扫描的主机列表所以
设置“log4j.properties”文件的绝对路径

我的网络应用程序使用 apache commons log4j 通常 log4j 需要类路径中的配置文件但我需要将日志记录配置委托给外部文件我需要在环境中部署 war 但日志配置最大大小位置等取决于第二个团队我的类路径中有一个
如何在 WebApi OwinHost 启动中使用 Ninject 引导程序？

我正在从 IIS WebAPI 迁移到 OwinHost 利用 nuget 软件包的最新预发布版本我成功地使用了此处的说明 https github com ninject Ninject Web Common wiki Setting
上个月名称的 VBA 代码

我已在电子邮件中添加了如下文本请提供 MMMM 月末的数字其中 MMMM 是上个月的名称今天是四月 MMMM 将显示三月我有以下代码 Dim newDate newDate DateAdd M 1 Now 但结果是 27 03 20
hadoop 中的 -libjars 问题

我正在尝试在 Hadoop 上运行 MapReduce 作业但遇到错误并且不确定出了什么问题我必须传递我的映射器所需的库罐子我正在终端上执行以下命令 hadoop ubuntu usr local hadoop bin hadoop

hadoop 中的 -libjars 问题

hadoop 中的 -libjars 问题 的相关文章

随机推荐

热门标签

hadoop 中的 -libjars 问题的相关文章