Hadoop2

将 1GB 数据加载到 hbase 需要 1 小时

我想将 1GB 1000 万条记录的 CSV 文件加载到 Hbase 中我为它编写了 Map Reduce 程序我的代码运行良好但需要 1 小时才能完成最后一个Reducer 花费了半个多小时的时间有人可以帮我吗我的代码如下

Java Hadoop MapReduce Hbase Hadoop2

在 Spark Java 中将文本文件转换为序列格式

在 Spark Java 中如何将文本文件转换为序列文件以下是我的代码 SparkConf sparkConf new SparkConf setAppName txt2seq sparkConf setMaster local set

Hadoop apachespark Hadoop2 sequencefile

无法连接到 http://localhost:50030/ - Hadoop 2.6.0 Ubuntu 14.04 LTS

我在 Ubuntu 14 04 LTS 机器上安装了 Hadoop 2 6 0 我能够成功连接到http localhost 50070 我正在尝试连接到http locahost 50030 我的中有以下内容mapred site xml

Ubuntu Hadoop Hadoop2

Spark-submit如何设置user.name

想要设置 mapreduce job user name myuser Tried spark submit class com MyClass conf mapreduce job user name myuser conf spark

Hadoop apachespark Hadoop2

Amazon Emr - 当我们拥有核心节点时，任务节点需要什么？

我最近在学习Amazon EMR 据我所知 EMR集群让我们选择3个节点 Master 运行主要 Hadoop 守护进程如 NameNode 作业跟踪器和资源管理器运行 Datanode 和 Tasktracker 守护进程的核心仅运

Hadoop Hadoop2 amazonemr

知道hadoop中数据节点的磁盘空间吗？

有没有一种方法或任何命令可以让我了解每个数据节点的磁盘空间或总集群磁盘空间我尝试了命令 dfs du h 但似乎我没有权限对许多目录执行它因此无法获取实际的磁盘空间 From UI http namenode 50070 dfsheal

Hadoop HDFS hadoopyarn Hadoop2 webhdfs

在 Windows 上无需管理员权限运行 Hadoop MR 作业

我已经在Windows中安装了Hadoop 2 3 0并且能够成功执行MR作业但是当我尝试以普通权限无管理员权限执行 MR 作业时意味着作业获取失败并出现以下异常在这里我尝试使用 Pig 脚本示例 2014 10 15 12 0

Java Windows Hadoop MapReduce Hadoop2

增加 Hadoop 2 中 Hive 映射器的数量

我从 Hive 创建了一个 HBase 表并尝试对其进行简单的聚合这是我的 Hive 查询 from my hbase table select col1 count 1 group by col1 地图缩减作业仅产生 2 个映射器我

Java Hadoop hive Hbase Hadoop2

Spark on Yarn 容器故障

供参考我通过在 hadoop share hadoop common 中添加 Netty 4 1 17 解决了这个问题无论我尝试运行什么jar 包括来自https spark apache org docs latest running

apachespark Hadoop hadoopyarn Hadoop2

MapReduce作业的Map阶段的输出总是排序的吗？

我对从 Mapper 获得的输出有点困惑例如当我使用以下输入文本运行一个简单的字数统计程序时 hello world Hadoop programming mapreduce wordcount lets see if this wor

Hadoop MapReduce Hadoop2

如何检索 Hdfs 文件中的复制因子信息？

我已为文件设置复制因子如下所示 hadoop fs D dfs replication 5 copyFromLocal file txt user xxxx When a NameNode重新启动它确保复制不足的块被复制因此文件的复

Hadoop replication Hadoop2

Hadoop - 全局排序平均值以及 MapReduce 中何时发生

我在用Hadoop 流 JAR for 字数我想知道我怎样才能得到全局排序根据SO中另一个问题的回答我发现当我们使用只需一台减速机我们可以得到全局排序但在我的结果中numReduceTasks 1 一个减速器它不是排序的例如我

Sorting MapReduce Hadoop2 reduce hadoopstreaming

如何在 Spark 中向 Kryo 注册 InternalRow

我想使用 Kryo 序列化运行 Spark 因此我设置spark serializer org apache spark serializer KryoSerializer and spark kryo registrationRequir

Hadoop apachespark apachesparksql Hadoop2 kryo

错误：E0708：E0708：无效转换

使用这个tutorial https blogs oracle com datawarehousing entry building simple workflows in oozie我为配置单元脚本创建了工作流程但当我运行以下命令时出现

Hadoop oozie Hadoop2

一个 Hive 脚本可以从另一个 Hive 脚本运行吗？

我创建了两个配置单元脚本 script1 hql 和 script2 hql 是否可以从 script1 hql 运行脚本 script2 hql 我读到了有关使用 source 命令的信息但无法回避它的使用任何指针参考文档将不胜感激

Hadoop hive HiveQL Hadoop2

如何从本地 Hadoop 2.6 安装访问 S3/S3n？

我正在尝试在本地计算机上重现 Amazon EMR 集群为此我安装了目前 Hadoop 的最新稳定版本 2 6 0 http ftp cixug es apache hadoop common hadoop 2 6 0 现在我想访问 S

Hadoop amazonwebservices amazons3 hadoopyarn Hadoop2

组合器在哪里组合映射器输出 - 在映射阶段或映射减少作业中的减少阶段？

我的印象是组合器就像作用于本地映射任务的减速器一样即它聚合单个映射任务的结果以减少输出传输的网络带宽并且从阅读中Hadoop The definitive guide 3rd edition 我的理解似乎是正确的摘自第 2 章第 3

Hadoop MapReduce Hadoop2

Hadoop 节点管理器不满足最小分配

Hadoop 节点管理器不满足最小分配我收到以下错误 org apache hadoop yarn exceptions YarnRuntimeException 已收到来自Resourcemanager的SHUTDOWN信号 Node

Hadoop2

将文件放在 HDFS 上，名称中包含空格

我有一个名为file name 1 zip 里面有空格和括号我想把这个文件放在HDFS上但每次我尝试把它通过hadoop fs put 我得到一个例外我什至尝试在文件周围添加引号甚至尝试转义空格和括号但它不起作用 hduser l

HDFS Hadoop2

我应该在 1.x、2.2 和 0.23 中选择哪个 hadoop 版本

您好我是 Hadoop 新手对版本名称非常困惑我应该使用 1 x 强大的支持和学习资源 2 2 或 0 23 中的哪一个我读到 hadoop 正在从 v0 23 完全迁移到 YARN link1 但与此同时整个网络都在说 hado

Hadoop Hadoop2