Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
将 1GB 数据加载到 hbase 需要 1 小时
我想将 1GB 1000 万条记录 的 CSV 文件加载到 Hbase 中 我为它编写了 Map Reduce 程序 我的代码运行良好 但需要 1 小时才能完成 最后一个Reducer 花费了半个多小时的时间 有人可以帮我吗 我的代码如下
Java
Hadoop
MapReduce
Hbase
Hadoop2
在 Spark Java 中将文本文件转换为序列格式
在 Spark Java 中 如何将文本文件转换为序列文件 以下是我的代码 SparkConf sparkConf new SparkConf setAppName txt2seq sparkConf setMaster local set
Hadoop
apachespark
Hadoop2
sequencefile
无法连接到 http://localhost:50030/ - Hadoop 2.6.0 Ubuntu 14.04 LTS
我在 Ubuntu 14 04 LTS 机器上安装了 Hadoop 2 6 0 我能够成功连接到http localhost 50070 我正在尝试连接到http locahost 50030 我的中有以下内容mapred site xml
Ubuntu
Hadoop
Hadoop2
Spark-submit如何设置user.name
想要设置 mapreduce job user name myuser Tried spark submit class com MyClass conf mapreduce job user name myuser conf spark
Hadoop
apachespark
Hadoop2
Amazon Emr - 当我们拥有核心节点时,任务节点需要什么?
我最近在学习Amazon EMR 据我所知 EMR集群让我们选择3个节点 Master 运行主要 Hadoop 守护进程 如 NameNode 作业跟踪器和资源管理器 运行 Datanode 和 Tasktracker 守护进程的核心 仅运
Hadoop
Hadoop2
amazonemr
知道hadoop中数据节点的磁盘空间吗?
有没有一种方法或任何命令可以让我了解每个数据节点的磁盘空间或总集群磁盘空间 我尝试了命令 dfs du h 但似乎我没有权限对许多目录执行它 因此无法获取实际的磁盘空间 From UI http namenode 50070 dfsheal
Hadoop
HDFS
hadoopyarn
Hadoop2
webhdfs
在 Windows 上无需管理员权限运行 Hadoop MR 作业
我已经在Windows中安装了Hadoop 2 3 0并且能够成功执行MR作业 但是 当我尝试以普通权限 无管理员权限 执行 MR 作业时 意味着作业获取失败并出现以下异常 在这里我尝试使用 Pig 脚本示例 2014 10 15 12 0
Java
Windows
Hadoop
MapReduce
Hadoop2
增加 Hadoop 2 中 Hive 映射器的数量
我从 Hive 创建了一个 HBase 表 并尝试对其进行简单的聚合 这是我的 Hive 查询 from my hbase table select col1 count 1 group by col1 地图缩减作业仅产生 2 个映射器 我
Java
Hadoop
hive
Hbase
Hadoop2
Spark on Yarn 容器故障
供参考 我通过在 hadoop share hadoop common 中添加 Netty 4 1 17 解决了这个问题 无论我尝试运行什么jar 包括来自https spark apache org docs latest running
apachespark
Hadoop
hadoopyarn
Hadoop2
MapReduce作业的Map阶段的输出总是排序的吗?
我对从 Mapper 获得的输出有点困惑 例如 当我使用以下输入文本运行一个简单的字数统计程序时 hello world Hadoop programming mapreduce wordcount lets see if this wor
Hadoop
MapReduce
Hadoop2
如何检索 Hdfs 文件中的复制因子信息?
我已为文件设置复制因子 如下所示 hadoop fs D dfs replication 5 copyFromLocal file txt user xxxx When a NameNode重新启动 它确保复制不足的块被复制 因此 文件的复
Hadoop
replication
Hadoop2
Hadoop - 全局排序平均值以及 MapReduce 中何时发生
我在用Hadoop 流 JAR for 字数 我想知道我怎样才能得到全局排序 根据SO中另一个问题的回答 我发现当我们使用只需一台减速机我们可以得到全局排序 但在我的结果中numReduceTasks 1 一个减速器 它不是排序的 例如 我
Sorting
MapReduce
Hadoop2
reduce
hadoopstreaming
如何在 Spark 中向 Kryo 注册 InternalRow
我想使用 Kryo 序列化运行 Spark 因此我设置spark serializer org apache spark serializer KryoSerializer and spark kryo registrationRequir
Hadoop
apachespark
apachesparksql
Hadoop2
kryo
错误:E0708:E0708:无效转换
使用这个tutorial https blogs oracle com datawarehousing entry building simple workflows in oozie我为配置单元脚本创建了工作流程 但当我运行以下命令时出现
Hadoop
oozie
Hadoop2
一个 Hive 脚本可以从另一个 Hive 脚本运行吗?
我创建了两个配置单元脚本 script1 hql 和 script2 hql 是否可以从 script1 hql 运行脚本 script2 hql 我读到了有关使用 source 命令的信息 但无法回避它的使用 任何指针 参考文档将不胜感激
Hadoop
hive
HiveQL
Hadoop2
如何从本地 Hadoop 2.6 安装访问 S3/S3n?
我正在尝试在本地计算机上重现 Amazon EMR 集群 为此 我安装了目前 Hadoop 的最新稳定版本 2 6 0 http ftp cixug es apache hadoop common hadoop 2 6 0 现在我想访问 S
Hadoop
amazonwebservices
amazons3
hadoopyarn
Hadoop2
组合器在哪里组合映射器输出 - 在映射阶段或映射减少作业中的减少阶段?
我的印象是组合器就像作用于本地映射任务的减速器一样 即它聚合单个映射任务的结果以减少输出传输的网络带宽 并且从阅读中Hadoop The definitive guide 3rd edition 我的理解似乎是正确的 摘自第 2 章 第 3
Hadoop
MapReduce
Hadoop2
Hadoop 节点管理器不满足最小分配
Hadoop 节点管理器不满足最小分配 我收到以下错误 org apache hadoop yarn exceptions YarnRuntimeException 已收到 来自Resourcemanager的SHUTDOWN信号 Node
Hadoop2
将文件放在 HDFS 上,名称中包含空格
我有一个名为file name 1 zip 里面有空格和括号 我想把这个文件放在HDFS上 但每次我尝试把它通过hadoop fs put 我得到一个例外 我什至尝试在文件周围添加引号 甚至尝试转义空格和括号 但它不起作用 hduser l
HDFS
Hadoop2
我应该在 1.x、2.2 和 0.23 中选择哪个 hadoop 版本
您好 我是 Hadoop 新手 对版本名称非常困惑 我应该使用 1 x 强大的支持和学习资源 2 2 或 0 23 中的哪一个 我读到 hadoop 正在从 v0 23 完全迁移到 YARN link1 但与此同时 整个网络都在说 hado
Hadoop
Hadoop2
«
1
2
3
»