elasticmapreduce

适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测

Hadoop amazonwebservices MapReduce amazondynamodb elasticmapreduce

如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使

Java Hadoop MapReduce elasticmapreduce EMR

在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri

Hadoop amazonwebservices Hbase apachezookeeper elasticmapreduce

从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业

我在 Eclipse 中有 WordCount MapReduce 示例我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它成功地然后我读到了这篇文章 http docs aws amazon com El

Java jar MapReduce elasticmapreduce amazonemr

AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo

mysql JDBC apachespark PySpark elasticmapreduce

错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper

Java Hadoop elasticmapreduce

AWS EMR S3DistCp： auxService:mapreduce_shuffle 不存在

我通过 SSH 连接到 AWS EMR v5 4 0 实例并且想要调用 s3distcp 这个链接 http docs aws amazon com emr latest ReleaseGuide UsingEMR s3distcp ht

Hadoop elasticmapreduce

Hadoop 中分布式缓存的生命周期

Hadoop流作业中使用分布式缓存机制将文件传输到节点时作业完成后系统是否会删除这些文件如果它们被删除我认为是这样有没有办法使缓存保留用于多个作业这在 Amazon Elastic Mapreduce 上的工作方式是否相同我正在

Hadoop amazonwebservices elasticmapreduce

AWS Elastic mapreduce 似乎没有正确地将流媒体转换为 jar

我有一个映射器和减速器当我在管道版本中运行它们时它们可以正常工作 cat data csv mapper py sort k1 1 reducer py 我使用了弹性mapreducer向导加载了输入输出引导程序等引导程序成功

python Hadoop amazonwebservices hadoopstreaming elasticmapreduce

使用 Hive、S3、EMR 和恢复分区加载数据

SOLVED 请参阅下面的更新 2 了解此问题的解决方案在 s3 中我有一些 log gz 文件存储在嵌套目录结构中例如 s3 BUCKET y 2012 m 11 d 09 H 10 我正在尝试使用多级分区规范将它们加载到 Ela

Hadoop amazons3 amazonwebservices hive elasticmapreduce

安排 Amazon Elastic MapReduce 作业的工具/方法

我使用 EMR 创建新实例并处理作业然后关闭实例我的要求是定期安排工作一种简单的实施方式是使用石英来触发 EMR 作业但从长远来看我对使用开箱即用的 MapReduce 调度解决方案感兴趣我的问题是 EMR 或 AWS SDK

MapReduce hadoopstreaming elasticmapreduce EMR

将 1 亿个文件写入 s3

我的主要目标是根据每条记录的 id 将记录拆分为文件目前有超过 150 亿条记录而且肯定还会增加我需要一个使用 Amazon EMR 的可扩展解决方案我已经为一个包含大约 9 亿条记录的较小数据集完成了这项工作输入文件采用 csv

Hadoop amazons3 elasticmapreduce amazonemr EMR

使用 s3distcp 将文件从 amazon s3 复制到 hdfs 失败

我正在尝试使用 EMR 中的工作流程将文件从 s3 复制到 hdfs 当我运行以下命令时作业流程成功启动但在尝试将文件复制到 HDFS 时出现错误我是否需要设置任何输入文件权限 Command elastic mapreduce jo

Hadoop amazons3 HDFS elasticmapreduce

AWS EMR 错误：作业流程中的所有从站均已终止

我正在 Amazon AWS 上使用 Elastic Mapreduce 基础设施 jowflow 自动终止根据亚马逊控制台最后一次状态更改原因是作业流程中的所有从站都被终止创建作业流命令 elastic mapreduce cre

amazonwebservices hive elasticmapreduce

我已完成的作业的 AWS EMR 减速器输出在哪里（应该在 S3 上，但那里什么也没有）？

我遇到一个问题即我在 AWS EMR 上的 Hadoop 作业未保存到 S3 当我在较小的样本上运行作业时作业可以很好地存储输出当我在完整数据集上运行相同的命令时作业再次完成但 S3 上不存在任何我指定要输出的内容显然有一个20

amazons3 amazonwebservices elasticmapreduce missingdata

master和reduce之间共享数据

我需要使用所有reduce 任务的结果执行聚合基本上 reduce 任务会找到总和计数以及一个值我需要将所有总和和计数相加并找到最终平均值我尝试使用conf setInt在减少但是当我尝试从主函数访问它时它失败了 class Ma

MapReduce elasticmapreduce

用boto设置hadoop参数？

我正在尝试在我的 Amazon Elastic MapReduce 作业上启用错误输入跳过我正在遵循这里描述的美妙食谱 http devblog factual com practical hadoop streaming dealing

python boto elasticmapreduce

大约持续 2 秒后出现“设备上没有剩余空间”的信息EMR m1.large 实例上有 10 GB 数据

当我使用 m1 large 作为作业流要创建的 hadoop 实例的实例类型来运行 Amazon EMR 作业时我收到错误设备上没有剩余空间该工作产生约最大 10 GB 数据因为 m1 large 实例的容量应该为 420GB 2

Hadoop amazonwebservices amazonec2 elasticmapreduce diskspace