Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
适用于 Hadoop 的 DynamoDB 输入格式
我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它 我对 Dynamo DB 不熟悉 所以我猜测
Hadoop
amazonwebservices
MapReduce
amazondynamodb
elasticmapreduce
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项?
我想知道如何指定mapreduce配置 例如mapred task timeout mapred min split size等等 当使用自定义 jar 运行流作业时 当我们使用 ruby 或 python 等外部脚本语言运行时 我们可以使
Java
Hadoop
MapReduce
elasticmapreduce
EMR
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题
因此 我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群 我的 jar 在地图函数内 我这样调用 Hbase public void map Text key BytesWri
Hadoop
amazonwebservices
Hbase
apachezookeeper
elasticmapreduce
从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业
我在 Eclipse 中有 WordCount MapReduce 示例 我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它 成功地 然后 我读到了这篇文章 http docs aws amazon com El
Java
jar
MapReduce
elasticmapreduce
amazonemr
AWS EMR PySpark 连接到 mysql
我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作 但是当我尝试使用 EMR 时 pyspark 无法正确启动 我在我的机器上使用的命令 pyspark conf spark executo
mysql
JDBC
apachespark
PySpark
elasticmapreduce
错误:java.io.IOException:错误值类:类 org.apache.hadoop.io.Text 不是类 Myclass
我的映射器和减速器如下 但我遇到了某种奇怪的异常 我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
Java
Hadoop
elasticmapreduce
AWS EMR S3DistCp: auxService:mapreduce_shuffle 不存在
我通过 SSH 连接到 AWS EMR v5 4 0 实例 并且想要调用 s3distcp 这个链接 http docs aws amazon com emr latest ReleaseGuide UsingEMR s3distcp ht
Hadoop
elasticmapreduce
Hadoop 中分布式缓存的生命周期
Hadoop流作业中使用分布式缓存机制将文件传输到节点时 作业完成后系统是否会删除这些文件 如果它们被删除 我认为是这样 有没有办法使缓存保留用于多个作业 这在 Amazon Elastic Mapreduce 上的工作方式是否相同 我正在
Hadoop
amazonwebservices
elasticmapreduce
AWS Elastic mapreduce 似乎没有正确地将流媒体转换为 jar
我有一个映射器和减速器 当我在管道版本中运行它们时 它们可以正常工作 cat data csv mapper py sort k1 1 reducer py 我使用了弹性mapreducer向导 加载了输入 输出 引导程序等 引导程序成功
python
Hadoop
amazonwebservices
hadoopstreaming
elasticmapreduce
使用 Hive、S3、EMR 和恢复分区加载数据
SOLVED 请参阅下面的更新 2 了解此问题的 解决方案 在 s3 中 我有一些 log gz 文件存储在嵌套目录结构中 例如 s3 BUCKET y 2012 m 11 d 09 H 10 我正在尝试使用多级分区规范将它们加载到 Ela
Hadoop
amazons3
amazonwebservices
hive
elasticmapreduce
安排 Amazon Elastic MapReduce 作业的工具/方法
我使用 EMR 创建新实例并处理作业 然后关闭实例 我的要求是定期安排工作 一种简单的实施方式是使用石英来触发 EMR 作业 但从长远来看 我对使用开箱即用的 MapReduce 调度解决方案感兴趣 我的问题是 EMR 或 AWS SDK
MapReduce
hadoopstreaming
elasticmapreduce
EMR
将 1 亿个文件写入 s3
我的主要目标是根据每条记录的 id 将记录拆分为文件 目前有超过 150 亿条记录 而且肯定还会增加 我需要一个使用 Amazon EMR 的可扩展解决方案 我已经为一个包含大约 9 亿条记录的较小数据集完成了这项工作 输入文件采用 csv
Hadoop
amazons3
elasticmapreduce
amazonemr
EMR
使用 s3distcp 将文件从 amazon s3 复制到 hdfs 失败
我正在尝试使用 EMR 中的工作流程将文件从 s3 复制到 hdfs 当我运行以下命令时 作业流程成功启动 但在尝试将文件复制到 HDFS 时出现错误 我是否需要设置任何输入文件权限 Command elastic mapreduce jo
Hadoop
amazons3
HDFS
elasticmapreduce
AWS EMR 错误:作业流程中的所有从站均已终止
我正在 Amazon AWS 上使用 Elastic Mapreduce 基础设施 jowflow 自动终止 根据亚马逊控制台 最后一次状态更改原因是 作业流程中的所有从站都被终止 创建作业流命令 elastic mapreduce cre
amazonwebservices
hive
elasticmapreduce
我已完成的作业的 AWS EMR 减速器输出在哪里(应该在 S3 上,但那里什么也没有)?
我遇到一个问题 即我在 AWS EMR 上的 Hadoop 作业未保存到 S3 当我在较小的样本上运行作业时 作业可以很好地存储输出 当我在完整数据集上运行相同的命令时 作业再次完成 但 S3 上不存在任何我指定要输出的内容 显然有一个20
amazons3
amazonwebservices
elasticmapreduce
missingdata
master和reduce之间共享数据
我需要使用所有reduce 任务的结果执行聚合 基本上 reduce 任务会找到总和 计数以及一个值 我需要将所有总和和计数相加并找到最终平均值 我尝试使用conf setInt在减少 但是当我尝试从主函数访问它时它失败了 class Ma
MapReduce
elasticmapreduce
用boto设置hadoop参数?
我正在尝试在我的 Amazon Elastic MapReduce 作业上启用错误输入跳过 我正在遵循这里描述的美妙食谱 http devblog factual com practical hadoop streaming dealing
python
boto
elasticmapreduce
大约持续 2 秒后出现“设备上没有剩余空间”的信息EMR m1.large 实例上有 10 GB 数据
当我使用 m1 large 作为作业流要创建的 hadoop 实例的实例类型来运行 Amazon EMR 作业时 我收到错误 设备上没有剩余空间 该工作产生约 最大 10 GB 数据 因为 m1 large 实例的容量应该为 420GB 2
Hadoop
amazonwebservices
amazonec2
elasticmapreduce
diskspace