amazonemr

AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e

amazonwebservices Hadoop sudo amazonemr

Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit

amazonwebservices apachespark amazons3 parquet amazonemr

如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研

apachespark SparkStreaming amazonemr

Python pip install pyarrow错误，无法执行'cmake'

我尝试在 EMR 集群的主实例上安装 pyarrow 但总是收到此错误 hadoop ip XXX XXX XXX XXX sudo usr bin pip 3 4 install pyarrow Collecting pyarrow Do

python3x CMake pip amazonemr pyarrow

Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp

Java scala apachespark amazonemr

从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业

我在 Eclipse 中有 WordCount MapReduce 示例我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它成功地然后我读到了这篇文章 http docs aws amazon com El

Java jar MapReduce elasticmapreduce amazonemr

纱线堆的使用量随着时间的推移而增长

我们在 AWS EMR 上运行 Spark Streaming 作业该作业将稳定运行 10 到 14 小时然后崩溃并且 stderr stdout 或 Cloudwatch 日志中没有明显错误在此崩溃之后任何重新启动作业的尝试都将

apachespark heapmemory SparkStreaming hadoopyarn amazonemr

将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp

Hadoop amazons3 EMR amazonemr

Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa

Hadoop apachespark amazons3 amazonemr parquet

Amazon MapReduce 日志分析最佳实践

我正在解析 Apache Nginx Darwin 视频流服务器生成的访问日志并按日期引用者用户代理聚合每个交付文件的统计信息每小时都会生成大量日志而且这个数字在不久的将来可能会急剧增加因此通过 Amazon Elastic

Hadoop logging amazons3 amazonemr hadoopstreaming

Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群

我是 PySpark 和 EMR 的新手我尝试通过 Jupyter Notebook 访问 EMR 集群上运行的 Spark 但遇到错误我使用以下代码生成 SparkSession spark SparkSession builder

python PySpark jupyter amazonemr

EMR 如何处理 s3 存储桶的输入和输出？

我正在启动一个 EMR 集群并且已经创建了指定的存储桶在 EMR 文档中 http docs aws amazon com emr latest ManagementGuide emr plan output html 但是我应该如何上传

python apachespark amazonemr

Spark 应用程序在 1 小时后在 EMR 中突然被终止，并且 livy 会话过期。原因和解决方案是什么？

我在 AWS EMR 集群上使用 JupyterHub 我使用的是 EMR 版本 5 16 我使用 pyspark3 笔记本提交了 Spark 应用程序我的应用程序正在尝试将 1TB 数据写入 s3 我正在使用 EMR 的自动缩放功能来缩

PySpark amazonemr livy

S3和EMR数据局部性[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 MapReduce 和 HDFS 的数据局部性非常重要 Spark HBase 也是如此我一直在研究 AWS 以及在云中部署集群时的两个选项

amazonwebservices Hadoop amazons3 amazonec2 amazonemr

pyspark/EMR 中大型 DataFrame 上的collect() 或 toPandas()

我有一个由一台机器 c3 8xlarge 组成的 EMR 集群在阅读了一些资源后我了解到我必须允许相当数量的堆外内存因为我使用的是 pyspark 所以我配置了集群如下执行人一名火花执行器内存 6g Spark executo

pandas apachespark PySpark EMR amazonemr

如何通过Spark Thrift Server访问自定义UDF？

我正在 EMR 上运行 Spark Thrift 服务器我通过以下方式启动 Spark Thrift 服务器 sudo u spark usr lib spark sbin start thriftserver sh queue inte

hive userdefinedfunctions amazonemr sparkthriftserver

在 EMR 中引导期间获取“现有锁 /var/run/yum.pid：另一个副本正在作为 pid 运行...”

我需要在我的 EMR 集群 AMI 3 1 1 中安装 python3 作为引导步骤的一部分所以我添加了以下命令 sudo yum install y python3 但每次我都会收到以下错误 Existing lock var run

yum EMR amazonemr

在 EMR 4.0 中启动 Spark 时出错

我创建了一个EMR 4 0AWS 中的实例以及所有可用的应用程序包括Spark 我通过 AWS 控制台手动完成此操作我启动了集群并在启动时通过 SSH 连接到主节点我跑到那里pyspark 当我收到以下错误时pyspark尝试创造Sp

amazonwebservices apachespark PySpark amazonemr

Spark 中打开的文件太多，中止 Spark 作业

在我的应用程序中我正在读取 40 GB 的文本文件这些文件完全分布在 188 个文件中我拆分此文件并使用 rdd 对在 Spark 中每行创建 xml 文件对于 40 GB 的输入它将创建数百万个小 xml 文件这是我的要求一

apachespark amazons3 apachesparksql Hadoop2 amazonemr

自动 AWS DynamoDB 到 S3 导出失败，并显示“role/DataPipelineDefaultRole 无效”

严格按照以下说明进行操作这一页 http docs aws amazon com amazondynamodb latest developerguide DataPipelineExportImport Exporting html我正在

export amazondynamodb amazonemr amazoniam amazondatapipeline