Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
AWS EMR 引导操作为 sudo
我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例 整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
amazonwebservices
Hadoop
sudo
amazonemr
Spark s3 写入(s3 与 s3a 连接器)
我正在从事一项在 EMR 上运行的作业 它在 s3 上保存了数千个分区 分区为年 月 日 我有过去 50 年的数据 现在 当 Spark 写入 10000 个分区时 使用以下命令大约需要 1 小时s3a联系 它非常慢 df repartit
amazonwebservices
apachespark
amazons3
parquet
amazonemr
如何访问 Spark Streaming 应用程序的统计端点?
从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息 我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时 它给我的只是错误消息 没有附加到的流侦听器 我已经深入研
apachespark
SparkStreaming
amazonemr
Python pip install pyarrow错误,无法执行'cmake'
我尝试在 EMR 集群的主实例上安装 pyarrow 但总是收到此错误 hadoop ip XXX XXX XXX XXX sudo usr bin pip 3 4 install pyarrow Collecting pyarrow Do
python3x
CMake
pip
amazonemr
pyarrow
Spark SQL 失败,因为“常量池已超过 JVM 限制 0xFFFF”
我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Java
scala
apachespark
amazonemr
从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业
我在 Eclipse 中有 WordCount MapReduce 示例 我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它 成功地 然后 我读到了这篇文章 http docs aws amazon com El
Java
jar
MapReduce
elasticmapreduce
amazonemr
纱线堆的使用量随着时间的推移而增长
我们在 AWS EMR 上运行 Spark Streaming 作业 该作业将稳定运行 10 到 14 小时 然后崩溃 并且 stderr stdout 或 Cloudwatch 日志中没有明显错误 在此崩溃之后 任何重新启动作业的尝试都将
apachespark
heapmemory
SparkStreaming
hadoopyarn
amazonemr
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径
我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶 我认识到我可以直接在 Spark 中写入 S3 但原则上 之后执行它也应该很简单 到目前为止 我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Hadoop
amazons3
EMR
amazonemr
Spark 2.0 弃用了“DirectParquetOutputCommitter”,没有它如何生活?
最近 我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移 我们意识到 Spark SaveAsTable 镶木地板格式 写入 S3 的速度比 HDFS 慢约 4 倍 但我们发现使用 DirectPa
Hadoop
apachespark
amazons3
amazonemr
parquet
Amazon MapReduce 日志分析最佳实践
我正在解析 Apache Nginx Darwin 视频流服务器 生成的访问日志 并按日期 引用者 用户代理聚合每个交付文件的统计信息 每小时都会生成大量日志 而且这个数字在不久的将来可能会急剧增加 因此通过 Amazon Elastic
Hadoop
logging
amazons3
amazonemr
hadoopstreaming
Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群
我是 PySpark 和 EMR 的新手 我尝试通过 Jupyter Notebook 访问 EMR 集群上运行的 Spark 但遇到错误 我使用以下代码生成 SparkSession spark SparkSession builder
python
PySpark
jupyter
amazonemr
EMR 如何处理 s3 存储桶的输入和输出?
我正在启动一个 EMR 集群 并且已经创建了指定的存储桶在 EMR 文档中 http docs aws amazon com emr latest ManagementGuide emr plan output html 但是我应该如何上传
python
apachespark
amazonemr
Spark 应用程序在 1 小时后在 EMR 中突然被终止,并且 livy 会话过期。原因和解决方案是什么?
我在 AWS EMR 集群上使用 JupyterHub 我使用的是 EMR 版本 5 16 我使用 pyspark3 笔记本提交了 Spark 应用程序 我的应用程序正在尝试将 1TB 数据写入 s3 我正在使用 EMR 的自动缩放功能来缩
PySpark
amazonemr
livy
S3和EMR数据局部性[关闭]
Closed 这个问题是基于意见的 help closed questions 目前不接受答案 MapReduce 和 HDFS 的数据局部性非常重要 Spark HBase 也是如此 我一直在研究 AWS 以及在云中部署集群时的两个选项
amazonwebservices
Hadoop
amazons3
amazonec2
amazonemr
pyspark/EMR 中大型 DataFrame 上的collect() 或 toPandas()
我有一个由一台机器 c3 8xlarge 组成的 EMR 集群 在阅读了一些资源后 我了解到我必须允许相当数量的堆外内存 因为我使用的是 pyspark 所以我配置了集群如下 执行人一名 火花 执行器 内存 6g Spark executo
pandas
apachespark
PySpark
EMR
amazonemr
如何通过Spark Thrift Server访问自定义UDF?
我正在 EMR 上运行 Spark Thrift 服务器 我通过以下方式启动 Spark Thrift 服务器 sudo u spark usr lib spark sbin start thriftserver sh queue inte
hive
userdefinedfunctions
amazonemr
sparkthriftserver
在 EMR 中引导期间获取“现有锁 /var/run/yum.pid:另一个副本正在作为 pid 运行...”
我需要在我的 EMR 集群 AMI 3 1 1 中安装 python3 作为引导步骤的一部分 所以我添加了以下命令 sudo yum install y python3 但每次我都会收到以下错误 Existing lock var run
yum
EMR
amazonemr
在 EMR 4.0 中启动 Spark 时出错
我创建了一个EMR 4 0AWS 中的实例以及所有可用的应用程序 包括Spark 我通过 AWS 控制台手动完成此操作 我启动了集群并在启动时通过 SSH 连接到主节点 我跑到那里pyspark 当我收到以下错误时pyspark尝试创造Sp
amazonwebservices
apachespark
PySpark
amazonemr
Spark 中打开的文件太多,中止 Spark 作业
在我的应用程序中 我正在读取 40 GB 的文本文件 这些文件完全分布在 188 个文件中 我拆分此文件并使用 rdd 对在 Spark 中每行创建 xml 文件 对于 40 GB 的输入 它将创建数百万个小 xml 文件 这是我的要求 一
apachespark
amazons3
apachesparksql
Hadoop2
amazonemr
自动 AWS DynamoDB 到 S3 导出失败,并显示“role/DataPipelineDefaultRole 无效”
严格按照以下说明进行操作这一页 http docs aws amazon com amazondynamodb latest developerguide DataPipelineExportImport Exporting html我正在
export
amazondynamodb
amazonemr
amazoniam
amazondatapipeline
1
2
3
4
»