如何为 pyspark 中的 s3 指定服务器端加密？

2024-03-12

感谢 stackoverflow，我成功地将 hadoop-aws-2.7.3.jar 和 aws-java-sdk-1.7.4.jar 从 Maven 存储库复制到 $SPARK_HOME/jars/ 中，以获取 s3a:// 从 S3 存储桶中读取在我的 ec2 Linux 实例上使用 pyspark (spark 2.2.0)。

df=spark.read.option("header","true").csv("s3a://bucket/csv_file")

但我一直坚持将转换后的数据写回到启用服务器端加密的 s3 存储桶中。正如预期的那样，下面的操作会抛出“访问被拒绝”，因为我没有指定标志来在 pyspark 执行环境中启用服务器端加密

df.write.parquet("s3a://s3_bucket/output.parquet")

为了验证，我写入本地文件并使用 -sse 上传到 s3 存储桶，效果很好

aws s3 cp local_path s3://s3_bucket/ --sse

如何在 pyspark 中启用与上面类似的服务器端加密？

Note:我确实尝试将“fs.s3a.enableServerSideEncryption true”添加到spark-default.conf，并在启动时通过pyspark的--conf参数传递相同的内容，但没有任何乐趣。

Thanks

我在经历以下 Hadoop JIRA 之后理解的方式 - HADOOP-10675、HADOOP-10400、HADOOP-10568

由于 fs/s3 是 Hadoop 的一部分，如果您的资产中的所有 S3 存储桶都受 SSE 保护，则需要将以下内容添加到 Spark-default.conf 中

spark.hadoop.fs.s3a.server-side-encryption-algorithm AES256

添加此后，我能够成功写入受 SSE（服务器端加密）保护的 S3 存储桶。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

apachespark

amazons3

PySpark

如何为 pyspark 中的 s3 指定服务器端加密？的相关文章

GAE SDK 1.9.5 和 InvalidCertificateException

尝试在 osX Maverics 10 9 5 上使用 Python2 7 8 从 GAE SDK 1 95 导入测试床我收到 InvalidCertificateException 错误 from google appengine ex
logger.warning("MSVC is not support") 在 Windows 10 上安装 pystan 时出错

我的目标是在我的 Windows 10 计算机上安装 fbprophet 我正在尝试使用 pip 安装 pystan 先知的主要依赖项但大约一分钟后我收到以下错误 Traceback most recent call last File
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
用ast重写代码； Python

我正在学习 AST 它看起来很强大但我很困惑代码去了哪里以及为什么它消失了说我想重写 example def fake x n y useless list n return x as example def fake x n retu
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
将文件上传到S3的模拟测试用例

我们如何模拟文件上传到 S3 我尝试过这样的事情 file mock mock MagicMock spec File name FileMock mock patch storages backends s3boto S3BotoStor
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
Python 的分布式锁管理器

我有一堆具有多个实例的服务器这些实例访问的资源对每秒的请求有硬性限制我需要一种机制来锁定所有正在运行的服务器和实例对此资源的访问我在github上找到了一个restful分布式锁管理器 https github com thefab
使用 AWS Lambda 从 AWS S3 读取并提取巨大的 zip 文件

我正在开发数据管理应用程序客户可以上传zip file approx 250 MB 与多个text files approx 1500 MB on AWS S3 但由于记忆有限aws lamda 最大 1536MB 大小我能够提取 50
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
python 2.7模块pandas未安装“无法导入名称哈希表”

我尝试在论坛谷歌上寻找这个问题的答案但我找不到任何东西我的问题是这样的来自 python 控制台 gt gt gt import pandas cannot import name hashtable Traceback most
使用解析将 ** 运算符更改为幂函数？

我的要求是将运算符更改为幂函数例如 1 Input B 2 Output power B 2 2 B 2 T 2 X Output power B 2 我写了下面的正则表达式来解决这个问题 rx r a zA Z0 9 a zA Z0
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
为什么从浏览器上传到 S3 时出现 403 错误？

因此我尝试查看此处之前的答案但似乎没有任何效果我正在使用 Dropzone 它似乎发出 OPTIONS 请求来获取所有允许的 CORS 相关信息但它似乎没有正确返回因此通过查看 Chrome 开发工具我有以下请求标头 Host
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键

随机推荐

为什么函数式编程好？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
为 Android 实现卫星菜单，XML 文件显示未找到资源

首先我尝试使用这个库并且尝试编译一个基本测试程序 https github com siyamed android satellite menu https github com siyamed android satellite me
Xcode 场景 Dock 隐藏

我的场景底座被隐藏了我怎样才能使其可见红色的不见了您可以在左侧下方找到此按钮只需单击它 you will get what you need Enjoy
R：将“vline”和“hline”语句组合在一起（ggplot2）

我正在使用 R 编程语言最近我学习了如何使用 ggplot 库绘制水平线和垂直线 library ggplot2 Simple scatter plot sp lt ggplot data mtcars aes x wt y mpg
跳过模型访问器

我有一个名为 Run 的模型其中包含此方法 public function getNameAttribute name if name Eendaags return this gt race edition gt race gt nam
未创建骨干关系相关模型

我正在尝试创建一个嵌套的关系骨干项目但我真的很挣扎我想要做的粗略想法如下所示但在客户端上调用 fetch 时我的印象是将根据以 JSON 形式返回的预订自动创建许多预订我的 JSON 格式可以在 MVC 轮廓下方看到 CLIEN
链接到 Wagtail CMS 中的特定页面

在 Wagtail CMS 中我不知道如何构建指向特定页面的链接我想要我的模板中有一个固定的未创作的链接BlogIndexPage to my BlogIndexArchivePage反之亦然在官方文档中pageurl http
如何让 javascript 生成标题工具提示以显示 SVG

我正在尝试获取 SVG 元素的工具提示在 Firefox 16 0 2 下测试我尝试了这个小例子它工作正常
如何解析布尔表达式并将其加载到类中？

我有以下内容BoolExpr class class BoolExpr public enum BOP LEAF AND OR NOT inner state private BOP op private BoolExpr left pri
Eclipse 不突出显示匹配变量

Eclipse 没有为我突出显示匹配的变量我已经尝试通过更改标记出现次数 Window gt Preferences gt Java gt Editor gt Mark Occurrences 但它不起作用我不知道为什么这不起作用而
Angular 2 应用程序基础 href 与 Cordova IOS

我正在使用 Angular 2 和 cordova 开发一个应用程序我使用 Angular cli 来构建应用程序我现在在 IOS 应用程序启动时遇到了一些路由问题基本href似乎设置错误如果我使用以下命令设置基本 href 应用程
读取大型 Excel 文件 .xlsx

我正在使用图书馆 org apache poi XSSFWorkbook workbook new XSSFWorkbook fileInputStream 我想 org xml sax 库但无法将其转换为工作簿注意最终结果我希望返回
更新/删除不存在的行时出现 PL/SQL 异常

我这些天正在学习 PL SQL 目前正在使用 oracle HR 模式处理过程和异常这是我的简单过程 create or replace PROCEDURE DEL JOB p jobid jobs job id TYPE AS sqle
相当于 CURRENTDIR="$PWD" 的批处理文件？

我正在尝试翻译一个很简单 Unix shell 脚本转换为批处理文件除了那行我已经把大部分都写下来了 CURRENTDIR PWD 我怎样才能将其翻译为 batchese Thanks 最简单的形式 SET CURRENTDIR cd
AJAX：提交表单而不刷新页面

我有一个类似于以下的表格
如何在抖动中打开相机闪光灯？

我正在构建一个应用程序用户可以将他们的视频上传到 firebase 我正在使用相机模块的相机包我想在用户单击闪光灯图标时打开闪光灯或将其关闭我尝试找到一种通过相机包打开闪光灯的方法但找不到任何打开闪光灯的方法然后我尝试使用灯泡包
Android 4.0.3 Stock 浏览器 z-index 问题的解决方法/polyfill

我正在寻找本报告中描述的 z index 错误的解决方法或填充 http code google com p android issues detail id 31862 http code google com p android iss
如何使用charts_flutter包在Flutter中显示工具提示

我在用https pub dev packages charts flutter https pub dev packages charts flutter对于我的应用程序中的图表我想在按下 PointsLineChart 中的点时显示工
如何在 .htaccess 文件中指定 auto_prepend_file 而无需硬编码绝对路径？

我有一个 PHP 文件我想在每个请求开始时执行我在 htaccess 文件中指定了这一点 php value auto prepend file alwaysrunthis php 问题是该指令的值是在目标脚本的上下文中执行的而不是
如何为 pyspark 中的 s3 指定服务器端加密？

感谢 stackoverflow 我成功地将 hadoop aws 2 7 3 jar 和 aws java sdk 1 7 4 jar 从 Maven 存储库复制到 SPARK HOME jars 中以获取 s3a 从 S3 存储桶中读

如何为 pyspark 中的 s3 指定服务器端加密？

如何为 pyspark 中的 s3 指定服务器端加密？ 的相关文章

随机推荐

热门标签

如何为 pyspark 中的 s3 指定服务器端加密？的相关文章