原生安装 PySpark 也支持 S3 访问

2024-01-03

我想从 PySpark 读取存储在 S3 上的 Parquet 数据。

我从这里下载了 Spark：

http://www.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz

并天真地安装到Python

cd python
python setup.py install

这似乎运行良好，我可以导入 pyspark，创建 SparkContext 等。但是，当我去阅读一些可公开访问的镶木地板数据时，我得到以下信息：

import pyspark
sc = pyspark.SparkContext('local[4]')
sql = pyspark.SQLContext(sc)
df = sql.read.parquet('s3://bucket-name/mydata.parquet')

我收到以下异常

Py4JJavaError: An error occurred while calling o55.parquet.
: java.io.IOException: No FileSystem for scheme: s3
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:372)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:370)
    at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
    at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
    at scala.collection.immutable.List.flatMap(List.scala:344)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:370)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:441)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:280)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Thread.java:745)

这个错误是从谷歌搜索中弹出的。到目前为止，所提供的解决方案都没有帮助。

我在一台个人计算机上使用Linux（Ubuntu 16.04），没有安装太多其他东西（一切都很简单）。

Update

我降级到http://www.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.4.tgz http://www.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.4.tgz默认情况下包含 AWS。

不幸的是，现在我的 AWS 凭证没有被获取。我尝试过一些事情：

将它们作为 SparkConf 参数包含在内

conf = (pyspark.SparkConf()
               .set('fs.s3.awsAccessKeyId', ...')
               .set('fs.s3.awsSecretAccessKey', '...'))
sc = pyspark.SparkContext('local[4]', conf=conf)

将它们包含在我的本地 .aws/credentials 文件中
将它们包含在 URL 中（不起作用，因为我的访问密钥有一个正斜杠）

不幸的是，在所有情况下我都会收到如下回溯

IllegalArgumentException: 'AWS Access Key ID and Secret Access Key must be specified as the username or password (respectively) of a s3 URL, or by setting the fs.s3.awsAccessKeyId or fs.s3.awsSecretAccessKey properties (respectively).'

使用预构建的 Spark 2.X 二进制文件的 Hadoop-2.4 版本（我相信它附带 s3 功能），您可以通过编程方式配置 Spark 以通过以下方式提取 s3 数据：

import pyspark
conf = pyspark.SparkConf()

sc = pyspark.SparkContext('local[4]', conf=conf)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", "")
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", "")

sql = pyspark.SQLContext(sc)
df = sql.read.parquet('s3n://bucket-name/mydata.parquet')

需要注意的关键一点是前缀s3n在存储桶的 URI 和配置名称中

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

amazonwebservices

apachespark

amazons3

PySpark

原生安装 PySpark 也支持 S3 访问的相关文章

如何在没有 SDK 的情况下在 Objective C 中为 S3 创建预签名 URL？

我正在构建一个 mac 应用程序not使用 AWS iOS 开发工具包我尝试构建的 GET 请求应遵循以下通用格式 Authorization AWS AWSAccessKeyId base64 hmac sha1 VERB n CONT
AWS Lambda 似乎在完成之前退出

我有一个非常简单的 lambda 函数 nodeJS 它将接收到的事件放入 kinesis 流中这是源代码 use strict const AWS require aws sdk const kinesis new AWS Kinesi
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
aws - 将字符串作为文件上传到 S3 存储桶

我尝试使用适用于 NodeJS 的 AWS 开发工具包将字符串作为文件保存到 AWS S3 存储桶 PUT 请求成功但文件未在 S3 存储桶中创建以下是我的代码片段 const s3 new S3 apiVersion 2006 03
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap

我正在将 Spark 2 4 项目升级到 Spark 3 x 我们遇到了一些现有 Spark ml 代码的问题 var stringIndexers Array StringIndexer for featureColumn lt FEAT
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
delphi THashSHA2 在大文件上返回错误的 SHA256

Data Cloud CloudAPI pas has class function TCloudSHA256Authentication GetStreamToHashSHA256Hex const Content TStream str
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

无法在 Windows 2012 上运行 Sonatype Nexus Repository Manager 3.0

我无法启动 Sonatype Nexus Repository Manager 3 0 0 Milestone 7 Release nexus 3 0 0 b2016011501 解压 Windows 存档后然后 nexus exe 运行
错误没有合适的默认构造函数可用

我正在实现一个带有节点和迭代器的列表类它创建一个类型为 Ticket 的列表这是我在类中定义的一个对象但是当我尝试编译时它说 List 没有默认构造函数因为显然有是有人看到这里的问题吗这是类的定义 class List pub
删除CSS中的水平滚动条

我在我的网页上使用类似 facebook 的按钮我需要它在页面的右侧对齐但有一个水平滚动条显示请看小提琴http jsfiddle net u4kMs http jsfiddle net u4kMs 我无法找出是什么原因造成的如何解
android - android studio 模拟器中的 SSL 问题，在手机上运行良好

我有一个通过 https 调用 Web 服务的应用程序当我在手机上运行该 apk 时效果很好然而在模拟器中所有POST请求超过SSL失败读取错误 ssl 0xb402be00 SSL 库失败通常是协议错误错误 100c50
无法在 Eclipse 中使用 Acceleo 从 UML 生成 java

我是 Eclipse 和 Acceleo 的新手我一直在尝试完成第一个生成器模型教程我正在使用 Kepler 4 3 和 Acceleo 3 X 我正在关注从 uml 生成 java 代码的教程链接是http wiki eclipse
如何从 Android 应用程序内的 Web 视图禁用复制、粘贴和选择工具栏

如何从 Android 应用程序内的 Web 视图中禁用复制粘贴和选择工具栏我正在制作一个应用程序它实际上是 webview 一个在 Javascript 和 Jquery 上工作的网站所以我想知道是否可以禁用复制粘贴工具栏禁用
在 NavigatorIOS 中调用 onRightButtonPress 的函数 - React Native

我在反应本机 NavigatorIOS 中使用 onRightButton 我希望能够调用驻留在我正在推送的组件中的函数但我不知道如何实现这一点这是代码示例 this props navigator push component Sin
如何使用 scala 比较 Spark 中的一行与所有其他行

我的一列中有超过 100K 个名字我需要比较它们中的每一个以确定它们是否相同 D souza D souza 或几乎相同 D souza Dsouza 我尝试将 cassandra 表读入 RDD 并对其自身进行笛卡尔乘积以形成元组但
生成带有阿拉伯字体的 PDF

我想在React中下载带有阿拉伯字体的pdf文件但没有找到任何解决方案我目前正在使用 jsPdf 但它无法正确渲染阿拉伯字体 let doc new PDFDocument let doc new pdf doc setFontSize
使用 Matplotlib 在绘图上叠加旋转图像

我目前已经使用矩形补丁构建了一个绘图来显示位置序列编辑用于生成此代码的代码基于 RLPy 库构建 def visualize trajectory self trajectory 0 0 0 0 0 1 0 1 0 0 domain
“-webkit-transform:scale(2)”不会影响 Facebook Like 按钮的点击区域（在 iPad 上）

我已经改变了 iframe 的大小 iframe transform scale 2 important webkit transform scale 2 important transform origin top left webkit
Maven Chronos JMeter 插件

有谁用过吗Chronos http mojo codehaus org chronos maven plugin index html用于 JMeter Maven 插件我在尝试 Maven JMeter 插件时遇到了困难并考虑尝试一下
iPhone 中图像的直方图

我正在寻找一种在 iPhone 上获取图像直方图的方法 OpenCV 库太大无法包含在我的应用程序中 OpenCV 编译后大约有 70MB 但我可以使用 OpenGL 但是我不知道如何执行其中任何一个我已经找到了如何获取图像的像素但
django 中的哪个函数创建 HttpRequest 实例并传递给视图？

我试图了解 django 的本质但我找不到任何关于这方面的好的教程我知道 django 视图在调用时接收 HttpRequest 实例作为参数之一我想知道 django 内部的哪个函数接收来自浏览器的请求创建 HttpRequest
在 flutter ios 项目中进行干净构建后，XCode CLANG_WARN_QUOTED_INCLUDE_IN_FRAMEWORK_HEADER 标志不断重置

我正在为云构建 AppCenter 设置我的 flutter ios 应用程序并且我的 xcode 配置遇到了问题在本地构建时我曾经在 Xcode 中设置链接器标志以防止常见的双引号包含错误显然是一个已知的 cocoapod 问
如何提高UIWebView的滚动性能？

提高 UIWebView 的性能似乎真的很难特别是对于像 Mashable 或 Ars Technica 这样的网站这些网站会加载大量的脚本而且长篇多页的文章很常见我知道 3 个类似的问题但它们都没有可行的解决方案 UIWebVi
什么是“补码”？

我正在学习计算机系统课程并且已经挣扎部分地与二进制补码 http en wikipedia org wiki Two 27s complement 我想理解它但我读过的所有内容都没有为我提供完整的图片我读过维基百科文章 http e
ElasticSearch 分组并分发到存储桶

我对 elasticsearch 很陌生但似乎没有简单的方法来创建聚合并将 doc count 分配到存储桶中一旦先前的聚合完成例如我有以下数据集我想创建 4 个存储桶和组配置文件这些配置文件在存储桶之间具有特定数量的事务配置
图片 - 上传没有响应，无法访问 $_FILES

这是我的文件上传脚本我收到以下错误 Notice Undefined index fupload in C Users Tuskar Desktop Projekt htdocs Project IT Space Profile edit
原生安装 PySpark 也支持 S3 访问

我想从 PySpark 读取存储在 S3 上的 Parquet 数据我从这里下载了 Spark http www apache org dist spark spark 2 1 0 spark 2 1 0 bin hadoop2 7 tg

原生安装 PySpark 也支持 S3 访问

Update

原生安装 PySpark 也支持 S3 访问 的相关文章

随机推荐

热门标签

原生安装 PySpark 也支持 S3 访问的相关文章