如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？

2024-01-06

我已经尝试了下面的代码及其组合，以便读取 S3 文件夹中给出的所有文件，但似乎没有任何效果。敏感信息/代码已从下面的脚本中删除。有 6 个文件，每个文件 6.5 GB。

#Spark Connection
sc<-spark_connect(master = "local" , config=config)


rd_1<-spark_read_csv(sc,name = "Retail_1",path = "s3a://mybucket/xyzabc/Retail_Industry/*/*",header = F,delimiter = "|")


# This is the S3 bucket/folder for files [One of the file names Industry_Raw_Data_000]
s3://mybucket/xyzabc/Retail_Industry/Industry_Raw_Data_000

这是我得到的错误

Error: org.apache.spark.sql.AnalysisException: Path does not exist: s3a://mybucket/xyzabc/Retail_Industry/*/*;
at org.apache.spark.sql.execution.datasources.DataSource$.org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary(DataSource.scala:710)

经过几周的谷歌搜索后，这个问题得到了解决。在这里，解决方案..

Sys.setenv(AWS_ACCESS_KEY_ID="abc") 
Sys.setenv(AWS_SECRET_ACCESS_KEY="xyz")

config<-spark_config()

config$sparklyr.defaultPackages <- c(
"com.databricks:spark-csv_2.10:1.5.0",
"com.amazonaws:aws-java-sdk-pom:1.10.34",
"org.apache.hadoop:hadoop-aws:2.7.3")



#Spark Connection
sc<-spark_connect(master = "local" , config=config)

# hadoop configurations
ctx <- spark_context(sc)
jsc <- invoke_static( sc,
"org.apache.spark.api.java.JavaSparkContext",
"fromSparkContext",
ctx
)

hconf <- jsc %>% invoke("hadoopConfiguration")  
hconf %>% invoke("set", "com.amazonaws.services.s3a.enableV4", "true")
hconf %>% invoke("set", "fs.s3a.fast.upload", "true")

folder_files<-"s3a://mybucket/abc/xyz"

rd_11<-spark_read_csv(sc,name = "Retail",path=folder_files,infer_schema = TRUE,header = F,delimiter = "|")


spark_disconnect(sc)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

apachespark

amazons3

RStudio

sparklyr

如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？的相关文章

twitterR 和 ROAuth R 软件包安装

我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题我尝试了几种不同的方法在 Windows 下使用源代码在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
为什么 CloudFront 根据 Accept-Encoding 改变 CORS 标头响应？

我正在尝试让 CORS 与 Amazon S3 CloudFront 一起正常工作设置我的 CORS 配置后它似乎可以正常工作 curl H Origin https app close io I https d4389n07pf8cq
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
在 Rcpp 中使用其他包中的 C 函数

我试图从 C 函数中的 cubature 包调用 C 例程来执行多维积分我试图重现的基本 R 示例是 library cubature integrand lt function x sin x adaptIntegrate integr
为什么 R 更新后 sim_slopes() 中会出现此错误？

我正在尝试使用交互包来创建简单斜率的约翰逊尼曼图但是当尝试运行 sim slopes 函数时出现以下错误直到我将R更新到4 2 2 我才没有遇到这个问题我使用的是 macOS Ventura 13 1 Error class
如何从 R 中的 txt 文件读取矩阵？

我有一个带有矩阵的txt文件 Matrix txt 重要数字之间没有空格 0100 1001 1100 我想在 R 中将其作为矩阵读取我该怎么做我尝试使用 as matrix read table Matrix txt sep 但失败
将不均匀的层次列表转换为数据框

我认为还没有有人问过这个问题但是有没有一种方法可以将具有多个级别和不均匀结构的列表的信息组合成长格式的数据帧具体来说 library XML library plyr xml inning lt http gd2 mlb com c
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
SPSS 中的标准化残差与 R rstandard(lm()) 不匹配

在寻找 R 相关解决方案时我发现 R 和 SPSS 版本 24 在计算简单线性模型中的标准化残差方面存在一些不一致看来SPSS所谓的标准化残差匹配 R学生化残差我完全不认为某处存在软件错误但显然这两个程序之间存在差异看看这个例子
Shiny：动态数据框构建； renderUI、观察、reactiveValues

我认为如何使用 Shiny 的 renderUI 功能动态子集数据的问题经常出现但我很难理解何时使用 renderUI 带有 uiOutput 而不是其他功能包括观察反应反应值甚至条件面板我想构建一个完全交互式的数据框架其中每个
使用随机目录结构重命名传入的 S3 文件

我有一个可以将文件发送到 s3 存储桶的应用程序不幸的是我无法更改它在 s3 中发送到的路径因此我必须找到一种方法来获取该文件 mys3bucket apps region 020 07 14T22 24 34Z details cs
无法更改 RStudio 中的 R 版本

我的 RStudio V 0 99 491 无法更改 R 版本我以平常的方式行事Global Options gt R Version 然后它挂起并且不再工作或反应 R 运行良好的初始版本是R 3 1 0 我以前从未遇到过这样的问题也许
如何使用 C# / .Net 将文件列表从 AWS S3 下载到我的设备？

我希望下载存储在 S3 中的多个图像但目前如果我只能下载一个就足够了我有对象路径的信息当我运行以下代码时出现此错误遇到错误消息读取对象时访问被拒绝我首先做一个亚马逊S3客户端基于我的密钥和访问配置的对象连接到服务器然后创

随机推荐

如何用plotly绘制椭球体

有什么方法可以用plotly 3D 绘制类似椭球体的表面吗目前只有表格的表面z f x y 在文档中进行了讨论还有Mesh 3D https plot ly python reference mesh3d 但我没有找到相关的例子似乎可
从 Android 联系人中获取单个电话号码

您好我正在尝试从联系人列表中获取一个电话号码我找到了可以获取整个联系人列表电话号码的代码我想要的只是所单击项目的电话号码任何帮助将不胜感激谢谢 public void onClick View v Intent contactPi
如何使用 IntelliJ IDEA 应用“移动方法”重构？

我希望能够在 IntelliJ IDEA 中将实例方法从一个类移动到另一个类 Fowler 的重构中的移动方法不幸的是当我尝试移动 cmd F6 时它告诉我没有具有引用类型的方法您想让方法静态然后移动吗我不想使我的方法成
hijri（伊斯兰）日历问题！

我会将公历日期转换为回历伊斯兰日期经过网上搜索找到了转换的源代码我将代码从 Java 和 PHP 转换为 C 语言该工具有时工作时没有任何问题但有些日子有问题我需要您的帮助要么修复该工具要么提供可以正常工作的可用代码顺
是否有可能创建一种更具活力的新类型？

可能不是正确的词但我想用 JavaScript 创建一个新类型它具有一个简单的属性可以做到这一点 var inst new SomeType inst key1 key2 something inst key1 key1 key3 s
更新满足条件且编号递增的记录

我在 postgres 中有一张这样的表 Id Name local site id local id 1 A 2 2 B 2 3 C 1 4 D 2 5 E 1 如何使用 SQL 查询将表更新为 Id Name local site id
在 API 级别 19 以下的 Android 中选择文件或图像时，如何限制 Google 驱动器选项不出现？

我是 Android 新手需要在 API 级别 19 以下的设备上选择文件我努力了 private void chooseFile Intent intent new Intent Intent ACTION GET CONTENT i
为什么 makefile 中需要链接 math.h 而不是 string.h？ [复制]

这个问题在这里已经有答案了我一直在包括
使用 WinSCP .NET/COM 使用临时文件名上传文件

我正在用 C 创建一个小型 NET 应用程序来将文件上传到 FTP 服务器我在执行此操作时使用了 WinSCP 的 NET DLL 并且我一直在尝试找到解决问题的好方法我放置所有文件的 FTP 文件夹将由另一个应用程序监控然后该应用
检索公共 Dropbox 文件夹的内容？

有没有办法检索公共 Dropbox 文件夹的内容列表最好是 PHP Dropbox 中公共文件的 URL 如下所示 http dl dropbox com u 1234567 publikPholder textytext txt 人们可
如何访问我的 SSH 公钥？

我刚刚生成了 RSA 密钥对我想将该密钥添加到 GitHub I tried cd id rsa pub and id rsa pub 但没有运气如何访问我的 SSH 公钥 cat ssh id rsa pub or cat ssh i
在 Flexdashboard 中使用 javascript/d3.js 创建图表和表格之间的交互

我创建了下面的 flexdashboard 其中使用了 3 个数据框然后其中两个数据框显示为图表 dcross1 dcross2 和一个 dcross3 如表我想要实现的是将所有这些对象连接在一起当用户单击某个栏时表将相应地进行子集
在 Terraform 0.12 中，如果资源名称已存在，如何跳过资源的创建？

我正在使用 Terraform 版本 0 12 如果同名资源已存在我需要跳过资源创建我为此做了以下操作读取自定义图像列表 data ibm is images custom images 检查图像是否已经存在 locals custo
如何获取html元素的绝对路径

String html Jsoup connect url timeout 1000 1000 get html Document doc Jsoup parse html Elements H2 doc select div h2 for
通过命令提示符运行（可能是路径错误？）

当我编译示例 javac StudentApp java 时从 Notepad 编译代码时遇到问题它无法编译但我收到此错误代码不被识别为内部或外部命令可操作程序或批处理文件我现在使用 Windows 8 以及 8 1 这是我的道路
AWS Lambda、Python、Numpy 等作为层

我已经尝试了一段时间试图将 python numpy 和 pytz 作为层添加到 AWS Lambda 而不是使用我的 py 文件将其压缩并扔到 AWS 我能够遵循多个教程但都失败了如果我要使用 pandas numpy 或 pytz
Flutter 应用程序在发布模式下显示灰屏，但在调试模式下工作正常

我正在尝试 flutter 目前正在学习本教程https www youtube com watch v j6c vHdbUfg https www youtube com watch v j6c vHdbUfg 我注意到该应用程序在调试模
设置视图宽度后，将 LayoutParams 的 ClassCastException 转换为 MarginLayoutParams

我编写了一个小型代理类以便可以使用 ObjectAnimator 为视图的边距设置动画在检查此方法是否有效且所有动画均正常后我想在动画之前调整视图的大小但在设置宽度后我的动画失败并出现 ClassCastException 我不知
socket.io 与私人房间聊天

我开始研究node和socket io 我已经创建了一个简单的聊天应用程序我惊讶于它是如此简单现在我想更进一步提供能够私下聊天的在线用户列表解决这个问题的最佳方法是什么我读过 0 7 的新房间功能这是一条路吗每次 2 个用户
如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？

我已经尝试了下面的代码及其组合以便读取 S3 文件夹中给出的所有文件但似乎没有任何效果敏感信息代码已从下面的脚本中删除有 6 个文件每个文件 6 5 GB Spark Connection sc lt spark connect

如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？

如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？ 的相关文章

随机推荐

热门标签

如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？的相关文章