如何使用PySpark读取目录下的Parquet文件？

2024-01-21

我在网上搜索了一下，网上提供的解决方案并没有解决我的问题。我正在尝试读取分层目录下的镶木地板文件。我收到以下错误。

'无法推断 Parquet 的架构。必须手动指定。;'

我的目录结构如下： dbfs：/mnt/sales/region/country/2020/08/04

年文件夹下将有多个月份子目录，月份文件夹下将有后续的子目录。

我只想在销售级别阅读它们，这应该为我提供所有区域的信息，并且我已经尝试了以下两个代码，但它们都不起作用。请在这件事上给予我帮助。

spark.read.parquet("dbfs:/mnt/sales/*")

spark.read.parquet("dbfs:/mnt/sales/")

你可以尝试这个选项吗？

df = spark.read.option("header","true").option("recursiveFileLookup","true").parquet("/path/to/root/")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

apachesparksql

Databricks

azuredatabricks

如何使用PySpark读取目录下的Parquet文件？的相关文章

如何让“conda”安装程序查找“PyPi”包

我试图使用conda http conda pydata org docs using pkgs html managing packages包管理器来安装我的 Python 包最近我遇到了 Anaconda org 存储库中不存在我需
从所有数据帧列中删除子字符串

我有一个单词列表大约 1000 个单词我称之为负面单词 CAST ARTICLES SANITARY JAN CLAUSES SPECIAL ENDORSEMENT 我很快就会用这个单词列表制作一个数据框我还有一个数据框看起来像 F
App Engine 上的 Django 与 webapp2 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
从内存地址创建python对象（使用gi.repository）

有时我需要调用仅存在于 C 中的 gtk gobject 函数但返回一个具有 python 包装器的对象之前我使用过基于 ctypes 的解决方案效果很好现在我从 PyGtk import gtk 切换到 GObject intro
pyCUDA无法打印结果

最近我使用 pip 为我的 python3 4 3 安装 pyCUDA 但我在测试示例代码时发现 https documen tician de pycuda tutorial html getting started https doc
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
Python 内置对象的 __enter__() 和 __exit__() 在哪里定义？

我读到每次使用 with 时都会调用该对象的 enter 和 exit 方法我知道对于用户定义的对象您可以自己定义这些方法但我不明白这对于打开等内置对象函数甚至测试用例是如何工作的这段代码按预期工作我假设它使用 exit 关
Python Selenium 打印另存为 PDF 等待文件名输入

我正在尝试通过打印对话框将网站另存为 PDF 我的代码允许我另存为pdf 但要求我输入文件名我不知道如何将文件名传递到弹出框附上我的代码 import time from selenium import webdriver import
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
AttributeError: 'super' 对象没有属性 '__getattr__' 在 Kivy 中使用带有多个 kv 文件的 BoxLayout 时出错

我很清楚这个问题已经被问过好几次了但尝试以下解决方案后 Python Kivy AttributeError 尝试获取 self ids 时 super 对象没有属性 getattr https stackoverflow com qu
如何检测一个二维数组是否在另一个二维数组内？

因此在堆栈溢出成员的帮助下我得到了以下代码 data needle s which is a png image base64 code goes here decoded data decode base64 f cStringIO
如何在引发异常时将变量传递给异常并在异常时检索它？

现在我只有一个空白的异常类我想知道如何在引发变量时给它一个变量然后在 try except 中处理它时检索该变量 class ExampleException Exception pass 为其构造函数提供一个参数将其存储为属性然后
类返回语句不打印任何输出

我正在学习课程但遇到了问题return语句它是语句吗我希望如此程序什么也没有打印出来它只是结束而不做任何事情 class className def createName self name self name name def
如何将两列 pandas Dataframe 移动并堆叠为一列？

我有一个下面提到的数据框 ETHNIC SEX USUBJID 0 HISPANIC OR LATINO F 16 1 HISPANIC OR LATINO M 8 2 HISPANIC OR LATINO Total 24 3 NOT H
AWS 将 MQTT 消息存储到 DynamoDB

我构建了一个定期发送 MQTT 消息的 python 脚本这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端我想将 MQTT 消息存储到 DynamoDB 表中
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
如何有效地比较 pandas DataFrame 中的行？

我有一个 pandas 数据框其中包含雷击记录以及时间戳和全球位置格式如下 Index Date Time Lat Lon Good fix 0 1 20160101 00 00 00 9962692 7 1961 60 7604 1
ProcessPoolExecutor 传递多个参数

ESPN播放器免费 class ESPNPlayerFree def init self player id match id match id team 团队名单1 277906 cA2i150s81HI3qbq1fzi za1Oq5CG

随机推荐

MS Access 准备好的语句

是否可以在 MS Access 中对 VBA 中的本地表执行准备好的语句如下所示 UPDATE part SET part description WHERE part id 如果是这样它是如何完成的 Dim db As DAO Dat
Java 正则表达式帮助：捕获键值对

我正在尝试从具有以下形式的字符串中捕获键值对 a0 d235 a1 2314 com1 abcd com2 a b c d 使用来自的帮助这个帖子 https stackoverflow com questions 168171 regul
iOS - 循环单元格并检索数据

抱歉我对 iOS 开发还很陌生我有一个UITableView从单个 XiB 笔尖拉出的单元进行设置我在笔尖中创建了一个开关开关并且我试图保存开关的状态viewWillDisappear我拥有的细胞数量准确地说是 6 个单元如何
C# 中的 MemoryStream Xml 架构验证失败

这是我的功能如果将 MemoryStream 传递给 XmlReader 有时它不会验证正确的 xml 文件我将 XmlDocument 对象存储在内存中我想根据最终用户提供的 xsd 架构文件对其进行验证 ValidateSchem
如果 .slideDown 超出浏览器底部，如何自动向上滚动页面？

我有一个表格当鼠标悬停在行上时通过 jQuery SlideDown 显示每行的附加信息当鼠标移开时信息将通过向上滑动删除这工作得很好但是当我将鼠标悬停在页面上的最后一个项目上时它会滑到浏览器窗口底部下方如果用户使用鼠标滚轮
jar 清单中的绝对路径名与相对路径名

我想引用固定位置的 jar 文件以供多个可执行 jar 文件使用而不是在每个可执行文件中包含该 jar 文件我有以下设置效果很好 commons math3 3 6 1 jar 存在于目录 testgradle 中 TestGradl
使用寄存器值作为搜索模式

我希望使用寄存器的内容作为 Vim 中的搜索模式我想从命令行执行此操作因此我无法使用
Spring - AOP：@within异常：java.lang.IllegalArgumentException：错误引用的类型不是注释类型

我是 AOP 和 AspectJ 的新手我正在尝试围绕具有元素类型的自定义注释编写自定义逻辑TYPE 我还想使用注释下的参数在 around 方法内编写自定义逻辑我收到下面提到的错误我尝试阅读多个来源大多数来源都与使用有关 anno
如何在单元格中显示当前用户名？

在我能找到的大多数在线资源中通常会告诉我如何在 VBA 中检索此信息有没有直接的方法可以在单元格中获取这些信息例如简单如 ENVIRON User 这没有用根据下面链接中的说明执行以下操作在 VBA 中插入一个新模块并粘贴以下
使用 javamail 发送邮件不起作用

我正在尝试使用我的 Gmail 地址发送电子邮件我将 debug 设置为 true 这就是我得到的 DEBUG JavaMail version 1 4 1 DEBUG not loading file System Library Ja
如何使用 heroku CLI 避免使用 --app 选项？

我厌倦了每次运行时输入应用程序的名称heroku终端中的命令 heroku run rake db migrate app myapp heroku run rake db seed app myapp heroku run rake st
离子闪屏（错误：无法读取上传的图像）

我正在尝试使用 ionic resources splash 命令我在资源文件夹以及 ios 和 android 文件夹的根目录中保存了一个 flash png 文件其尺寸为 2208 x 2208 这是建议的大小但是当我运行命令时出
类别和继承有什么区别和用途？ [复制]

这个问题在这里已经有答案了可能的重复 Objective c中继承和类别的区别 https stackoverflow com questions 522341 difference between inheritance and cat
JSON 数据到 Web 服务 - 如何定义预期的 JSON 数据

我正在 PHP 中构建一个 RESTful Web 服务接受 JSON 作为其有效负载现在我的问题是如何向用户准确描述 JSON 请求的格式我对 JSON 很陌生不认为我 100 掌握了其他用户系统基本上会创建一个包含我需要的
重写 __add__ 方法后出现类型错误

我想了解如何 add works class MyNum def init self num self num num def add self other return MyNum self num other num def str s
ASP.NET Core - 应用程序在发布后未连接到数据库

我创建了一个带有用户身份验证的简单 ASP Net Core 应用程序因此所有实体框架都已预加载到 Web 应用程序模板中它正在连接到我的数据库connectionString位于我的appsettings json文件与 data
非贪婪正则表达式

我需要像这样获取评论 php 文件中某些标签内的值 php code this is a comment
是否准确地说旧版本的 Jetty 不能仅通过配置更改来与 Java 9 兼容

尝试运行一个相当旧的项目Mamute https github com caelum mamute使用 Java 9 我能够通过使用来解决一些初始错误 add modules java xml bind 但 Mamute 使用旧版本的 Je
Java 包与文件夹结构？有什么不同

我想知道用于 Java EE 开发的 Eclipse IDE 中使用的文件夹结构和包之间有什么区别我们什么时候使用哪一个以及为什么应该采取什么做法创建一个像 src com utils 这样的文件夹结构然后在其中创建一个类创建一个
如何使用PySpark读取目录下的Parquet文件？

我在网上搜索了一下网上提供的解决方案并没有解决我的问题我正在尝试读取分层目录下的镶木地板文件我收到以下错误无法推断 Parquet 的架构必须手动指定我的目录结构如下 dbfs mnt sales region country

如何使用PySpark读取目录下的Parquet文件？

如何使用PySpark读取目录下的Parquet文件？ 的相关文章

随机推荐

热门标签

如何使用PySpark读取目录下的Parquet文件？的相关文章