如何使用PySpark读取目录下的Parquet文件?

2024-01-21

我在网上搜索了一下,网上提供的解决方案并没有解决我的问题。我正在尝试读取分层目录下的镶木地板文件。我收到以下错误。

'无法推断 Parquet 的架构。必须手动指定。;'

我的目录结构如下: dbfs:/mnt/sales/region/country/2020/08/04

年文件夹下将有多个月份子目录,月份文件夹下将有后续的子目录。

我只想在销售级别阅读它们,这应该为我提供所有区域的信息,并且我已经尝试了以下两个代码,但它们都不起作用。请在这件事上给予我帮助。

spark.read.parquet("dbfs:/mnt/sales/*")

or

spark.read.parquet("dbfs:/mnt/sales/")

你可以尝试这个选项吗?

df = spark.read.option("header","true").option("recursiveFileLookup","true").parquet("/path/to/root/")
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用PySpark读取目录下的Parquet文件? 的相关文章

随机推荐

  • MS Access 准备好的语句

    是否可以在 MS Access 中对 VBA 中的本地表执行准备好的语句 如下所示 UPDATE part SET part description WHERE part id 如果是这样 它是如何完成的 Dim db As DAO Dat
  • Java 正则表达式帮助:捕获键值对

    我正在尝试从具有以下形式的字符串中捕获键值对 a0 d235 a1 2314 com1 abcd com2 a b c d 使用来自的帮助这个帖子 https stackoverflow com questions 168171 regul
  • iOS - 循环单元格并检索数据

    抱歉 我对 iOS 开发还很陌生 我有一个UITableView从单个 XiB 笔尖拉出的单元进行设置 我在笔尖中创建了一个开 关开关 并且我试图保存开关的状态viewWillDisappear我拥有的细胞数量 准确地说是 6 个单元 如何
  • C# 中的 MemoryStream Xml 架构验证失败

    这是我的功能 如果将 MemoryStream 传递给 XmlReader 有时它不会验证正确的 xml 文件 我将 XmlDocument 对象存储在内存中 我想根据最终用户提供的 xsd 架构文件对其进行验证 ValidateSchem
  • 如果 .slideDown 超出浏览器底部,如何自动向上滚动页面?

    我有一个表格 当鼠标悬停在行上时 通过 jQuery SlideDown 显示每行的附加信息 当鼠标移开时 信息将通过向上滑动删除 这工作得很好 但是当我将鼠标悬停在页面上的最后一个项目上时 它会滑到浏览器窗口底部下方 如果用户使用鼠标滚轮
  • jar 清单中的绝对路径名与相对路径名

    我想引用固定位置的 jar 文件以供多个可执行 jar 文件使用 而不是在每个可执行文件中包含该 jar 文件 我有以下设置 效果很好 commons math3 3 6 1 jar 存在于目录 testgradle 中 TestGradl
  • 使用寄存器值作为搜索模式

    我希望使用寄存器的内容作为 Vim 中的搜索模式 我想从命令行执行此操作 因此我无法使用
  • Spring - AOP:@within异常:java.lang.IllegalArgumentException:错误引用的类型不是注释类型

    我是 AOP 和 AspectJ 的新手 我正在尝试围绕具有元素类型的自定义注释编写自定义逻辑TYPE 我还想使用注释下的参数在 around 方法内编写自定义逻辑 我收到下面提到的错误 我尝试阅读多个来源 大多数来源都与使用有关 anno
  • 如何在单元格中显示当前用户名?

    在我能找到的大多数在线资源中 通常会告诉我如何在 VBA 中检索此信息 有没有直接的方法可以在单元格中获取这些信息 例如 简单如 ENVIRON User 这没有用 根据下面链接中的说明 执行以下操作 在 VBA 中插入一个新模块并粘贴以下
  • 使用 javamail 发送邮件不起作用

    我正在尝试使用我的 Gmail 地址发送电子邮件 我将 debug 设置为 true 这就是我得到的 DEBUG JavaMail version 1 4 1 DEBUG not loading file System Library Ja
  • 如何使用 heroku CLI 避免使用 --app 选项?

    我厌倦了每次运行时输入应用程序的名称heroku终端中的命令 heroku run rake db migrate app myapp heroku run rake db seed app myapp heroku run rake st
  • 离子闪屏(错误:无法读取上传的图像)

    我正在尝试使用 ionic resources splash 命令 我在资源文件夹以及 ios 和 android 文件夹的根目录中保存了一个 flash png 文件 其尺寸为 2208 x 2208 这是建议的大小 但是当我运行命令时出
  • 类别和继承有什么区别和用途? [复制]

    这个问题在这里已经有答案了 可能的重复 Objective c中继承和类别的区别 https stackoverflow com questions 522341 difference between inheritance and cat
  • JSON 数据到 Web 服务 - 如何定义预期的 JSON 数据

    我正在 PHP 中构建一个 RESTful Web 服务 接受 JSON 作为其有效负载 现在 我的问题是 如何向用户准确描述 JSON 请求的格式 我对 JSON 很陌生 不认为我 100 掌握了 其他用户系统基本上会创建一个包含我需要的
  • 重写 __add__ 方法后出现类型错误

    我想了解如何 add works class MyNum def init self num self num num def add self other return MyNum self num other num def str s
  • ASP.NET Core - 应用程序在发布后未连接到数据库

    我创建了一个带有用户身份验证的简单 ASP Net Core 应用程序 因此所有实体框架都已预加载到 Web 应用程序模板中 它正在连接到我的数据库connectionString位于我的appsettings json文件 与 data
  • 非贪婪正则表达式

    我需要像这样获取评论 php 文件中某些标签内的值 php code this is a comment
  • 是否准确地说旧版本的 Jetty 不能仅通过配置更改来与 Java 9 兼容

    尝试运行一个相当旧的项目Mamute https github com caelum mamute使用 Java 9 我能够通过使用来解决一些初始错误 add modules java xml bind 但 Mamute 使用旧版本的 Je
  • Java 包与文件夹结构?有什么不同

    我想知道用于 Java EE 开发的 Eclipse IDE 中使用的文件夹结构和包之间有什么区别 我们什么时候使用哪一个以及为什么 应该采取什么做法 创建一个像 src com utils 这样的文件夹结构 然后在其中创建一个类 创建一个
  • 如何使用PySpark读取目录下的Parquet文件?

    我在网上搜索了一下 网上提供的解决方案并没有解决我的问题 我正在尝试读取分层目录下的镶木地板文件 我收到以下错误 无法推断 Parquet 的架构 必须手动指定 我的目录结构如下 dbfs mnt sales region country