Spark读取不同版本的Parquet文件

2024-01-21

我使用 Version1 架构生成了一年多的镶木地板文件。随着最近的架构更改，较新的镶木地板文件具有 Version2 架构额外列。

因此，当我从旧版本和新版本一起加载镶木地板文件并尝试过滤更改的列时，我得到一个异常。

我希望 Spark 读取旧文件和新文件，并在不存在列的情况下填充空值。是否有解决方法，当未找到列时 Spark 填充空值？

SparkSQL 本身支持 parquet 文件的模式合并。您可以阅读所有相关内容官方文档在这里 http://spark.apache.org/docs/latest/sql-programming-guide.html#schema-merging

与 ProtocolBuffer、Avro 和 Thrift 一样，Parquet 也支持 schema 进化。用户可以从简单的架构开始，逐步添加根据需要向架构添加更多列。这样，用户最终可能会具有不同但相互兼容的多个 Parquet 文件模式。 Parquet 数据源现在能够自动检测这种情况并合并所有这些文件的模式。

由于模式合并是一个相对昂贵的操作，并且不是一个在大多数情况下，我们默认将其关闭，从 1.5.0。您可以通过以下方式启用它

setting data source option mergeSchema to true when reading Parquet files (as shown in the examples below), or
setting the global SQL option spark.sql.parquet.mergeSchema to true.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

parquet

versions

Spark读取不同版本的Parquet文件的相关文章

Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
必须包含 log4J，但它会导致 Apache Spark shell 中出现错误。如何避免错误？

由于我必须将 jar 包含到 Spark 代码中因此我想请求帮助找出解决此问题而不删除 log4j 导入的方法简单代码如下 cp symjar log4j 1 2 17 jar import org apache spark rdd v
Apache Spark：Yarn 日志分析

我有一个 Spark streaming 应用程序我想使用 Elasticsearch Kibana 分析作业的日志我的工作在纱线集群上运行因此日志将按照我的设置写入 HDFSyarn log aggregation enable为真
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
Spark 3 KryoSerializer 问题 - 无法找到类：org.apache.spark.util.collection.OpenHashMap

我正在将 Spark 2 4 项目升级到 Spark 3 x 我们遇到了一些现有 Spark ml 代码的问题 var stringIndexers Array StringIndexer for featureColumn lt FEAT
Cornerstone 与 Mac OS X 版本 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前

随机推荐

操作 Eclipse 插件的 java 类路径？

我正在开发一个插件其中包含 Eclipse 的自制视图当我运行插件并使用显示类路径时System getProperty java class path 我得到这个作为输出 D Programs eclipse plugins org
p:commandbutton 执行与我要求相反的操作

我一直在尝试禁用按钮直到操作完成然后这应该启用该按钮按钮的代码
Tomcat 7 java.lang.NoClassDefFoundError：javax / el / ELManager [重复]

这个问题在这里已经有答案了我想将我的应用程序部署到版本 7 中的 tomcat 但出现以下异常java lang NoClassDefFoundError javax el ELManager但如果我尝试将此应用程序部署到 tomcat
PHP 将 iTXt 注释添加到 PNG 图像

我到处都在寻找这个我知道可以使用 net 中的一些库来完成但我真的希望我的脚本生成标记图像原因是我们是论坛主办方和主题制作公司合作主题制作公司希望我们能够追踪任何非法分发的主题我在 GCHQ CanYouCrackIt 练习
如何通过回调从 C# 方法创建 F# 异步？

假设我有一些需要回调的 C 代码 void DoSomething Action
检查鼠标是否在元素的边界内

javascript 有没有办法检查鼠标位置当前是否位于元素的边界内您有什么可以建议的功能或快速的方法吗 if document mouse x gt ele offsetLeft document mouse x lt ele offs
打印错误消息的正确方法

这一行是在 Bash 中打印错误消息的最佳方法吗 echo Error banana gt 2 我需要更新数十个 Bash 脚本这些脚本使用所有不同的方式记录错误我不妨选择正确的方式来执行此操作并遵守我所做的标准在我的 bash
如何将base64编码的图像传递给Tensorflow预测？

我有一个 google cloud ml 模型我可以通过传递 float32 的 3 维数组来运行预测 instances input 0 0 0 5 0 8 然而这不是传输图像的有效格式所以我想传递 base64 编码的 png 或
在Notepad++中如何找到字符串的第n次出现

我有一个巨大的文本文件其中的记录由字符串 MSH 标识我需要找到第 200 条记录我希望在 Notepad 中可以使用一个正则表达式它可以让我找到字符串 MSH 第 200 次出现的位置如果您的文件只是一个由字符串 MSH 分隔的
从 cert 文件到 pfx 文件的转换

是否可以将 cert 文件转换为 pfx 文件我尝试将我的 cerf 文件导入 IE 但它从未显示在个人选项卡下因此我无法在那里导出我正在寻找是否有可用的替代方案仅供参考 cerf 文件是通过使用 keytool 创建的然后导
模块构建失败（来自 ./node_modules/mini-css-extract-plugin/dist/loader.js）：ReferenceError：文档未定义

好的基本上我们在部署之前使用 webpack 来捆绑我们的资源然而现在我们还想通过 webpack 捆绑我们的 sass 文件因为它简化了我们的构建过程一切进展顺利但现在bundle js太大而无法在生产中部署所以我想拆分bu
SPA（单页应用程序）是否适合针对移动设备的网站？

我计划创建一个主要针对手机的网站其中包含大约 20 个不同的视图页面如果我想专注于在页面之间切换时使用户体验非常灵敏如快速那么将网站创建为单页应用程序是一个好主意吗我知道您可以采取许多技巧来提高移动网站的整体性能 http ww
如何通过Axios JavaScript HTTP请求发送JSON或Form数据到FastAPI后端？

我有一个 FastAPI 后端配置如下 app post engines completions async def read completions engine id str prompt Optional str None max t
如何使用 MapStruct 将字符串转换为映射？

I have Story我的 Spring Boot 应用程序中的实体它有String field storyInfo其中包含 title random title description random description For m
Java REST 实现：Jersey 与 CXF [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您认为这两个库之间的优点缺点是什么这两个哪个最适合生产环境顺便说一句我将使用 JSON 而不是 XML 我还想知道哪个库最受社
在自定义上下文菜单中实现“粘贴”

这是我试图解决的问题我不确定这是否可能我有一个网络应用程序我需要启用从该应用程序到该应用程序的数据复制粘贴但我在粘贴时遇到问题如果我使用 CTRL V 快捷键过去我可以使用以下命令从剪贴板获取数据 e originalEven
OpenCV 2.4.5 中的访问冲突读取

我尝试了有关匹配许多图像的示例代码OpenCV 2 4 5我修改了该代码我找到了错误代码 Unhandled exception at 0x585a7090 in testing exe 0xC0000005 Access violati
Javascript扩展对象问题

我有以下代码 this myObject key1 val1 key2 val2 this aMethod function newObject 这里我想要一个新对象可能继承自this myObject 包含所有内容this myObje
给定一个 nxn 邻接矩阵，如何计算图中三角形的数量（Matlab）？

我编写了一个函数给定 n 生成随机 nxn 邻接矩阵我想知道是否有一种方法可以计算矩阵表示的图中三角形的数量 The i j 中的元素n 邻接矩阵的幂A计算长度路径的数量n开始于i并结束于j 三角形是一条长度为 3 起始点和终止点相同的
Spark读取不同版本的Parquet文件

我使用 Version1 架构生成了一年多的镶木地板文件随着最近的架构更改较新的镶木地板文件具有 Version2 架构额外列因此当我从旧版本和新版本一起加载镶木地板文件并尝试过滤更改的列时我得到一个异常我希望 Spark 读取

Spark读取不同版本的Parquet文件

Spark读取不同版本的Parquet文件 的相关文章

随机推荐

热门标签

Spark读取不同版本的Parquet文件的相关文章