简单 SparkSQL 查询中未修剪分区

2024-02-16

我正在尝试从 SparkSQL 表（S3 中的 parquet）有效地选择各个分区。但是，我看到 Spark 打开表中所有 parquet 文件的证据，而不仅仅是那些通过过滤器的文件。对于具有大量分区的表来说，即使是小型查询也会变得昂贵。

这是一个说明性示例。我使用 SparkSQL 和 Hive 元存储在 S3 上创建了一个简单的分区表：

# Make some data
df = pandas.DataFrame({'pk': ['a']*5+['b']*5+['c']*5, 
                       'k': ['a', 'e', 'i', 'o', 'u']*3, 
                       'v': range(15)})
# Convert to a SparkSQL DataFrame
sdf = hiveContext.createDataFrame(df)
# And save it
sdf.write.partitionBy('pk').saveAsTable('dataset',
                                        format='parquet',
                                        path='s3a://bucket/dataset')

在后续会话中，我想选择该表的一个子集：

dataset = hiveContext.table('dataset')
filtered_dataset = dataset.filter(dataset.pk == 'b')
print filtered_dataset.toPandas()

在随后打印的日志中，我看到修剪是supposed即将发生：

15/07/05 02:39:39 INFO DataSourceStrategy: Selected 1 partitions out of 3, pruned -200.0% partitions.

但后来我看到镶木地板文件正在从所有分区打开：

15/07/05 02:39:39 INFO S3AFileSystem: Reopening dataset/pk=a/part-r-00001.gz.parquet to seek to new offset 508
15/07/05 02:39:39 INFO S3AFileSystem: Actually opening file dataset/pk=a/part-r-00001.gz.parquet at pos 508
15/07/05 02:39:39 INFO S3AFileSystem: Reopening dataset/pk=b/part-r-00001.gz.parquet to seek to new offset 509
15/07/05 02:39:39 INFO S3AFileSystem: Actually opening file dataset/pk=b/part-r-00001.gz.parquet at pos 509
15/07/05 02:39:39 INFO S3AFileSystem: Reopening dataset/_common_metadata to seek to new offset 262
15/07/05 02:39:39 INFO S3AFileSystem: Actually opening file dataset/_common_metadata at pos 262
15/07/05 02:39:39 INFO S3AFileSystem: Reopening dataset/pk=c/part-r-00001.gz.parquet to seek to new offset 509
15/07/05 02:39:39 INFO S3AFileSystem: Actually opening file dataset/pk=c/part-r-00001.gz.parquet at pos 509
15/07/05 02:39:39 INFO S3AFileSystem: Reopening dataset/pk=b/part-r-00001.gz.parquet to seek to new offset -365
15/07/05 02:39:39 INFO S3AFileSystem: Actually opening file dataset/pk=b/part-r-00001.gz.parquet at pos 152
15/07/05 02:39:39 INFO S3AFileSystem: Reopening dataset/pk=a/part-r-00001.gz.parquet to seek to new offset -365
15/07/05 02:39:39 INFO S3AFileSystem: Actually opening file dataset/pk=a/part-r-00001.gz.parquet at pos 151
15/07/05 02:39:39 INFO S3AFileSystem: Reopening dataset/_common_metadata to seek to new offset -266
15/07/05 02:39:39 INFO S3AFileSystem: Actually opening file dataset/_common_metadata at pos 4
15/07/05 02:39:39 INFO S3AFileSystem: Reopening dataset/pk=c/part-r-00001.gz.parquet to seek to new offset -365
15/07/05 02:39:39 INFO S3AFileSystem: Actually opening file dataset/pk=c/part-r-00001.gz.parquet at pos 152

如果只有三个分区，这不是问题，但如果有数千个分区，就会导致明显的延迟。为什么所有这些不相关的文件都被打开？

看一眼spark.sql.parquet.filterPushdown，默认设置为false因为 Spark 使用的 Parquet 版本中存在一些错误。 1.3/1.4中可能可以使用，查看官方文档 http://spark.apache.org/docs/latest/sql-programming-guide.html#configuration.

我认为 Spark 1.5 中已修复此问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

简单 SparkSQL 查询中未修剪分区的相关文章

如何在Zeppelin笔记本和pyspark中导入Delta Lake模块？

我正在尝试在 Zeppelin 笔记本中使用 Delta Lake 和 pyspark 但似乎无法成功导入模块例如 pyspark from delta tables import 它失败并出现以下错误 ModuleNotFoundErr
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
自动提取S3中的.gz文件

我正在尝试找到一种解决方案以便在 ALB 日志文件自动从 ALB 上传到 S3 时提取 gz 格式的 ALB 日志文件我的桶结构是这样的 log bucket alb 1 AWSLogs account number elasticlo
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
总分配超过堆内存的 95.00%（960,285,889 字节）- pyspark 错误

我用 python 2 7 编写了一个脚本使用 pyspark 将 csv 转换为 parquet 和其他内容当我在小数据上运行脚本时它运行良好但是当我在更大的数据 250GB 上运行脚本时我遇到了以下错误总分配超过堆内存的 9
使用 AWS Lambda 从 AWS S3 读取并提取巨大的 zip 文件

我正在开发数据管理应用程序客户可以上传zip file approx 250 MB 与多个text files approx 1500 MB on AWS S3 但由于记忆有限aws lamda 最大 1536MB 大小我能够提取 50
如何使用 aws-cli 访问 Google Cloud Storage 存储桶

我可以访问 aws 和 Google Cloud Platform 是否可以执行以下操作使用 aws cli 列出 Google Cloud Storage 存储桶使用 aws cli 将 CSV 文件放入 Google Cloud S
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
错误“未初始化常量 AWS (NameError)”

它说 AWS 未初始化我正在使用 aws sdk core gem 我尝试使用 aws sdk gem 代替问题仍然存在这是initializers aws rb 文件 AWS config access key id gt ENV
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比

随机推荐

Google Analytics 集成 iOS 时出错

我需要将谷歌分析添加到我的 iOS 应用程序中我已经实施了这 3 个步骤 Step 1 下载谷歌分析库文件并将该文件添加到项目中 GAI h GAITracker h GAITrackedViewController h GAIDicti
R：按组检查，对于一个 var 的每个唯一值，是否至少存在一个观察值，其中该 var 的值等于另一个 var 的值

我认为这段代码的方向是正确的但我还没有完全做到这一点我尝试在 Google 和 SE 上找到一些有用的东西但我似乎无法以某种方式提出问题从而得到我正在寻找的答案 I could写一个for loop为此比较每个id对于每个独特的价
如何配置 Apache2 以允许来自同一 IP 地址的多个同时连接？

默认情况下 Apache2 似乎只允许每个 IP 地址有 1 个连接如何配置 Apache2 以允许来自同一 IP 地址的多个同时连接这是我的情况托管在服务器上的 Web 应用程序远程客户端发出可能需要 15 秒才能完成的请求同一
为什么 Apache/WSGI 将 HEAD 映射到 GET？如何加快 Flask 中的 HEAD 速度？

这是一个 Flask 应用程序可以从命令行或通过 Apache WSGI 运行 import flask app flask Flask name LENGTH 1000000 one million app route methods
如何通过短信更新mysql数据库？

我想向我正在制作的 CMS 添加附加功能允许用户通过短信向网站添加内容用户应该能够上传图像并添加文本并将消息发送到一个号码该号码收到后将相应地更新数据库这可以完成吗可以通过 PHP 完成吗因为这是我唯一知道的语言另外实现这一
Symfony 2.2.1 rsync 部署 - 无法在远程服务器上工作

我对 Symfony 非常陌生我正在尝试使用 rsync 自动化部署过程同时保持 Symfony 的本地和远程安装正常工作到目前为止我所做的在我的本地计算机上安装了 Cygwin Windows 7 Apache2 2 PHP 5
用于三角形交叉加速结构的简单 C/C++ 库

我正在进行光线追踪并希望通过一些加速结构 kd tree BVH 等等来加速它我不想自己编码到目前为止我尝试过的将 kd 树从 pbrt 中拉出有如此多的内部依赖关系如果不将所有 pbrt 拉入我的代码中我就无法成功 CGA
失去焦点时加速器命令不起作用

我有以下内容swing应用其中有一个定制的JMenuBar 代码如下 public class MenuBarTest public static void main String args new JFXPanel final JFra
WPF 控件抛出“由 URI 标识的资源缺失”异常

在加载插件并尝试创建 XYZ 控件时应用程序抛出以下异常组件 XYZ 没有由 URI 标识的资源 ThePluginAssembly 组件 XYZ xaml 在InitializeComponent 方法中 UserControls
Chrome 扩展程序 xhr 请求被取消

我正在尝试构建一个 chrome 扩展它使用 xhr 请求从外部 api 获取响应我已经设置了扩展的权限如 chrome 扩展文档中所述但 xhr 请求在网络中被取消清单 json browser action default i
为什么无论延迟值是多少，调用audioplayer.play(atTime:delay)都没有声音

Expect 当调用audioplayer play atTime 1 时计时器重置为0 并且在第1秒播放audioplayer Reality 我尝试了delay 0 000000001 1 100000000 但无论如何都不会播放任
如何在 Firefox 和 IE 中通过键盘导航跳过隐藏的单选选项？

UPDATE The following problem occurs even after trying out the suggestions here https stackoverflow com questions 1807887
使用“BaseClass *”类型的表达式初始化“SubClass *__strong”时不兼容的指针类型

在 Objective C 中为什么我们不能alloc init or new一个带有超类的基类对象而我们可以使用超类的构造函数来初始化下面是一些代码 s1可以很轻松地创建 NSMutableString s1 NSString st
如何在另一个项目中包含 Web 参考端点配置

我有 2 个项目 X 和 Y Y 调用 Web 服务配置在 Y 的 app config 它是一个 DLL 中定义当 X 调用 Y 方法时出现以下异常 System InvalidOperationException Could no
如何获取HTA窗口的大小？

您可以设置 HTA 窗口的大小但我找不到获取其大小的方法我所能想到的就是读书document body offsetWidth and offsetHeight 但这些给你的是视口大小而不是实际的窗口大小有可能知道吗似乎没有属性或方
退出临界区

考虑多个线程同时执行以下代码 long gf 0 global variable or class member if InterlockedCompareExchange gf 1 0 0 lock cmpxchg some exclus
重写 JS 中的赋值运算符

var myObject myKey myValue typeof myObject myKey returns string myObject myKey newValue console log myObject myKey print
如何在Python 3.x中强制输入整数？ [复制]

这个问题在这里已经有答案了我正在尝试用 Python 编写一个程序该程序接受输入以重复斐波那契数列的次数 i 1 timeNum input How many times do you want to repeat the sequen
用 C++ 读/写设备

如何用 C 读取写入设备该设备位于 dev ttyPA1 我考虑过 fstream 但我不知道设备是否具有我可以在不阻塞应用程序的情况下读取的输出我的目标是创建一个应用程序您可以在终端中写入一些内容然后将其发送到 dev ttyP
简单 SparkSQL 查询中未修剪分区

我正在尝试从 SparkSQL 表 S3 中的 parquet 有效地选择各个分区但是我看到 Spark 打开表中所有 parquet 文件的证据而不仅仅是那些通过过滤器的文件对于具有大量分区的表来说即使是小型查询也会变得昂贵这

简单 SparkSQL 查询中未修剪分区

简单 SparkSQL 查询中未修剪分区 的相关文章

随机推荐

热门标签

简单 SparkSQL 查询中未修剪分区的相关文章