Spark 读取分区 avro 比指向确切位置慢得多

2024-04-15

我正在尝试读取分区的 Avro 数据，该数据是根据年、月和日分区的，这似乎比直接将其指向路径要慢得多。在物理计划中，我可以看到分区过滤器正在传递，因此它不会扫描整个目录集，但速度仍然慢得多。

例如。像这样读取分区数据

profitLossPath="abfss://raw@"+datalakename+".dfs.core.windows.net/datawarehouse/CommercialDM.ProfitLoss/"
 
profitLoss = spark.read.\
    format("com.databricks.spark.avro").\
    option("header", "false").\
    option("inferSchema", "false").load(profitLossPath)
 
profitLoss.createOrReplaceTempView("ProfitLosstt")

df=sqlContext.sql("SELECT * \
                             FROM ProfitLosstt \
                             where Year= " + year + " and Month=" + month_nz + " and Day=" + date_nz )

大约需要 3 分钟

而我使用字符串生成器指向确切位置，只需 2 秒即可完成

profitLossPath="abfss://raw@"+datalakename+".dfs.core.windows.net/datawarehouse/CommercialDM.ProfitLoss/Year=" +year +"/Month=" + month_nz + "/Day=" + date_nz
 
profitLoss = spark.read.\
    format("com.databricks.spark.avro").\
    option("header", "false").\
    option("inferSchema", "false").load(profitLossPath)

 
profitLoss.createOrReplaceTempView("ProfitLosstt")

df=sqlContext.sql("SELECT * \
                             FROM ProfitLosstt "
                              )
                  
display(df)

查看第一个（较慢）的物理计划确实表明分区过滤器已传递

什么可以解释发现阶段花了这么长时间？

有任何问题我都可以详细说明。

好吧，速度慢的原因是因为 InMemoryFileIndex 的构建。

尽管进行了分区修剪，Spark 需要了解分区和文件信息，这就是它需要该步骤的地方。这篇 S.O 帖子详细阐述了它：here https://stackoverflow.com/questions/53111210/speed-up-inmemoryfileindex-for-spark-sql-job-with-large-number-of-input-files

因此，我们的想法是创建一个外部表，以便构建此信息，我使用这样的脚本来完成此操作（我使用了内联模式，如果有模式文件，您可以使用模式文件）

create external table ProfitLossAvro 


partitioned by (Year int, Month int, Day int)

ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.avro.AvroSerDe'


Stored As 

 inputformat 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'

 outputformat 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'

Location 'abfss://[email protected] /cdn-cgi/l/email-protection/datawarehouse/CommercialDM.ProfitLoss/'

TBLPROPERTIES (
    'avro.schema.literal'='{
      "name": "Microsoft.Hadoop.Avro.Specifications.ProfitLoss",
      "type": "record",
      "fields": [{ "name":"MK_DatesID_TradeDate", "type":["int", "null"]},{ "name":"MK_UCRAccountsID_AccountID", "type":["int", "null"]},{ "name":"MK_ProductCategoriesID_ProductCategoryID", "type":["int", "null"]},{ "name":"CurrencyCode", "type":["string", "null"]},{ "name":"ProfitLoss", "type":["double", "null"]},{ "name":"MK_PnLAmountTypesID_PLBookingTypeID", "type":["int", "null"]}]
    }');

但如果您随后查询该表，您将得到 0 行。这是因为现有分区不会自动添加。所以，你可以使用

msck repair table ProfitLossAvro

每次将数据添加到数据湖时，您都可以添加分区。像这样的事情：-

ALTER TABLE ProfitLossAvro ADD PARTITION (Year=2020, Month=6, Day=26)

如果您随后使用如下命令查询数据，它将运行得更快

df=sqlContext.sql("select * \
               from ProfitLossAvro \
               where Year=" + year + " and Month=" + month_nz + " and Day=" + date_nz)

display(df)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Avro

azuredatabricks

Spark 读取分区 avro 比指向确切位置慢得多的相关文章

Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c

随机推荐

撇号和 SQL Server FT 搜索

我在 SQL Server 2005 中设置了 FT 搜索但我似乎找不到将 Lias 关键字与 Lia s 记录相匹配的方法我基本上想要的是允许人们在没有撇号的情况下进行搜索我已经断断续续地解决这个问题有一段时间了所以任何帮助都将是
NSDictionary 中的键和值是有序的吗？

我的意思是 NSDictionary 中键和值的顺序是否始终与初始化 NSDictionary 时指定的顺序相同或者如果我真的需要知道键的顺序我应该更好地维护一个单独的 NSArray 吗不他们没有被订购只要您不从字典中添加或删除
Android - 从网络下载图像，保存到应用程序私有位置的内存中，显示列表项

我想做的是我希望我的应用程序从互联网下载图像并将其保存到手机内存中应用程序私有的位置如果列表项没有可用的图像即无法在 Internet 上找到我希望显示默认的占位符图像这是我在 list item row xml 文件中定义为默认
Epsilon(ε) 产生式以及 LR(0) 语法和 LL(1) 语法

在很多地方例如在这个答案中here https stackoverflow com a 8496838 7571421 我看到有人说 LR 0 语法不能包含产生式 Also in 维基百科 https en wikipedia org
“休息2”是什么意思？

我总是使用和看到只带有 break 的例子这是什么意思
Laravel Mix 未将vendor.js 转译为es5

Laravel Mix 似乎没有将vendor js 和manifest js 转译为ES5 它在 iPhone Safari 和 IE 11 上失败 IE DevTools 显示以下错误而且看起来它仍然具有 ES6 的特性其他文件似乎
C# InputSimulator 包装器 - 如何使用它？

我想模拟外部程序的键盘点击我尝试过SendMessage PostMessage SendKeys 但它们不会将密钥发送到某个特定程序所以我想尝试 SendInput 并且我已经下载了一个很好的包装器发送输入 http msdn mic
fromEnum 到Enum 实例？

data Suit Spade Heart Club Diamond deriving Eq Ord Enum Show data Pip Ace Two Three Four Five Six Seven Eight Nine Ten J
当我添加新代码时，laravel 中出现错误“此缓存存储不支持标记”？

我尝试在 laravel 中的blade php 中编写代码但出现错误我正常的 php 代码是我在 Blade php 中做的事情如下 uri segment users active php use App Libraries Co
将 Phonegap Cordova 移动应用代码重新用于 Web 应用程序

我们有一个使用 Ionic 和 Rails 作为 API 开发的移动应用程序现在我们计划在 Web 应用程序中重用 PhoneGap 代码以及 Ionic 标签我仍然不完全确定这是否可能有人尝试过这个吗我发现将 Ionic 代码
与集合对象的 WPF 数据绑定

我有一个简单的类定义如下 public class Person int id string name public Person public int ID get return id set id value public strin
Django @property 计算模型字段：FieldError：无法解析关键字

我遵循 Yauhen Yakimovich 在这个问题中使用的方法属性适用于 django 模型字段吗 https stackoverflow com questions 1454727 do properties work on dja
solr 查询中的加号未正确处理

All 我是 Solr 的新手当我使用 solr 示例导入一些随机文档时我在 q 中使用搜索查询如下所示 fund report fund和之间没有空格我以为会在文档中搜索 fund report 这个词这种情况在文档中很少发生
我应该在 javadoc 类和方法注释中写什么？

我目前已经创建了一个应用程序需要一些帮助来为其编写 javadoc 这是代码 import java lang import java util import java io import java net author Name HER
如何通过MailChimp 3.0 api发送电子邮件？

我正在尝试通过 php 中的 mailchimp api 版本 3 0 发送电子邮件但我没有运气这是我的代码 postString message html this is the emails html content text th
Lodash 去抖异步/等待

我正在尝试在执行 api 调用之前向我的应用程序添加去抖功能但是当我引入 debouce 时似乎我的等待被忽略并且由于缺少值而调用函数 export default class App extends Component state
列表框：所选项目未突出显示

在我的 WPF 应用程序中我有一个简单的列表框
用于将修改后的文件与最新版本进行比较的 TFS 快捷方式

现在我必须拉出挂起的更改窗口右键单击该文件并选择比较 gt 与最新版本是否有更快的方法来查看我的修改用于进行 TFS 比较的键盘快捷键 In the 团队探索者窗户下待定更改 shift enter on file 将比较文件
iPhone Storyboard：纵向和横向的不同场景

如果你向下滚动一点苹果开发者页面 http developer apple com library ios featuredarticles ViewControllerPGforiPhoneOS BasicViewControllers
Spark 读取分区 avro 比指向确切位置慢得多

我正在尝试读取分区的 Avro 数据该数据是根据年月和日分区的这似乎比直接将其指向路径要慢得多在物理计划中我可以看到分区过滤器正在传递因此它不会扫描整个目录集但速度仍然慢得多例如像这样读取分区数据 profitLossPa

Spark 读取分区 avro 比指向确切位置慢得多

Spark 读取分区 avro 比指向确切位置慢得多 的相关文章

随机推荐

热门标签

Spark 读取分区 avro 比指向确切位置慢得多的相关文章