Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤

2023-12-02

我有一个包含多个文件的 tar.gz 文件。层次结构如下所示。我的目的是读取tar.gz文件，过滤掉其中的内容b.tsv因为它是静态元数据，其中所有其他文件都是实际记录。

gzfile.tar.gz
|- a.tsv
|- b.tsv
|- thousand more files.

通过 pyspark load，我可以将文件加载到数据帧中。我使用了命令：

spark = SparkSession.\
        builder.\
        appName("Loading Gzip Files").\
        getOrCreate()
input = spark.read.load('/Users/jeevs/git/data/gzfile.tar.gz',\
          format='com.databricks.spark.csv',\
          sep = '\t'

为了过滤，我添加了文件名

from  pyspark.sql.functions import input_file_name
input.withColumn("filename", input_file_name())

现在生成的数据如下：

|_c0 |_c1 |filename |
|b.tsv0000666000076500001440035235677713575350214013124 0ustar  netsaintusers1|Lynx 2.7.1|file:///Users/jeevs/git/data/gzfile.tar.gz|
|2|Lynx 2.7|file:///Users/jeevs/git/data/gzfile.tar.gz|

当然，文件字段填充有 tar.gz 文件，使得该方法毫无用处。更令人恼火的问题是，_c0 正在填充filename+garbage+first row values

此时，我想知道读取的文件本身是否变得奇怪，因为它是 tar.gz 文件。当我们执行此处理的 v1 时（spark 0.9），我们还有另一个步骤，将数据从 s3 加载到 ec2 框中，提取并写回 s3。我正在努力摆脱这些步骤。

提前致谢！

数据块不支持直接*.tar.gz迭代。为了处理文件，必须将它们解压缩到临时位置。数据块支持bash比能完成这项工作。

%sh find $source -name *.tar.gz -exec tar -xvzf {} -C $destination \;

上面的代码将解压所有带有扩展名的文件*.tar.gz在源位置到目标位置。如果路径是通过dbutils.widgets或静态中%scala or %pyspark，路径必须声明为环境变量。这可以实现在%pyspark

import os
os.environ[' source '] = '/dbfs/mnt/dl/raw/source/'

使用以下方法加载文件，假设内容在*.csv file:

DF = spark.read.format('csv').options(header='true', inferSchema='true').option("mode","DROPMALFORMED").load('/mnt/dl/raw/source/sample.csv')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤的相关文章

分割 tar.bz2 文件并单独提取每个文件

我可以将一个大的 tar bz2 文件分割成几个较小的文件并在 Ubuntu 中单独提取这些小 tar bz2 文件吗 Thanks 我认为这不容易实现 A tar bz2是单个流它没有像这样的索引zip这将允许跳到存档中特定文件的开头
从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
Spark 上的 Kubernetes 驱动程序 pod 清理

我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后执行程序 Pod 就会被清理但驱动程序 Pod 仍处于完成状态驱动程序完成后如何清理要设置任何配置选项吗 NAME READY STATUS RESTA
Spark Collect_list 并限制结果列表

我有以下格式的数据框 name merged key1 internalKey1 value1 key1 internalKey2 value2 key2 internalKey3 value3 我想做的是将数据框分组name 收集列表并l
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
总分配超过堆内存的 95.00%（960,285,889 字节）- pyspark 错误

我用 python 2 7 编写了一个脚本使用 pyspark 将 csv 转换为 parquet 和其他内容当我在小数据上运行脚本时它运行良好但是当我在更大的数据 250GB 上运行脚本时我遇到了以下错误总分配超过堆内存的 9
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF

随机推荐

通过指针枚举 NSString 字符

如何通过从中提取每个 unichar 来枚举 NSString 我可以使用characterAtIndex 但这比通过递增unichar 慢我在苹果的文档中没有看到任何不需要将字符串复制到第二个缓冲区的内容像这样的东西将是理想的 for
在java中监视目录和子目录的创建、修改和更改

我已经编写了一些代码来检测目录 C java newfolder 中的更改它运行良好我已经在下面给出了 import java nio file import java util List public class DirectoryW
如何使用友元函数在模板类之外重载运算符==？

我正在尝试编写一个重载的模板类运算符我知道如何在课堂上得到它 template
从分层对象存储读取/写入到分层对象存储 - SharePoint 2007

我创建了一个自定义计时器作业需要一些配置才能运行我正在尝试将配置另存为SPPersistedObject在分层对象存储中分层对象存储保存在 SharePoint 配置数据库中因此我在尝试使用SPWebApplication作为家长
默认字符串排序顺序

默认排序顺序是实现细节吗或者如何选择默认比较器这让我想起了建议不要将哈希码存储在数据库中下面的代码是否保证以相同的顺序对字符串进行排序 string randomStrings Hello There World The Secre
Nginx 从多部分/表单数据中删除内容

我有两个 Nodejs 应用程序位于 nginx 反向代理后面这是我的 nginx 配置 main api location proxy pass http localhost 3000 chat api location socket
如何使用 Facebook 的 API 获取 Facebook 上共同好友的列表？

我正在尝试获取我自己和另一个用户的共同朋友列表但我在文档中找到的 API 都不起作用要么我收到一些奇怪的权限错误我只能获取我的朋友列表而没有其他用户要么我收到以下错误 Fatal error Call to a member fun
吉特。如何使用已更改的文件创建存档？

保持文件结构例如git archive git archive将文件路径作为参数因此您可以执行以下操作 git diff name status commit1 commit2 awk if 1 D print 2 xargs git
如何让 Rails 返回具有正确数据类型而不是字符串的 SUM(columnName) 属性？

假设以下形式的查询 operatingExpenses Expense find all select gt categories activityType categories name heading sum amount totalA
我应该使用 CSS :disabled 伪类还是 [disabled] 属性选择器还是这是一个意见问题？

我正在尝试设置禁用输入的样式我可以用 myInput disabled or myInput disabled 属性选择器是现代 CSS3 方式以及未来的发展方向吗我曾经使用伪类但我找不到任何关于它们是否是旧方式并且不受支持或者它们是
如何在Python Selenium中逐步向下滚动

大家好我是 Selenium 和 Python 的新手我只是在抓取网站帕加尔盖网站我知道如何向下滚动到页面底部但我需要的是逐步向下滚动以便 Selenium 单击所有阅读更多按钮但我不知道如何像这样逐步向下滚动所以我像下面
使用 geom_tile 清理地图

感谢本网站上一些用户的帮助我能够使用 geom point 获得一些数据的漂亮地图获得州界的边界但是现在我正在尝试清理它因为我有更多年的时间来绘制并希望确保情节正常工作并提供良好的信息经过进一步的研究似乎 geom tile
检查数据库中表是否存在时出现问题

基本上我有我的 MySQL dbname test 和我的表名称 page 我想使用 php PDO 创建一个查询来检查表 page 是否存在于我的数据库 test 中我已经尝试过这两件事但它确实有效第一个例子总是告诉我它不存在即使
在 JSP 中使用 struts 2 比较日期

我想使用比较两个日期Struts2 One is returned from the backend test currentDate 2012 11 15 The other one I just set 2014 10 19 我如何比较
move_uploaded_file(...): 无法打开流: 没有这样的文件或目录

我尝试使用 PHP 和 MySQL 以及临时文件夹将图像插入数据库中我使用 laravel 这是我的控制器 if isset FILES img masc img FILES img masc name ruta FILES img ma
使用 Python 的 matplotlib 3D API 绘制轮廓的问题

我正在尝试做类似的事情this文档中的 3D 示例但使用点云而不是光滑表面该示例将 2D 轮廓投影到三个坐标平面中的每一个上这表明我能够在 xy 平面上做到这一点当我尝试在其他两个平面上做同样的事情时我得到的要么是一个奇怪的轮廓塌
JWT 身份验证，Authorize 属性中定义的角色将被忽略

在努力实施的同时基于角色的身份验证 using JWT作为默认身份验证方案我遇到了一种情况其中定义的角色Authorize属性被忽略允许任何请求使用有效的令牌通过即使不在这些角色中有趣的是具有相同定义的自定义要求的其他策略A
给定并行列表，如何对一个列表进行排序，同时以相同的方式排列（重新排列）另一个列表？

假设我有 list1 3 2 4 1 1 list2 three two four one one2 Calling list1 sort 将对它进行排序结果是 1 1 2 3 4 然而我能得到list2与此同步重新排列以获得这样的结
如何使用 Gremlin 提高最短路径的性能？

我正在使用 JanusGraph 和 Gremlin 以及this数据集包含 2 6k 个节点和 6 6k 个边两侧各 3 3k 个边我已经运行查询 10 分钟但没有找到最短路径使用 Gephi 最短路径几乎是瞬时的这是我的查询 g
Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤

我有一个包含多个文件的 tar gz 文件层次结构如下所示我的目的是读取tar gz文件过滤掉其中的内容b tsv因为它是静态元数据其中所有其他文件都是实际记录 gzfile tar gz a tsv b tsv thousand

Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤

Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤 的相关文章

随机推荐

热门标签

Pyspark：将 tar.gz 文件加载到数据框中并按文件名过滤的相关文章