Spark 使用自定义 InputFormat 读取 WARC 文件

2023-11-30

我需要通过 Spark 处理 .warc 文件，但我似乎找不到直接的方法。我更喜欢使用Python，而不是通过以下方式将整个文件读入RDD：wholeTextFiles()（因为整个文件将在单个节点上处理（？））因此，似乎唯一/最好的方法是通过自定义 HadoopInputFormat与一起使用.hadoopFile()在Python中。

但是，我找不到一种简单的方法来做到这一点。将 .warc 文件拆分为条目就像拆分一样简单\n\n\n;那么我怎样才能实现这一点，而不需要编写大量额外的（无用的）代码（如各种在线“教程”中所示）？可以全部用Python来完成吗？

即，如何将 warc 文件拆分为条目而不用读取整个文件wholeTextFiles?

如果分隔符是\n\n\n您可以使用textinputformat.record.delimiter

sc.newAPIHadoopFile(
  path ,
  'org.apache.hadoop.mapreduce.lib.input.TextInputFormat',
  'org.apache.hadoop.io.LongWritable',
  'org.apache.hadoop.io.Text',
  conf={'textinputformat.record.delimiter': '\n\n\n'}
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 使用自定义 InputFormat 读取 WARC 文件的相关文章

计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

始终显示 JavaFX ListView 的垂直滚动条

ListView 似乎已经有一个滚动条我希望滚动条始终可见原因是因为我在其上放置了一个标题并在滚动条和标题之间的角落放置了一个按钮如何让ListView滚动条始终显示您可以将其放入适当大小的 JScrollPane 中并将 JS
如何在运行时更改注释/Hibernate 验证规则？

如果有一个带有某些字段的 Java 类我想使用 Hibernate Validator 进行验证现在我希望我的用户能够在运行时配置进行哪些验证例如 public class MyPojo NotEmpty String void ge
我需要 iOS 设备来“存档”Xcode 项目吗？

我是一名 iOS 开发新手试图推出我的第一个应用程序我在 StackOverflow 上挖掘了很长时间来寻找答案但没有成功有3个关键点需要牢记我实际上并没有 iOS 设备到目前为止我只是使用模拟器来测试该应用程序我也有所有证书
具有自动高度属性的用户控件

我想创建将显示文本的用户控件我需要一种在运行时调整控件大小的方法以便它调整高度以显示所有文本我创建了如下所示的控件正如你所看到的我使用以下方法绘制了图标和文本TextRenderer DrawText 不幸的是当我调整控件大小
如何 static_assert 该类型对于 c++20 中的模板非类型参数是可行的

我有一个类型TimeDuration 现在是文字类型我可以将它用作非类型模板参数这种用法与类型定义相距甚远编译方面因此如果有人修改TimeDuration这样它就不再是字面意思了很久以后才会注意到所以我把static assert
C ：为一个函数参数发送不同的结构

我有一个使用 OpenGL 绘制圆的函数我想向它传递一个包含 x 和 y 坐标以及半径的结构问题是同一个函数必须与 3 个不同的结构一起使用所有结构都包含坐标半径和绘图函数不使用的其他一些内容有没有办法让 3 个不同的结构只有一个
使 firebase 的 sendPasswordResetEmail 更安全

在使用包含身份验证的 firebase 的网站上我正在实现忘记密码功能返回状态为sendPasswordResetEmail 如果用户提供的电子邮件没有与其关联的帐户则为 400 如果电子邮件确实有帐户则返回 200 这意味着攻
构建 Archive 时未找到 Apple 框架

我正在尝试使用 RealityKit 向现有应用程序添加对 AR 功能的可选支持该应用程序可以在 iOS 10 和 iOS 13 设备上正常构建和运行并且仅在后者中启用可选功能但是当我为通用 iOS 设备构建或尝试存档时出现错误N
仅对一列进行分组和求和

所以我有一个数据框 df1 看起来如下所示 A B C 1 foo 12 California 2 foo 22 California 3 bar 8 Rhode Island 4 bar 32 Rhode Island 5 baz 15
WPF 数据绑定到接口而不是实际对象 - 可以进行强制转换吗？

假设我有一个这样的界面 public interface ISomeInterface 我还有几个实现这个接口的类 public class SomeClass ISomeInterface 现在我有一个 WPF 列表框使用自定义 Dat
无法使用 Android Auto 'android.car' 库 - 抛出 RuntimeException: Stub

我正在尝试读取运行 Android Auto 和 Android Automotive 的汽车的外部温度传感器为了阅读SENSOR TYPE ENV OUTSIDE TEMPERATURE使用汽车物业经理我需要包括android car图
bash 中不区分大小写的文件名搜索和检索

我想获取 github 存储库的自述文件以进行进一步处理问题是文件名可能有不同的大小写例如readme md or Readme md or README md etc 我想找到自述文件的哪个变体并在 shell 变量中检索该文件名以
在

Spark 使用自定义 InputFormat 读取 WARC 文件

python

Hadoop

apachespark

Spark 使用自定义 InputFormat 读取 WARC 文件的相关文章

计算另一个字符串中多个字符串的出现次数

Gunicorn 工作人员无论如何都会超时

如何在 init 中使用await设置类属性

我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

Python 3d 绘图设置固定色阶

Spark SQL 中的 SQL LIKE

Python 内置的 super() 是否违反了 DRY？

从 Powershell 脚本安装 Python

使用 Python Oauthlib 通过服务帐户验证 Google API

嵌套作用域和 Lambda

python的shutil.move()在linux上是原子的吗？

Python GTK+ 画布

找到一个数字所属的一组范围

每当使用 import cv2 时 OpenCV 都会出错

Firebase Firestore：获取文档的生成 ID (Python)

如何将 Django 中的权限添加到模型并使用 shell 进行测试

根据 Pandas 中的列表选择数据框行的子集

将索引与值交换的最快方法

如何将Python3设置为Mac上的默认Python版本？

如何在Python脚本中从youtube-dl中提取文件大小？

随机推荐

始终显示 JavaFX ListView 的垂直滚动条

如何在运行时更改注释/Hibernate 验证规则？

我需要 iOS 设备来“存档”Xcode 项目吗？

具有自动高度属性的用户控件

如何 static_assert 该类型对于 c++20 中的模板非类型参数是可行的

C ：为一个函数参数发送不同的结构

使 firebase 的 sendPasswordResetEmail 更安全

构建 Archive 时未找到 Apple 框架

仅对一列进行分组和求和

WPF 数据绑定到接口而不是实际对象 - 可以进行强制转换吗？

无法使用 Android Auto 'android.car' 库 - 抛出 RuntimeException: Stub

bash 中不区分大小写的文件名搜索和检索

在

Spark 使用自定义 InputFormat 读取 WARC 文件

Spark 使用自定义 InputFormat 读取 WARC 文件 的相关文章

随机推荐

Spark 使用自定义 InputFormat 读取 WARC 文件的相关文章