如何使用 PDFplumber 只提取 pdf 文件中没有表格的文本？

2023-12-25

我想使用 NLP 模块处理一些 pdf 文件，然后我想从所有现有表中清除这些文件。

这是使用 pdfplumber 提取表格的代码

import pdfplumber
pdf = pdfplumber.open("file.pdf")
page = pdf.pages[1]
table=page.extract_table()

但我想反转操作以仅提取文本

免责声明：我是以下内容的作者pText，本答案中使用的库。

加载Document
你需要定义一个LocationFilter

A LocationFilter其作用与罐头上所说的差不多。它将侦听解析事件（例如“渲染文本”或“将字体更改为”），但它只允许那些在给定边界内通过的事件。

请记住 PDF 坐标中的原点位于左下角。这LocationFilter因此，在此示例中将仅匹配页面左下角的文本。

Add a SimpleTextExtraction to the LocationFilter

下一个问题是“什么是LocationFilter要将事件传递给？” 在这种情况下，您可以先尝试SimpleTextExtraction.

把它们放在一起：

l0 = LocationFilter(0, 0, 100, 100)

l1 = SimpleTextExtraction()
l0.add_listener(l1)

doc = PDF.loads(pdf_file_handle, [l])

文档加载后，您可以询问SimpleTextExtraction对于给定的所有文本Page.

l1.get_text(0)

您可以通过以下任一方式获取 pTextGitHub https://github.com/jorisschellekens/ptext-release，或使用PyPi https://pypi.org/project/ptext-joris-schellekens/还有很多examples https://github.com/jorisschellekens/ptext-release/blob/master/EXAMPLES.md，查看它们以了解有关处理图像的更多信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

Text

NLP

如何使用 PDFplumber 只提取 pdf 文件中没有表格的文本？的相关文章

计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
IE 中的 Google 文档查看器

我到处寻找解决方案但找不到我在用着谷歌文档查看器 https drive googleblog com 2009 09 view online files using google docs html查看 PDF 文件这是一个很棒的工
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
仅从 PE 文件中提取 .text 部分

我正在尝试从 PE 文件 dll 中提取 text 部分即代码 Linux 或某些 python 或 ruby 库中是否有任何简单的工具可以让我轻松地完成此操作我自己解决了我使用 pefile python 模块提取文本部分并使用
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有

随机推荐

无法在 Android 中将应用程序包转换为 APK

我使用的是Android Studio 3 4 1 我试图使用捆绑工具将应用程序捆绑包转换为 APK 我无法生成 APK 文件我尝试使用从aab文件生成Apk文件 android应用程序包 https stackoverflow com
Julia HTTP.get() API 密钥授权

我正在访问的网站需要 API 密钥 ID 和密钥作为我假设基本授权的用户名和密码我正在使用 HTTP 模块中的 HTTP get 函数但我找不到如何包含我的密钥 ID 和密钥例子HTTP get https api mybitx
如何为Testng创建可执行jar文件，运行点应该是Xml文件

我目前正在 Eclipse IDE 上开发 selenium Web 驱动程序和 testng 我通常从我创建的 XML 文件运行测试该文件运行 eclipse 中的所有方法现在我想创建一个简单的可执行 jar 它应该执行相同的操作即
如何保留在 GRIDVIEW 中创建的动态控件的视图状态

我正在 gridview 控件中创建动态文本框 onRowCreated 事件但是当我尝试 findcontrol 时我得到 null 这就是我的东 protected void gvORg RowCreated object send
Kendo Grid 编辑内联自定义验证消息，例如对于重复的名称等

我有一个实体 Location 并且我正在使用具有内联编辑模式的 Kendo UI 网格该实体拥有一个属性显示名称这是必需的并且不得存在两次在数据库中 At the moment it works to display the Requ
如何在终端上导出路径中带有空格的环境变量

我刚刚下载了 Java 根据 Java 控制面板可执行文件位于此目录中 Library Internet Plug Ins JavaAppletPlugin plugin Contents Home bin java 现在我想导出一个环境
如何让 Rake 任务在所有其他任务之后运行？（即 Rake AfterBuild 任务）

我是 Rake 新手并使用它来构建 net 项目我感兴趣的是有一个摘要任务可以打印出已完成操作的摘要我希望这个任务总是被调用无论 rake 是用什么任务调用的有没有一种简单的方法可以实现这一点 Thanks 更新问题回复帕特里
创建易于维护的复制构造函数

考虑下面的类 class A char p int a b c d public A const A 请注意我必须定义一个复制构造函数才能执行 p 的深层复制这有两个问题大多数字段应该简单地复制一张一张地复制它们既丑陋又容易出错更
mysql搜索变音符号不敏感？

我如何使变音符号不敏感 ex 这个带有变音符号的波斯字符串巴里巴里巴里巴里巴里巴里巴里巴里巴里巴里与 mySql 中删除的变音符号不同巴里巴里巴里巴里巴里巴里巴里巴里巴里巴里巴里有没有办法告诉
R：聚合字符串[重复]

这个问题在这里已经有答案了我有一个数据框ModelDF具有包含数字和字符值的列例如 Quantity Type Mode Company 1 Shoe hello Nike 1 Shoe hello Nike 2 Jeans hello
无法在结构化流上评估 ML 模型，因为 RDD 转换和操作是在其他转换内部调用的

这是结构化流的一个众所周知的限制 1 我试图使用自定义接收器来解决它接下来 modelsMap是一个字符串键的映射org apache spark mllib stat KernelDensity models and streaming
sql中视图和表的区别

可能的重复视图和表在性能上的差异 https stackoverflow com questions 4576589 difference between views and tables in performance SQL 中视图和表
在配置单元配置上应用授权策略时出错：无法创建目录 ${system:java.io.tmpdir}\${hive.session.id}_resources

I run Hadoop 3 0 0 alpha1在 Windows 上并添加Hive 2 1 1到它当我尝试用以下命令打开蜂巢直线时hive命令我收到错误 Error applying authorization policy on h
如何在MySQL数据库中插入文件？

我想使用 Web 服务在远程 Web 服务器上的 MYSQL 数据库中插入一个文件我的问题是什么类型的表列例如 varchar 等将存储文件如果是文件插入语句会有所不同吗按 MySQL 类型划分的文件大小 TINYBLOB25
如何在 Spring MVC 3.0 中的表单中传递隐藏值？

如何在 Spring MVC 3 0 中的表单中传递隐藏值我无法使用以下方法为隐藏字段分配值
正则表达式从完整文件路径获取不带扩展名的文件名

如何从以下文件路径中提取不带扩展名的文件名 D Projects Extract downtown second pdf 以下正则表达式为我提供了带扩展名的文件名 e g downtown second pdf以下正则表达式给出不带扩展名的
尝试发送大尺寸图像时 WebSocket 断开连接

我正在使用 java 和 javascirpt 在 localhost 测试 WebSocket 运行 Tomcat 7 0 42 并且中间没有代理它可以很好地通过 websocket 发送文本和小尺寸图像但是当尝试发送大尺寸照片时
与同时异步任务的 SQLite 的多个连接

在我的场景中它有 Sync Class 与后台的 AsyncTasks 同步从我的应用程序到我的服务器每当我的应用程序执行一个需要更改 SQLite 数据的操作时第一步我的应用程序会更新我的本地数据库第二步会在后台抛出一个 Asy
如何解决错误：找不到包根？

我正在运行命令 devtools use testthat 我收到错误错误找不到包根目录为什么会出现这种情况 devtools现在似乎要求用户setwd path to package 即使函数像devtools release 有p
如何使用 PDFplumber 只提取 pdf 文件中没有表格的文本？

我想使用 NLP 模块处理一些 pdf 文件然后我想从所有现有表中清除这些文件这是使用 pdfplumber 提取表格的代码 import pdfplumber pdf pdfplumber open file pdf page pdf

如何使用 PDFplumber 只提取 pdf 文件中没有表格的文本？

如何使用 PDFplumber 只提取 pdf 文件中没有表格的文本？ 的相关文章

随机推荐

热门标签

如何使用 PDFplumber 只提取 pdf 文件中没有表格的文本？的相关文章