使用 Python 搜索 PDF 中的文本？ [复制]

2023-12-09

Problem
我试图通过搜索文本来确定文档的类型（例如诉状、信件、传票等），最好使用 python。所有 PDF 都是可搜索的，但我还没有找到使用 python 解析它并应用脚本来搜索它的解决方案（不需要先将其转换为文本文件，但这对于 n 个文档来说可能是资源密集型的）。

到目前为止我做了什么
我研究了 pypdf、pdfminer、adobe pdf 文档以及我能找到的任何问题（尽管似乎没有一个问题可以直接解决这个问题）。 PDFminer 似乎最有潜力，但在阅读完文档后我什至不知道从哪里开始。

有没有一种简单、有效的方法来阅读 PDF 文本，无论是按页、按行还是整个文档？或者还有其他解决方法吗？

这称为 PDF 挖掘，并且非常困难，因为：

PDF 是一种旨在打印而非解析的文档格式。在 PDF 文档中，大多数情况下，文本没有特定的顺序（除非顺序对于打印很重要）原始文本结构丢失（字母可能无法分组因为单词和单词可能不会分组在句子中，并且它们的放置顺序纸张通常是随机的）。
生成 PDF 的软件有很多，但很多都有缺陷。

PDFminer 等工具使用启发式方法根据字母和单词在页面中的位置再次对其进行分组。我同意，界面水平相当低，但当你知道时它就更有意义了他们试图解决什么问题（最后，重要的是选择字母/单词/行与相邻字母/单词/行的距离必须有多远才能被视为段落的一部分）。

一个昂贵的替代方案（就时间/计算机能力而言）是为每个页面生成图像并将其输入 OCR，如果您有很好的 OCR，可能值得一试。

所以我的答案是否定的，不存在从 PDF 文件中提取文本的简单有效的方法 - 如果您的文档具有已知的结构，您可以微调规则并获得良好的结果，但这始终是一场赌博。

我真的很想被证明是错的。

[update]

答案没有改变，但最近我参与了两个项目：其中之一是使用计算机视觉从扫描的医院表格中提取数据。另一个从法庭记录中提取数据。我学到的是：

计算机视觉在 2018 年将成为普通人的能力。如果您有大量已分类文档的样本，您可以使用 OpenCV 或 SciKit-Image 来提取特征并训练机器学习分类器来确定文档的类型。
如果您正在分析的 PDF 是“可搜索的”，您可以使用类似软件提取所有文本pdf转文本和贝叶斯过滤器（与垃圾邮件分类算法相同）。

因此，没有可靠且有效的方法从 PDF 文件中提取文本，但您可能不需要一种方法来解决手头的问题（文档类型分类）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python 搜索 PDF 中的文本？ [复制] 的相关文章

Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

使用 libre office 创建的 Acrofield 不可填写代码，除非我编辑 pdf 一次

我正在 Libre Office 中创建表单控件并将文档导出为 pdf 尝试使用 itextsharp 即 C 程序设置控件文本框的文本只会清空该框但是如果我使用 acrobat reader 打开 pdf 并编辑框中的文本则将
将 C# 代码组织到不同的文件中

我的主代码文件已经达到了大约一千行长并且变得难以管理也就是说我开始感到困惑不知道在哪里可以找到一些东西评论很好但是东西太多了我真的希望能够将我的代码组织到不同的文件中每个文件都有自己的用途当我编辑这些其他文件时我希望在输入
带有图像和标签的 Python GTK3 按钮

我试图获取带有图像和标签的按钮但没有成功我可以有带有标签或图像的按钮但不能两者兼而有之这是我的代码部分 try pb Pixbuf new from file at size myimg jpg 100 100 except pb
想了解为什么 switch_to_alert() 收到删除线以及如何修复

我试图接受一个简单的模态警报只有确定按钮的屏幕弹出窗口但 driver switch to alert 中的 switch to alert 正在接收删除线在 pycharm 上我正在使用 OpenPyxl 的数据驱动测试脚
swig 没有匹配的重载函数

我在使用 SWIG 将 C 代码包装在 PHP 中时遇到问题我有一个 C 类其方法声明如下 int hexDump string dmpstr bool space true const 我还将 std string i 包含在我的接口
使用 LINQ 在 C# 中合并字典

我有三本字典比如 Dictionary
CoreData 中 NSDictionary 属性的更新未保存

我在 CoreData 中创建了一个实体其中包含作为 NSDictionary 实现的 Transformable 属性类型 NSDictionary 属性仅包含自定义类的值自定义类的属性都是NSString类型自定义类符合 NSCo
将 JSON 对象反序列化为嵌套 C# 对象

Edit 我想我应该提到我无法控制 JSON 并且我知道通常我的 C 对象应该与 JSON 匹配我的问题不是为什么这不反序列化我知道为什么不是我问是否有一种方法可以按照我要求的方式反序列化 JSON 我正在使用 Newtonsoft
将 for 循环转换为向量（向量化）

对于那些超级专家我想知道您是否看到一种快速方法将以下 for 循环转换为更有效的单行向量计算 Define A size n 1 B size n m C size n 1 B 2 200 3 300 4 400 C 1 2 1 for
以下用于添加到内存引用的字节说明符在 NASM 汇编器中起什么作用？

下面的代码 section data Snippet db KANGAROO section text global start start mov ebx Snippet add byte ebx 32 将 BX 中的内存地址所指的数字加
Swift 字符串文字赋值给 C 变量

在 Swift 中当调用 C 函数时 Swift 字符串作为参数传递时会自动强制转换为 CString 但是在填写 C 结构体或全局变量时我没有得到相同的行为 strlen swiftString Works CGlobalStruc
Asp.net mvc 多对多关系视图

大家好我创建了几个实现多对多关系的模型现在我在正确格式化设计创建和编辑视图时遇到问题这是我的模型学生模型 namespace HMS Models Table Students Schema Admission public
使用 Cognito 用户池，而不使用 Cognito 联合身份（身份池）

我只想使用 Cognito 用户池因此我想将身份联合与 Cognito 用户池一起使用而不使用 Cognito 联合身份身份池我已按照文档进行操作但无法成功 http docs aws amazon com cognito lat
如何使用 canvas 和 Kinetic.js 裁剪图像

我的函数绘制一个图像并使用 Kinetic js 在另一层上绘制另一个图像但我想裁剪名为 smsTopBg image 的第二个图像 window onload function INITIALISATION var stage new
Android Google Drive API 异常：403 禁止

我正在开发一个可以访问 Google Drive 上用户的 appdata 文件夹的应用程序当我处于调试模式时该应用程序运行良好当我发布应用程序并尝试连接到 Google Drive 时在选择要连接的帐户后它会出现此错误 com
如何从TSQL调用Web服务？（SQL 服务器 2000）

我想从 SQL Server 2000 中的 TSQL 调用 Web 服务我尝试使用以下代码 Declare Object as Int Declare ResponseText as Varchar 8000 Exec sp OACre
在 Javascript 中打印 div 标签的内容而不使用弹出窗口

我正在努力打印 div 标签的内容而不弹出窗口我的代码现在看起来像这样 var DocumentContainer document getElementById print var WindowObject window open Co
折叠 git 存储库的历史记录

我们有一个有着悠久历史的 git 项目具体来说在项目早期项目中有相当多的二进制资源文件这些文件现在已被删除因为它们实际上是外部资源然而由于之前已提交这些文件我们的存储库的大小 gt 200MB 当前总签出约为20MB 我们想
Prolog 递归计算列表中的数字

我需要一个程序来计算列表中的所有数字无论它们嵌套得有多深我能够在数字不在另一个列表内的情况下对数字进行计数但通过深度嵌套元素进行递归是行不通的到目前为止我有这个 count 0 count H Tail N count Tail N
使用 Python 搜索 PDF 中的文本？ [复制]

这个问题在这里已经有答案了 Problem我试图通过搜索文本来确定文档的类型例如诉状信件传票等最好使用 python 所有 PDF 都是可搜索的但我还没有找到使用 python 解析它并应用脚本来搜索它的解决方案不需要先将其转换

使用 Python 搜索 PDF 中的文本？ [复制]

使用 Python 搜索 PDF 中的文本？ [复制] 的相关文章

随机推荐

热门标签