python 和 pyPdf - 如何从页面中提取文本，以便行与行之间有空格

2024-01-01

目前，如果我使用 pyPdf 和 extractText() 创建 pdf 页面的页面对象，会发生的情况是行连接在一起。例如，如果页面的第 1 行显示“hello”，第 2 行显示“world”，则从 extractText() 返回的结果文本是“helloworld”而不是“hello world”。有谁知道如何解决这个问题，或者有解决方法的建议？我真的需要文本在行之间有空格，因为我正在对此 pdf 文本进行文本挖掘，并且行之间没有空格会杀死它......

这是 pdf 解析的常见问题。在某些情况下，您还可能需要修复尾随破折号。我为我的一个项目想出了一种解决方法，我将很快在这里描述：

I used pdfminer http://www.unixuser.org/~euske/python/pdfminer/index.html从 PDF 中提取 XML，并在 XML 中找到串联的单词。我提取了与 HTML 相同的 PDF，并且 HTML 可以通过以下正则表达式行进行描述：

<span style="position:absolute; writing-mode:lr-tb; left:[0-9]+px; top:([0-9]+)px; font-size:[0-9]+px;">([^<]*)</span>

跨度是绝对定位的，并且具有顶部样式，您可以使用它来确定是否发生换行。如果发生换行并且最后一行的最后一个单词没有尾随破折号，您可以将最后一行的最后一个单词和当前行的第一个单词分开。虽然细节可能很棘手，但您也许能够修复几乎所有文本解析错误。

此外，您可能想运行一个字典库，例如enchant http://www.rfk.id.au/software/pyenchant/在您的文本中查找错误，如果词典建议的修复类似于错误词，但在某处有空格，则错误词可能是解析错误，可以使用词典建议进行修复。

解析 PDF 很糟糕，如果您找到更好的来源，请使用它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python 和 pyPdf - 如何从页面中提取文本，以便行与行之间有空格的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m

随机推荐

Angular - 在应用程序组件中获取路线数据

我在中配置了以下路由app routing module ts const routes Routes path abc id component AbcComponent data category Public path xyz id
如何动态定义一个类方法来引用外部的局部变量？

class C end var I am a local var outside C class eval do def self a class method puts var end end 我知道这是不正确的因为def创建了一个新
使用Android Studio将html文件从assets文件夹加载到android上的webview

我正在使用 Android Studio Gradle app src main android asset 文件夹中有一个名为 Chart html 的文件我正在尝试将此文件加载到我的网络视图中如下所示 WebView view ne
如何从 python 中使用 Seaborn 创建的直方图中删除透明度？

我正在 python 中使用seaborn 创建直方图并想要自定义颜色默认设置创建透明的直方图我希望我的直方图是实心的如何去除透明度我尝试创建调色板并将去饱和度设置为 0 但这并没有改变生成的直方图的饱和度 Example In
ASP.NET MVC 为每个操作命中输出缓存

我们正在使用 ASP NET MVC 3 和 AppFabric 作为分布式缓存解决方案来运行相当大的站点构建我们实现了一个自定义 OutputCacheAdapter 来使用我们的 AppFabric 集群我们看到 ASP NET 为
PHP Documentor 中的注释关联数组

我在 PHP 应用程序中使用了多个关联数组并且使用 PHP 文档管理器来注释我的源代码我从来没有真正为数组中的数组指定注释但现在我需要这样做但不知道如何做 array array id gt test class gt tester
Skype：接收链接时阻止显示图像

在 Skype 中当有人向我发送链接例如https github com sameersbn docker postgresql blob master docker compose yml 我没有将链接视为文本而是将其视为图像单击
获取有关 YouTube 直播的实时信息

我正在构建一个网页来显示我不管理的几个 YouTube 频道的直播状态该页面将显示所选频道的列表并带有 red dot在任何正在直播的频道旁边我还希望网页实时更新该状态因此如果频道开始直播我需要立即添加点当频道停止直播时我需要
迁移以将新数据行插入 Room DB

我正在制作一个新版本的应用程序其新功能需要 Room DB 中的设置表中包含更多行数据尽管我的数据库在结构上没有改变没有新表没有列更改等但我正在考虑在 Room DB 上运行新的迁移 DB v2 gt v3 只是为了将这些新数据行
尽管导入了Python模块的包，但访问Python模块失败

我的 Django 项目的目录层次结构如下所示 pybsd devices templates views interaction init py geraete py geraetemodelle py geraetegruppen py
Collection.loadTable：在 GEE 中找不到

当我尝试在 Google Earth Engine Asset 中上传 shp 文件并在 Python 中导入时如下所示 self TS POP ee FeatureCollection 用户 arafayknysys pop TS 当我
vert.x 获取 - 无法创建子事件循环

我正在创建大约 150 个大小约为 5MB 的文件 Vertx 文件 API 在创建 10 15 个文件后随机给出异常无法创建子事件循环我使用的是 vertx 3 和 java 8 下面是我的代码片段在我收到回调后我只能再次调用该函
python、lxml 和 xpath - html 表解析

我对 lxml 很陌生对 python 也很陌生找不到以下问题的解决方案我需要导入一些包含 3 列和从第 3 行开始的未定义行数的表当任何行的第二列为空时该行将被丢弃并且表的处理将中止以下代码可以很好地打印表的数据但之后我无
需要 js 删除定义以强制重新加载

出于测试目的我尝试删除一些 amd 模块并从服务器重新加载更新版本目标是不刷新浏览器我目前正在执行以下操作但浏览器仍然不会从网络重新加载项目 var scripts document getElementsByTagName scr
使用 Cocoa Lumberjack 日志框架立即刷新日志语句，NSLog 刷新到控制台的方式

许多 iOS 开发者发现Cocoa Lumberjack 日志框架 https github com robbiehanson CocoaLumberjack readme满足这么简单的需求NSLog声明没有这让人想起 Java 世界中的
如果前五列中为 NaN，则删除行

我有一个 pandas 数据框尺寸为 89 行 x 13 列我想删除一个entire row if NaN出现在前五列中这是一个例子 LotName C15 C16 C17 C18 C19 Spots15 Spots16 Cherry
如何使除一个之外的一组互斥属性中的任何一个

我有一个遗留 API 我试图在 JSON 模式中定义该对象有一个奇怪的结构其中有一组 4 个属性其中任何一个都是必需的并且其中 3 个是互斥的之后还有 30 多个共享可选属性我将它们标记为 e g foo bar baz 123
是否可以使用 TortoiseSVN 获取统计数据？

是否可以获得有关每个用户贡献总行数等的统计数据您可以通过使用显示日志然后统计 IIRC 底部的按钮来获取基本统计数据
如何将对象插入流星集合

我刚刚开始学习 Meteorjs 问题多于答案我想将我的应用程序的翻译存储到临时集合中并订阅 Iron Router 来发布它我有一个字典对象我想将其插入到集合中这是我的做法 In 服务器 translations js tran
python 和 pyPdf - 如何从页面中提取文本，以便行与行之间有空格

目前如果我使用 pyPdf 和 extractText 创建 pdf 页面的页面对象会发生的情况是行连接在一起例如如果页面的第 1 行显示 hello 第 2 行显示 world 则从 extractText 返回的结果文本是 he

python 和 pyPdf - 如何从页面中提取文本，以便行与行之间有空格

python 和 pyPdf - 如何从页面中提取文本，以便行与行之间有空格 的相关文章

随机推荐

热门标签

python 和 pyPdf - 如何从页面中提取文本，以便行与行之间有空格的相关文章