目前,如果我使用 pyPdf 和 extractText() 创建 pdf 页面的页面对象,会发生的情况是行连接在一起。例如,如果页面的第 1 行显示“hello”,第 2 行显示“world”,则从 extractText() 返回的结果文本是“helloworld”而不是“hello world”。有谁知道如何解决这个问题,或者有解决方法的建议?我真的需要文本在行之间有空格,因为我正在对此 pdf 文本进行文本挖掘,并且行之间没有空格会杀死它......
这是 pdf 解析的常见问题。在某些情况下,您还可能需要修复尾随破折号。我为我的一个项目想出了一种解决方法,我将很快在这里描述:
I used pdfminer http://www.unixuser.org/~euske/python/pdfminer/index.html从 PDF 中提取 XML,并在 XML 中找到串联的单词。我提取了与 HTML 相同的 PDF,并且 HTML 可以通过以下正则表达式行进行描述:
<span style="position:absolute; writing-mode:lr-tb; left:[0-9]+px; top:([0-9]+)px; font-size:[0-9]+px;">([^<]*)</span>
跨度是绝对定位的,并且具有顶部样式,您可以使用它来确定是否发生换行。如果发生换行并且最后一行的最后一个单词没有尾随破折号,您可以将最后一行的最后一个单词和当前行的第一个单词分开。虽然细节可能很棘手,但您也许能够修复几乎所有文本解析错误。
此外,您可能想运行一个字典库,例如enchant http://www.rfk.id.au/software/pyenchant/在您的文本中查找错误,如果词典建议的修复类似于错误词,但在某处有空格,则错误词可能是解析错误,可以使用词典建议进行修复。
解析 PDF 很糟糕,如果您找到更好的来源,请使用它。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)