从 pdf 中提取文本的最佳方法是什么?
The CAM::PDF http://search.cpan.org/perldoc?CAM%3a%3aPDF模块对于提取文本和维护有关文本在文档中来源的一些信息非常有用。它安装 /usr/local/bin/getpdftext.pl ,演示简单的提取。但是,CAM::PDF 只能读取完全有效的 PDF。
如果您正在处理格式不正确的 PDF,则可能需要更宽松的解析器,例如 pdftotext。它将 foo.pdf 转储到 foo.txt,然后您可以将其读入 Perl。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)