我正在寻找一种突出显示单词的方法(例如“一些话[0-9]") 或者更好的是在一些片面的 PDF 中包含给定单词的整行。
它将成为 Windows 上批处理的一部分,因此我需要一种命令行方式来执行此操作。我看过 Ghostscript,但不知道如何使用它。
希望我没有做错什么 - 我主要研究了其他问题使用正则表达式自动向 PDF 文件添加注释 https://stackoverflow.com/questions/4427034/add-comments-to-pdf-files-automagically-with-regular-expressions但这并没有真正帮助我,而且英语也不是我的母语 - 正如你可能已经注意到的那样。
提前致谢
Ghostscript 无法做到这一点。通用文本工具也不能,因为 (1) 大多数 PDF 在压缩块中具有文本命令,并且 (2) 文本通常不以任何标准方式“编码”。有时,字体提供 ToUnicode 映射,但通常甚至不提供,并且 (3) 看起来像文本的内容甚至可能不是文本——它可能只是位图图像。
像“mutool clean -d”这样的工具和“扩展”PDF,以便解决(1) - 可以在PDF中找到文本命令,但您仍然可能会遇到以下情况:
(!"##$) Tj
而不是 Hello 因为 (2)。即使使用标准编码,PDF 中的文本字距调整还有另一种方式:
[(H) 120 (e) 80 (l) 95 (l) 95 (o)] TJ
这也许是可能的,但非常困难,并且需要编程,并且仍然无法解决 (3)(这将需要位图文本的 OCR)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)