显然,这不是一件容易的事,PDF 格式比 HTML 格式丰富得多(而且您必须提取图像并链接它们等)。
简单的文本提取要简单得多(尽管并不简单......)。
我在你的问题的侧栏中看到了类似的问题:使用 Python 将 PDF 转换为 HTML https://stackoverflow.com/questions/276434/converting-pdf-to-html-with-python它指向一个库(poppler,显然是用 C++ 编写的,也许可以使用 JNI/JNA 访问)以及一个提供更多答案的相关问题。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)