将 doc/docx 转换为语义 HTML

2023-11-30

我想将 doc/docx 文档转换为语义 HTML。

一些愿望/要求:

  1. 语义 HTML,文档中的标题为

    等,表格为

    等。
  2. 最好能够处理标题、列表、表格和图像。图表和数学公式是一个很好的补充。

• 不必直接从doc/docx 转换为html,可以使用中间格式,例如xml 或docbook。

• 应以编程方式工作并处理大量文档。

到目前为止我找到的最接近解决方案的是http://holloway.co.nz/docvert/index.html,但不幸的是有很多错误,用户基数小,并且无法处理大量文档。更多的是概念证明。


“文档中的标题是” 我认为这是不可能的。 因为MS Word只写结果,有不同的风格<p>就像纸上的印刷文本一样,原始信息不会被记录。

您的其他愿望可以得到满足。 有两个商业工具可以做到这一点 (不要相信那些免费工具或在线工具,它们不做真正的工作。)

1 Zapadoo 的文字清理工具 www.zapadoo.com
2 Wonder Studio 的 HTML Cleaner for Wordwww.htmlcleaner.com

我更喜欢去年刚刚发布的第二个。你可以两者都尝试一下。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 doc/docx 转换为语义 HTML 的相关文章

随机推荐