我想将 doc/docx 文档转换为语义 HTML。
一些愿望/要求:
-
语义 HTML,文档中的标题为
、 等,表格为
最好能够处理标题、列表、表格和图像。图表和数学公式是一个很好的补充。
• 不必直接从doc/docx 转换为html,可以使用中间格式,例如xml 或docbook。
• 应以编程方式工作并处理大量文档。
到目前为止我找到的最接近解决方案的是http://holloway.co.nz/docvert/index.html,但不幸的是有很多错误,用户基数小,并且无法处理大量文档。更多的是概念证明。
“文档中的标题是”
我认为这是不可能的。
因为MS Word只写结果,有不同的风格<p>
就像纸上的印刷文本一样,原始信息不会被记录。
您的其他愿望可以得到满足。
有两个商业工具可以做到这一点
(不要相信那些免费工具或在线工具,它们不做真正的工作。)
1 Zapadoo 的文字清理工具
www.zapadoo.com
2 Wonder Studio 的 HTML Cleaner for Wordwww.htmlcleaner.com
我更喜欢去年刚刚发布的第二个。你可以两者都尝试一下。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)