我正在将 XML 文档解析为我自己的结构,但对于大型输入来说构建它非常慢,是否有更好的方法来做到这一点?
public static DomTree<String> createTreeInstance(String path)
throws ParserConfigurationException, SAXException, IOException {
DocumentBuilderFactory docBuilderFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder db = docBuilderFactory.newDocumentBuilder();
File f = new File(path);
Document doc = db.parse(f);
Node node = doc.getDocumentElement();
DomTree<String> tree = new DomTree<String>(node);
return tree;
}
这是我的 DomTree 构造函数:
/**
* Recursively builds a tree structure from a DOM object.
* @param root
*/
public DomTree(Node root){
node = root;
NodeList children = root.getChildNodes();
DomTree<String> child = null;
for(int i = 0; i < children.getLength(); i++){
child = new DomTree<String>(children.item(i));
if (children.item(i).getNodeType() != Node.TEXT_NODE){
super.children.add(child);
}
}
}
UPDATE:
我使用 100MB XML 文件对 createTreeInstance() 方法进行了基准测试:
- 创建 docBuilderFactory...完成 [3ms]
- 创建 docBuilder...完成 [21ms]
- 正在解析文件...完成 [5646ms]
- getDocumentElement...完成 [1ms]
- 创建 DomTree...完成 [17076ms]
UPDATE:
正如 John Doe 在下面建议的那样,使用 SAX 可能更合适 - 我以前从未使用过 SAX,那么有没有一个好的方法可以将我必须的内容转换为使用 SAX?
如果您要解析大型 XML,则不会使用 DOM,而是使用 SAX、拉式解析器(例如 XPP3 或其他任何解析器)。
问题是内存中不会有一个可能很方便的“XML 树”,您只能获取事件并相应地处理它们。然而,这将是内存明智的,并且您可以将元素映射到数据结构。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)