我用过Html敏捷包 http://html-agility-pack.net/?z=codeplex过去在 .Net 中解析 HTML,但我不喜欢它只使用 DOM 模型。
在大型文档和/或具有大量嵌套的文档上,可能会遇到堆栈溢出或内存不足异常。另外,一般来说,基于 DOM 的解析模型比基于流的方法使用更多的内存,通常是因为想要使用 HTML 的进程可能一次只需要几个可用元素。
有谁知道 .Net 的一个不错的 HTML 解析器,它允许您以类似于XmlReader
班级?即以仅向前流的方式
我通常使用 SgmlReader 来实现此目的:https://github.com/MindTouch/SGMLReader https://github.com/MindTouch/SGMLReader
正如其他人所说,HTML 存在一些问题,它不遵循与 XML 相同的格式良好的规则,因此它本质上很难解析,但 SgmlReader 通常做得很好。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)