我想从从互联网下载的 html 页面中提取几个链接,我认为使用 linq to XML 对于我的情况来说是一个很好的解决方案。
我的问题是我无法从 HTML 创建 XmlDocument,使用 Load(string url) 不起作用,所以我使用以下方法将 html 下载到字符串:
public static string readHTML(string url)
{
HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse res = (HttpWebResponse)req.GetResponse();
StreamReader sr = new StreamReader(res.GetResponseStream());
string html = sr.ReadToEnd();
sr.Close();
return html;
}
当我尝试使用 LoadXml(string xml) 加载该字符串时,出现异常
'--' is an unexpected token. The expected token is '>'
我应该采取什么方式将html文件读取为可解析的XML
HTML 与 XML 根本不同(除非 HTML 实际上恰好符合 XML 模式中的 XHTML 或 HTML5)。最好的方法是使用HTML解析器读取 HTML。然后,您可以将其转换为 Linq to XML – 或直接处理它。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)