我正在尝试使用 async、await 和 HttpClient 下载网页,但只得到一个充满特殊字符的字符串...代码就像...
static async void DownloadPageAsync(string url)
{
HttpClient client = new HttpClient();
client.DefaultRequestHeaders.TryAddWithoutValidation("Accept", "text/html,application/xhtml+xml,application/xml");
client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");
client.DefaultRequestHeaders.TryAddWithoutValidation("User-Agent", "Mozilla/5.0 (Windows NT 6.2; WOW64; rv:19.0) Gecko/20100101 Firefox/19.0");
client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Charset", "ISO-8859-1");
HttpResponseMessage response = await client.GetAsync(url);
response.EnsureSuccessStatusCode();
var responseStream = await response.Content.ReadAsStreamAsync();
var streamReader = new StreamReader(responseStream);
var str = streamReader.ReadToEnd();
}
网址是
url = @"http://www.nseindia.com/live_market/dynaContent/live_watch/live_index_watch.htm";
当我这样做的时候
client.DefaultRequestHeaders.Add("User-Agent",
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2;
WOW64; Trident/6.0)");
在这四个 DefaultRequestHeaders 的位置,我收到了 403 错误,但这是 nse 站点,并且对所有人免费。请朋友们帮助我得到正确的答复。
问候
斯里瓦斯塔瓦
client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");
这样你就告诉服务器你允许它压缩响应gzip https://en.wikipedia.org/wiki/Gzip/deflate https://en.wikipedia.org/wiki/DEFLATE。因此,响应实际上是经过压缩的,这解释了为什么您会得到这样的响应文本。
如果您想要纯文本,则不应添加标头,因此服务器不会压缩响应。如果删除上面的行,您将获得正常的 HTML 响应文本。
或者,您当然可以保留该标头并使用解压缩响应压缩流 https://msdn.microsoft.com/en-us/library/system.io.compression.gzipstream.aspx收到后。那会像这样工作:
using (var responseStream = await response.Content.ReadAsStreamAsync())
using (var deflateStream = new GZipStream(responseStream, CompressionMode.Decompress))
using (var streamReader = new StreamReader(deflateStream))
{
var str = streamReader.ReadToEnd();
Console.WriteLine(str);
}
理想情况下,您应该检查response.Content.Headers.GetValues("Content-Encoding")
确保编码是gzip
。既然你也接受了deflate
作为可能的编码,您可以使用放气流 https://msdn.microsoft.com/en-us/library/system.io.compression.deflatestream.aspx解码它;或者不解码任何内容,以防 Content-Encoding 标头丢失。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)