我正在刮这个网站使用“rvest”包。当我迭代函数太多次时,我收到“open.connection(x, "rb") 中的错误:已达到超时”。我搜索过类似的问题,但答案似乎进入了死胡同。我怀疑它是服务器端的,并且该网站对我可以访问该页面的次数有内置限制。如何研究这个假设?
代码:我有指向底层网页的链接,并希望使用从关联网页中提取的信息构建一个数据框架。我稍微简化了我的抓取功能,因为使用更简单的功能仍然会出现问题:
scrape_test = function(link) {
slit <- str_split(link, "/") %>%
unlist()
id <- slit[5]
sem <- slit[6]
name <- link %>%
read_html(encoding = "UTF-8") %>%
html_nodes("h2") %>%
html_text() %>%
str_replace_all("\r\n", "") %>%
str_trim()
return(data.frame(id, sem, name))
}
我使用 purrr-package map_df() 来迭代该函数:
test.data = links %>%
map_df(scrape_test)
现在,如果我仅使用 50 个链接迭代该函数,我不会收到任何错误。但是当我增加链接数量时,我遇到了前面提到的错误。此外,我收到以下警告:
- “在bind_rows_(x, .id)中:不相等的因子级别:强制转换为字符”
- “关闭未使用的连接4(link)"
EDIT:以下创建链接对象的代码可用于重现我的结果:
links <- c(rep("http://karakterstatistik.stads.ku.dk/Histogram/NMAK13032E/Winter-2013/B2", 100))