我正在尝试从篮球参考网站抓取球队统计网页,但当我使用 readHTML 时,它只会带回前两个表格。
我的 R 代码如下所示:
url = "http://www.basketball-reference.com/leagues/NBA_2015.html"
teamPageTables = readHTMLTable(url)
这将返回一个列表,其中仅包含页面上最上面的两个表。我希望得到一个包含页面中所有表格的列表。
我还尝试将 rvest 与我想要的表(杂项统计表)的 XPath 一起使用,但也没有运气。
BBR 是否更改了一些内容来阻止抓取。我什至看过其他关于抓取团队网站的帖子,这些帖子指出他想要的表位于索引 16...我复制了他的代码,但仍然一无所获。
任何帮助将不胜感激。谢谢,
因为其他表都在注释中,readHTMLTable()
不捕获它。但是,请考虑使用以下命令读取 URL 文本readLines
然后删除评论标签<!--
and -->
,从那里相应地解析文档。原来页面上有 85 个表!下面摘录了可立即在屏幕上查看的 10 个表格:
library(XML)
# READ URL TEXT
url <- "http://www.basketball-reference.com/leagues/NBA_2015.html"
urltxt <- readLines(url)
# REMOVE COMMENT TAGS
urltxt <- gsub("-->", "", gsub("<!--", "", urltxt))
# PARSE UNCOMMENTED TEXT
doc <- htmlParse(urltxt)
# RETRIEVE ALL <table> TAGS
tables <- xpathApply(doc, "//table")
# LIST OF DATAFRAMES
teamPageTables <- lapply(tables[c(1:2,19:26)], function(i) readHTMLTable(i))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)