rvest 和 NHL 统计数据的 CSS 选择器问题

2024-05-17

我想从 hockey-reference.com 中抓取数据，特别是从以下链接中抓取数据：

https://www.hockey-reference.com/leagues/NHL_1991.html https://www.hockey-reference.com/leagues/NHL_1991.html

我想要第四个表，称为“团队统计”，我还想减去第一行和最后一行（但这可以是另一次）。

最初，我希望抓取 1991 年的链接，但我希望最终抓取 1991 年到 2017 年的每个链接。

library(tidyverse)
library(rvest)

stat_urls <- "https://www.hockey-reference.com/leagues/NHL_1991.html"

现在，为了简单起见，我只有 1991 年的链接。在使用实际网页的“检查”源进行相当彻底的搜索之后，我似乎无法找到正确的 css 选择，即使我已经尝试了多种不同的选择。我尝试过以下 css 选择：

table#stats.sortable.stats_table.now.sortable
#stats
#all_stats
#all_stats > div.table_outer_container
#stats
#stats > tbody
#div_stats (and all sorts of combos with this one)

当在以下代码中使用时，这些都不起作用：

team_stats <- stat_urls %>% 
 read_html() %>%
 html_nodes("#stats") %>% 
 html_table(header = T)

所有使用“xpath=”的尝试也都失败了。对此的任何帮助都将是绝对惊人的，Go Preds！

您可以尝试使用 RSelenium。在这里看到了类似的答案：使用 R 的网页抓取篮球参考 https://stackoverflow.com/questions/48778493/web-scraping-basketball-reference-using-r.

library(rvest)
library(RSelenium)
startServer() 
remDr<-remoteDriver(browserName = "chrome")
remDr$open()

remDr$navigate("https://www.hockey-reference.com/leagues/NHL_1991.html")
page <- read_html(remDr$getPageSource()[[1]])
table <- html_table(page, fill = TRUE)
table[[28]]

虽然安装 selenium 很痛苦，我也会尝试提供帮助，但我不久前安装了它，所以不太记得了。祝你好运

来自发布原始问题的人：

上面的答案有效，但我必须通过 Homebrew：

https://brew.sh/

然后我不得不使用这里的以下代码：

# download selenium jar
curl -L0 https://selenium-release.storage.googleapis.com/3.9/selenium- 
server-standalone-3.9.1.jar -o selenium-server-standalone.jar

# install chromedriver
brew install chromedriver

# start chrome driver
brew services start chromedriver                                                                                                                                                                      
#==> Successfully started `chromedriver` 
(label:homebrew.mxcl.chromedriver)

# start selenium server
java -jar selenium-server-standalone.jar                                                                                                                                                                           
#14:38:20.684 INFO - Selenium build info: version: '3.9.1', revision: 
'63f7b50'
#14:38:20.685 INFO - Launching a standalone Selenium Server on port 
4444

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html

css

r

rvest

rvest 和 NHL 统计数据的 CSS 选择器问题的相关文章

使用 R Markdown 文档作为函数源

我正在研究 R Markdown 来记录我经常使用的功能我会将它们放入 R Markdown 文件中以记录它们然后如果我几个月后回来查看它就能够阅读我在函数背后的想法我的问题是如果我开始一个新的 R 项目是否可以获取 r mar
来自大型数据帧的共现

我有一个数据框其中包含有关每个用户访问过哪些城市的信息 df visited lt data frame user c john john claire claire doe doe city c Antananarivo Barcelo
带滚动条的 HTML 画布

我正在宽度不等的画布上绘制图表每个画布可以有自己的滚动条吗我尝试将所有画布放在一个 div 中并指定最大宽度但它不起作用是否有可能所有画布在页面上的可见宽度均为 500 像素并且每个画布都有其滚动条来查看画布的整个宽度谢谢指定
输入类型=“时间”超过24小时

我刚刚遇到以下问题在网络应用程序用户界面中我希望用户输入响应消息的时间范围以小时为单位时间范围应最长为 72 小时我们很乐意使用
如何在缩放动画中保持原点位于图像中心？

我有类似的情况fiddle https jsfiddle net ddvn3p1h 3 其中我有一个 CSS3 动画可以缩放绝对定位在另一个元素中心的元素但是当动画发生时它会偏离中心如示例中相对于蓝色的红色方块所示我如何将其居中
如何对范围内的行进行分组并考虑第三列？

我有一个遗传数据集我想对基因组中物理上靠近的遗传变异行进行分组我想对每条染色体基因组中某些点范围内的基因进行分组 chrom 我的点数据集包含变体行需要在一定范围内的位置如下所示 chrom low high 1 500 17
jQuery - 拖动div css背景

我希望能够在 div 内按住鼠标并移动它的背景在谷歌上搜索了很多没有找到我想要的这是目标显示的地图是要拖动的对象 http pontografico net pvt gamemap http pontografico net pvt
如果值大于或小于，则替换数据框中的值

我在 R 中操作数据帧时遇到问题这是 R 中的基本内容但我找不到执行此类操作的最佳命令虚拟示例 Var1 20 300 39 Var2 49 23 91 Var3 0 239 210 我怎样才能用10如果值小于则在第 2 列中10
更改文本框中一个字符的颜色 HTML/CSS [重复]

这个问题在这里已经有答案了我正在设计一个网站我想问一下大家如何通过CSS改变HTML文本框中字符串中的一个字符的颜色示例 STACK OVER FLOW 只是 A 字母是红色的你不能用常规方法做到这一点
在列标题和配对变量中嵌入数据的数据透视表

假设我有这样的数据不幸的是变量值嵌入在列名称中 library tidyr library dplyr dat lt tribble group var1 var meta1 var2 var meta2 group1 5 2 cat
从 3.1 返回后加载 Rails 3（服务器）时出现问题

Rails 完全菜鸟我正在使用 Hartl 教程到了第 4 章 CSS 4 1 2 一切看起来都很顺利但遇到了一个问题使页面上的文字看起来
.net dropdownlist对齐文本

我正在尝试将 net 下拉列表中的文本向右对齐使用 CssClass 我可以在 Firefox 中将文本向右对齐 IE 不会将文本右对齐而是左对齐我读到 IE 6 不支持这个这是真的我使用的是 IE7 但我的大多数用户将使用 IE
如何使用 Facet R 添加线条[重复]

这个问题在这里已经有答案了所以我有一个多面图我希望能够向其中添加随每个面而变化的线这是代码 p lt ggplot mtcars aes x wt geom histogram bins 20 aes fill factor cyl
SVG 剪辑路径在 Safari 上不起作用

我有一个简单的动画从下往上填充 svg 然后淡出填充是使用clipPath随着使用path with a stroke dasharray stroke dashoffset 问题是clipPath在 Safari 上似乎完全被忽略了
按名称包含在单个对象中的多个列对 data.frame 进行排序？

我想排序一个data frame由多列组成理想情况下使用基础 R 无需任何外部包尽管如果有必要就这样吧读过如何按列对数据框进行排序 https stackoverflow com questions 1296646 how to s
如何更改 div 悬停时的跨度颜色

我正在尝试更改 div 悬停时跨度的颜色如何使红色汉堡按钮即跨度在 div 悬停时将颜色更改为黑色 PS 现在它在跨度的悬停上执行此操作 JSFiddle https jsfiddle net bjjbqct8 https jsfid
ggplot2 + 使用比例 X 的日期结构

我真的需要帮助因为我已经迷路了我正在尝试创建一个折线图显示几个团队一年来的表现我将一年分为几个季度 2012 年 1 月 1 日 2012 年 4 月 1 日 2012 年 8 月 1 日 12 1 12 并将 csv 数据帧加载到
R中data.frame（列表）的列平均值

Data https i stack imgur com ZYsmv jpg 请我需要计算此 data frame 中维吉尼亚币 Sepal Length 列的平均值 Sepal Length Sepal Width Petal Leng
从 leafletProxy() 返回渲染的传单地图

是否可以在渲染后在 Shiny 中检索传单地图下面是一个代码示例展示了如何生成地图leaflet 与返回的不同leafletProxy 即使它们在渲染时看起来完全相同是否有一个功能可能不同于leafletProxy 获取实际的 htm
解压 R 数据框中的列表

我有一个dataframe其中一个字段包含不同长度的列表我想将该字段中列表的每个元素提取到其自己的字段中以便我可以将结果收集到一个很长的字段中dataframe每个列表元素都有一个 id 这是一个例子dataframe dat lt s

随机推荐

是否可以在 OpenCL 中并行运行求和计算？

我是 OpenCL 的新手不过我了解 C C 基础知识和 OOP 我的问题如下是否可以以某种方式并行运行求和计算任务理论上可能吗下面我将描述我尝试做的事情任务例如是 double values new double 1000 l
以编程方式更改任务栏图标（Win32，C++）[重复]

这个问题在这里已经有答案了我有一个 C win32 程序我想在运行时编辑任务栏图标以显示有关该程序的警报等但是我对 win32 api 不太有经验而且我找不到任何东西在线的我发现的最接近的是http www windows tec
Django：分解视图

这实际上只是一个最佳实践问题我发现在开发应用程序时我经常会遇到a lot的意见将这些视图分成几个视图文件是常见的做法吗换句话说不仅仅是views py 通常还有views 1 py views 2 py views 3 py
将 MahApps 图标与 ContextMenu 结合使用

我正在使用 MahApps Metro UI 工具包编写 WPF 应用程序 http mahapps com guides quick start html http mahapps com guides quick start html
两个 pandas 列的字符串连接

我有一个关注者DataFrame from pandas import df DataFrame foo a b c bar 1 2 3 它看起来像这样 bar foo 0 1 a 1 2 b 2 3 c 现在我想要这样的东西 bar 0
vb.net HtmlAgilityPack 在 div 之后插入字符串

我试图在 div 末尾直接插入一些我自己的 html 这个 div 里面有其他 div Dim HtmlNode As HtmlNode HtmlNode CreateNode span class Those were the frien
如何在 python 中使用 urllib2 加快获取页面的速度？

我有一个脚本可以获取多个网页并解析信息一个例子可以在我在上面运行了 cProfile 正如我所假设的 urlopen 占用了很多时间有没有办法更快地获取页面或者一次获取多个页面的方法我会做最简单的事情因为我是 python 和网
开发者可以在 Windows 应用程序中使用 iCloud 吗？

开发人员可以使用 Apple 的 iCloud API 在 Mac OS X 和 iOS 上的不同版本的应用程序之间同步应用程序数据如果开发人员拥有 Windows 版本的应用程序该版本是否也可以使用 iCloud 将应用程序数据与 M
我可以根据多列删除数据库重复项吗？

I 不久前问过这个问题 https stackoverflow com questions 4952250 how to delete duplicates from a database table based on a certain
如何使用 seResult 或 startActivityForResult 从外部应用程序活动获取 onActivityResult 数据

我分别有两个应用程序客户端和卖家应用程序我想为客户端应用程序付款并获得卖家应用程序的回复不管怎样我在卖家应用程序中启用了深度链接概念客户端应用程序它在客户端应用程序内有三个活动页面获取详细信息第一个活动页面并显示确认第二
内存调试：如何获取 Linux 用户空间/内核空间中的锁定页面信息

有什么方法可以获取Linux用户空间内核空间中的锁定页面虚拟内存页面信息我想了解详细信息例如谁锁定了页面有多少页被锁定进程名称谁锁定了页面还让我了解内核空间和用户空间的内存调试技术对于内存中的每个页面都会为其分配标志
如何在Spring-Boot中创建DefaultMessageListenerContainer？

我是 Spring Boot 的新手并尝试创建 DefaultMessageListenerContainer 以便我可以使用 weblogic workmanager 并以多线程方式运行多个消息侦听器有人可以提供一些例子吗到目前为止
如何为 pyarrow 设置 libhdfs.so 的路径？

我正在尝试使用 pyarrow 但不断收到以下错误 ImportError Can not find the shared library libhdfs3 so 所以我读了一些 stackoverflow 它说我需要为 ARROW LIB
NSUserDefaults 多久同步一次？

的文档NSUserDefaults说synchronise方法被定期调用但没有提及频率 10分钟的谷歌搜索没有发现任何信息发生的频率是多少synchronise方法调用这是一个未公开的实现细节可能甚至不是一个恒定的时间间隔但是您
Visual C++ 打开第二个窗体

我有一个包含两个表单的项目 Form1 h 和 Form2 h 每个的 cpp 文件是test cpp 和Form2 cpp 我想通过单击按钮从第一个表单打开第二个表单其中我已经有代码放置在 button1 Click 方法内 Form
互联网 RFC 数据包图中预期的位（不是字节）顺序是哪个

我正在我的家庭有线网络上解析 ICMPv6 数据报但在特定 RFC 中找不到对位排序约定的明确提及多字节字段是网络顺序的但是字节内的位又如何呢机器是按字节寻址的但网络硬件对位进行序列化在图表中 8 位字段左侧的一位最终位于无
简单的 Xml - 元素的顺序未保留？

我在我的 Android 应用程序中使用 SimpleXml 2 6 1 尽管文档 http simple sourceforge net download stream doc javadoc index html org simplef
PHPExcel下载文件

我想下载使用 PHPExcel 生成的 Excel 文件我按照以下代码PHPExcel 强制下载问题 https stackoverflow com questions 26265108 phpexcel force download i
将 Pandas TimeDelta 转换为整数

假设我有一个包含 TimeDelta 数据的 Pandas Series 事实上它是通过将 DateTimeIndex 与其自身的移位版本进行差值生成的从而给出了连续时间戳之间的增量它看起来像 timestamp 2015 02 01
rvest 和 NHL 统计数据的 CSS 选择器问题

我想从 hockey reference com 中抓取数据特别是从以下链接中抓取数据 https www hockey reference com leagues NHL 1991 html https www hockey refer

rvest 和 NHL 统计数据的 CSS 选择器问题

rvest 和 NHL 统计数据的 CSS 选择器问题 的相关文章

随机推荐

热门标签

rvest 和 NHL 统计数据的 CSS 选择器问题的相关文章