R 中的 readHTMLTable 仅从篮球参考页面返回前两个表

2024-01-04

我正在尝试从篮球参考网站抓取球队统计网页，但当我使用 readHTML 时，它只会带回前两个表格。

我的 R 代码如下所示：

url = "http://www.basketball-reference.com/leagues/NBA_2015.html"
teamPageTables = readHTMLTable(url)

这将返回一个列表，其中仅包含页面上最上面的两个表。我希望得到一个包含页面中所有表格的列表。

我还尝试将 rvest 与我想要的表（杂项统计表）的 XPath 一起使用，但也没有运气。

BBR 是否更改了一些内容来阻止抓取。我什至看过其他关于抓取团队网站的帖子，这些帖子指出他想要的表位于索引 16...我复制了他的代码，但仍然一无所获。

任何帮助将不胜感激。谢谢，

因为其他表都在注释中，readHTMLTable()不捕获它。但是，请考虑使用以下命令读取 URL 文本readLines然后删除评论标签，从那里相应地解析文档。原来页面上有 85 个表！下面摘录了可立即在屏幕上查看的 10 个表格：

library(XML)

# READ URL TEXT
url <- "http://www.basketball-reference.com/leagues/NBA_2015.html"
urltxt <- readLines(url)
# REMOVE COMMENT TAGS
urltxt <- gsub("-->", "", gsub("<!--", "", urltxt))

# PARSE UNCOMMENTED TEXT
doc <- htmlParse(urltxt)

# RETRIEVE ALL <table> TAGS
tables <- xpathApply(doc, "//table")

# LIST OF DATAFRAMES
teamPageTables <- lapply(tables[c(1:2,19:26)], function(i) readHTMLTable(i))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

webscraping

R 中的 readHTMLTable 仅从篮球参考页面返回前两个表的相关文章

我无法下载 R 中的 reshape2 包 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试安装 R 包时收到此响应 gt installed packages reshape2 Package LibPath V
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
尝试读取 CSV 文件时出现“无法识别的字符串转义”

我正在尝试导入一个 csv文件以便我可以观看此视频 R ggplot2 图形直方图 http www youtube com watch v 47kWynt3b6M 我安装了所有正确的软件包包括ggplot以及相关的包视频中的第一个说
在 R 中绘制 Likert 变量的堆积条形图

假设我有一个如下所示的数据框 P Q1 Q2 1 1 4 1 2 2 3 4 3 1 1 4 其中的列告诉我哪个人相应地回答了问题 q1 q2 中的哪一个这些问题需要按照 4 分李克特量表进行回答例如批准表示 1 稍微批准表示 2
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
Purrr::map_df() 删除 NULL 行

使用时purrr map df 我偶尔会传递一个数据框列表其中一些项目是NULL 当我做 map df 返回行数少于原始列表的数据框我想发生的事情是这样的map df calls dplyr bind rows 它忽略了NULL价值观
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
在 r 中的 group_by 之后建模后取消列表列的嵌套

我想对所有组进行线性回归group by 将模型系数保存在列表列中然后使用 unnest 扩展列表列这里我用的是mtcars以数据集为例注我想用do here becausebroom tidy 不适用于所有型号 mtcars gt
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
如何在 R 或 Python 中制作旭日图？

到目前为止我一直无法找到一个可以创建旭日图的 R 库约翰斯塔斯科 http www cc gatech edu gvu ii sunburst 有人知道如何在 R 或 Python 中实现这一点吗在极坐标投影中使用 matplotli
所有 x 轴标签未以 45 度显示

I m having the code as like below But I m not getting all the x axis labels and it is not displaying in 45 degree when I
投资决策：R中的NPV、IRR、PB计算

我正在尝试计算不同数量项目的净现值 NPV 内部收益率 IRR 和投资回收期 PB 时间以评估哪个投资项目提供最佳回报到目前为止我可以为每个项目单独计算几行代码但我想做的是编写一个函数它接受一个包含许多不同项目及其现金流的矩阵
如何在将两根柱子保持在一起的同时熔化柱子？

我有这种宽格式的数据我想将其转换为长格式 Cond Construct Line Plant Tube shoot weight shoot Tube root weight root 1 Standard NA NA 2 199 95
R：使用 tidyverse 将 NA 替换为 df 中的其他变量

我想使用 tidyverse 替换 df 中的 NA 值我想要的值应该从其他列中计算出来 input ID X1 X2 X3 A 0 96 NA 0 97 B 1 00 NA 1 01 C 0 98 0 03 NA A 1 00 NA 1
实三次多项式的最快数值解？

R 问题寻找最快的方法来数值求解一堆已知具有实系数和三个实根的任意三次方程据报道 R 中的 polyroot 函数对复杂多项式使用 Jenkins Traub 算法 419 但对于实多项式作者参考了他们早期的工作对于实三次或更一般的
任意列中包含字符串的子集行

我有一个如下所示的数据集 Col1 Col2 Col3 abckel NA 7 jdmelw njabc NA 8 jdken jdne 如何对数据集进行子集化使其仅保留包含字符串 abc 的行最终预期输出 Col1 Col2 Col3
线性判别分析图

如何将样本 ID 行号作为标签添加到此 LDA 图中的每个点 library MASS ldaobject lt lda Species data iris plot ldaobject panel function x y points

随机推荐

批处理文件 - 如何使用 for 循环批量更改所有特定变量

以下代码接受批处理文件的所有命令行参数就我而言我有大约 30 个命令行参数它们都是 1 2 或 3 的数字我接受它们然后想将它们重新分配给其他字符我想要每个var 如果是1 就改成如果是2 就改成如果是3 就改成第一部分效果
PHP get_browser：如何识别 ie7 和 ie6？

有没有办法使用 PHP 的 get browser 函数来区分 IE7 和 IE6 您可以这样做 browser get browser if browser gt browser IE browser gt majorver 6 echo
Android Studio 将目录标记为测试源根

我在 build gradle 中做了一些操作来删除 androidTest java 包的绿色突出显示我不知道如何把它找回来 IntelliJ 在上下文菜单中有一个将目录标记为测试源根目录选项但我在 Android Studio
使用 Python 3 将 Pig Latin 翻译成英语

正如您将在下面的代码中看到的我已经制作了一个将英语翻译成 Pig Latin 的程序它遵循两个规则如果单词以元音开头则应附加 way 例如 apple 变为 appleway 如果单词以辅音序列开头则该序列应移至末尾以 a 为前
重复上下动画 div

我想要一个使用 jquery 重复上下移动的 div 换句话说 div 从某个位置的顶部开始向下移动然后向上移动并重复此过程从上到下大约有 1 秒的时间间隔再回到顶部大约有 1 秒的时间间隔有slideUp和slideDown以及
发送以 HTML 文件作为正文的电子邮件 (C#)

如何使用 HTML 文件设置 MailMessage 的正文只需设置邮件消息正文格式 http msdn microsoft com en us library system web mail mailmessage bodyformat
Scala 的“With”语句等效吗？

也许是 Scala 学习者的闲思但是在我的修改中我写了以下内容 n child size gt 0 n child filter isInstanceOf Text size 0 n 是 scala xml Node 但这并不重要特
对二维点数组进行排序以找出四个角

您好我有任何大小的二维点的集合通过查找原点之间距离的最小值和最大值我能够找出左上角和右下角点但我无法找出顶部右点和左下点也许你可以使用cv approxPoly 找到二维点集的角点然后您可以通过以下方式按您想要的任何顺序对点进
hibernate用于动态表创建

我是一个 HIBERNATE 初学者因为我需要创建其中包含动态字段的动态表所以我选择使用 hibernate 据我了解创建表需要一个类其中包含类中定义的字段如何根据具有所需字段的表动态生成类我不确定我是否理解这个问题标题是关于
Android使用EGL初始化openGL2.0上下文

我想在Android上用本机代码进行离屏图像处理所以我需要通过EGL在本机代码中创建openGL上下文通过EGL 我们可以创建EGLSurface 我可以看到那里有三个选择 EGL WINDOW BIT EGL PIXMAP BIT E
如何在 Visual Studio 2005/2008 中编译 Flex？

我无法弄清楚这一点我可以从 gnuwin32 下载 flex 2 5 4a 的 win32 二进制文件但我想使用 Visual Studio 2005 构建最新版本 2 5 35 我想我可以在 cygwin 中构建但其中的乐趣在哪里
Django 日志记录旋转文件不起作用

所以我在 Django 日志记录到达时遇到了一些问题maxBytes尺寸基本上当发生这种情况时文件似乎不会旋转并创建新文件有人告诉我这可能与服务器的写入权限有关但我不确定如何正确设置以便 django 在旧日志文件已满时能够创建
如何更改移动布局上的 Bootstrap 3 列顺序？

我正在制作一个带有顶部固定导航栏的响应式布局下面有两列一列用于侧边栏 3 一列用于内容 9 在桌面上看起来像这样 navbar 3 9 When I resize移动navbar被压缩并隐藏然后侧边栏堆叠在内容之上如下所示 navb
在Android中将位图的大小减小到某个指定的像素

我想将我的位图图像尺寸减小到最大 640 像素例如我有尺寸为 1200 x 1200 px 的位图图像如何将其减小到 640px 如果你传递位图width and height然后使用 public Bitmap getResiz
通过 git URL 从 lerna 管理的 monorepo 安装包

我在我的项目中使用纱线我的项目有一个依赖项它恰好是 lerna 维护的较大 monorepo 的子包子包已更新但尚未发布我需要未发布的代码有没有办法通过git url安装lerna的子包 Thanks 如果您的问题是如何通过 g
如何实现记住我功能？ [复制]

这个问题在这里已经有答案了可能的重复为网站实施记住我的最佳方式是什么 https stackoverflow com questions 244882 what is the best way to implement rememb
HttpResponseMessage 内容不会显示 PDF

我创建了一个 Web Api 它返回一个 HttpResponseMessage 其中内容设置为 PDF 文件如果我直接调用 Web Api 它会很好地工作并且 PDF 会在浏览器中呈现 response Content new Str
Spark - 使用不同的数据类型以编程方式创建模式

我有一个由 7 8 个字段组成的数据集这些字段的类型为 String Int 和 Float 我尝试使用以下方法通过编程方法创建架构 val schema StructType header split map column gt Str
Zend框架2访问模型类中的全局配置

我有一个模型类它不扩展任何核心 Zend 模块该模型是从我之前的 Zend Framework 1 应用程序导入的我可以通过将其转换为命名空间来调用它的方法我遇到的问题是在定义的方法中读取全局配置对于控制器我可以使用以下代码访问
R 中的 readHTMLTable 仅从篮球参考页面返回前两个表

我正在尝试从篮球参考网站抓取球队统计网页但当我使用 readHTML 时它只会带回前两个表格我的 R 代码如下所示 url http www basketball reference com leagues NBA 2015 html

R 中的 readHTMLTable 仅从篮球参考页面返回前两个表

R 中的 readHTMLTable 仅从篮球参考页面返回前两个表 的相关文章

随机推荐

热门标签

R 中的 readHTMLTable 仅从篮球参考页面返回前两个表的相关文章