使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取

2024-05-22

我想解析这个 HTML: 并从中获取这个元素：

a) p标签，与class: "normal_encontrado".
b) div with class: "price".

有时，p某些产品中不存在标签。如果是这种情况，NA应添加到从该节点收集文本的向量中。

这个想法是有两个长度相同的向量，然后将它们连接起来以形成一个data.frame。有任何想法吗？

HTML 部分：

<html>
<head></head>
<body>

<div class="product_price" id="product_price_186251">
  <p class="normal_encontrado">
    S/. 2,799.00
  </p>

  <div id="WC_CatalogEntryDBThumbnailDisplayJSPF_10461_div_10" class="price">
    S/. 2,299.00
  </div>    
</div>

<div class="product_price" id="product_price_232046">
  <div id="WC_CatalogEntryDBThumbnailDisplayJSPF_10461_div_10" class="price">
    S/. 4,999.00
  </div>
</div>
</body>
</html>

R Code:

library(rvest)

page_source <- read_html("r.html")

r.precio.antes <- page_source %>%
html_nodes(".normal_encontrado") %>%
html_text()

r.precio.actual <- page_source %>%
html_nodes(".price") %>%
html_text()

使用 XML 包解析输入xmlTreeParse然后使用xpathSApply迭代product_price class div节点。对于每个这样的节点，匿名函数获取div and p子节点。得到的字符矩阵m被重新加工成数据框DF并且列被清理，删除所有不是点或数字的字符，并删除所有点后跟非数字。将结果转换为数字。注意，对于缺失的部分没有特殊处理p需要案例。

# input

Lines <- '<html>
<head></head>
<body>

<div class="product_price" id="product_price_186251">
  <p class="normal_encontrado">
    S/. 2,799.00
  </p>

  <div id="WC_CatalogEntryDBThumbnailDisplayJSPF_10461_div_10" class="price">
    S/. 2,299.00
  </div>    
</div>

<div class="product_price" id="product_price_232046">
  <div id="WC_CatalogEntryDBThumbnailDisplayJSPF_10461_div_10" class="price">
    S/. 4,999.00
  </div>
</div>
</body>
</html>'

# code to read input and produce a data.frame

library(XML)
doc <- xmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)

m <- xpathSApply(doc, "//div[@class = 'product_price']", function(node) {
  list(p = xmlValue(node[["p"]]), div = xmlValue(node[["div"]])) })

DF <- as.data.frame(t(m), stringsAsFactors = FALSE) # rework into data frame
DF[] <- lapply(DF, function(x) as.numeric(gsub("[^.0-9]|[.]\\D", "", x))) # clean

结果是：

> DF
     p  div
1 2799 2299
2   NA 4999

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

webscraping

rvest

使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取的相关文章

在 data.table 中进行浅复制

我在一个 SO 主题中读到 Matt Dowle 关于一个问题的回答shallow函数进行浅拷贝data table 然而我再也找不到话题了 data table没有任何调用的导出函数shallow 有一个内部的但没有记录我可以安全地
由于 NA，无法对数据帧进行子集化（过滤）

为什么在 dplyr 下面的代码中filter不返回与基本 R 子集相同的 data frame 事实上它们都没有按预期工作我想删除观察行同时 b 1 AND c 1 也就是说我只想删除第三行 require dplyr df l
使用填充美学两次，具有两种不同的比例[重复]

这个问题在这里已经有答案了我正在尝试在一组多边形的顶部使用分组箱线图来绘制一个图并且希望使用填充美学来基于连续变量为多边形着色并且箱线图基于单独的分组变量我发现了几篇文章可以帮助我获得多边形上的箱线图并且找到了其他有相关问题的人
如何在 R 中调整/控制树形图中的比例（使用“portfolio”库）？

我正在使用 R 和 portfolio 库来构建树形图比例默认为 1000 到 1000 例如我需要它是 0到1000 我知道 map market 有一个 scale 参数但我不知道要传递给它什么围绕零的对称颜色映射被硬编码到ma
如何在 RSM (R) 中填充轮廓颜色并写入轴名称

我有以下数据 ct lt structure list Conc c 50L 100L 150L 50L 100L 150L 50L 100L 150L 100L 100L 100L kGy c 10L 10L 10L 15L 15L 15
闪亮错误：参数暗示行数不同

我正在尝试开发一个简单的应用程序从 Kijiji 网站获取本地分类广告我用几乎相同的脚本制作了一个类似的应用程序但我没有收到下面描述的错误所以我不知道这个脚本出了什么问题我尝试了我能想到的一切但无法让它发挥作用的结构df数据框
我们可以使用什么方法来重塑非常大的数据集？

当由于非常大的数据计算将花费很长时间并且因此我们不希望它们崩溃时事先知道要使用哪种重塑方法是很有价值的 Lately methods for reshaping data have been further developed regar
R 中带有文件名的 For 循环

我有一个文件列表例如 nE pT sbj01 e2 2 csv nE pT sbj02 e2 2 csv nE pT sbj04 e2 2 csv nE pT sbj05 e2 2 csv nE pT sbj09 e2 2 csv nE
将循环转换为并行计算的函数

我正在使用 R 编程语言我遇到这个问题我试图找出两个 shapefile 之间的成对交集即第一个 shapefile 中的每个多边形与第二个 shapefile 中的所有多边形相交的百分比我想我找到了解决这个问题的基本方法 Load
R 根据事件更新值

我最近发布了这个问题该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关由于我在 Mysql 中没有找到问题的解决方案其他人似乎也没有找到解决方案所以我想再次发布它但现在与 R 相关我使用带有 RMysql 包的数据库
R::bigmemory - 如何创建角色big.matrix？

我尝试使用bigmemory封装在R我一开始就陷入困境我愿意 temp lt matrix paste a 1 10 5 2 并得到一个字符矩阵没关系但后来我尝试 x lt as big matrix temp type char 我
ggplot2可以在一个图例中分别控制点大小和线大小（线宽）吗？

一个使用的例子ggplot2绘制数据点组和连接每组均值的线并使用相同的映射aes for shape并为linetype p lt ggplot mtcars aes gear mpg shape factor cyl linetype
基于另一个数据集获取数据集的子集

假设我有一个数据集即 dat1 ID block plot SPID TotHeight 1 1 1 4 44 5 2 1 1 4 51 3 1 1 4 28 7 4 1 1 4 24 5 5 1 1 4 27 3 6 1 1 4 20
如何解决 TypeError: element_to_be_clickable() 需要 1 个位置参数？

我收到错误TypeError element to be clickable takes 1 positional argument but 2 were given当我运行以下代码时 from selenium webdriver chr
如何从 R 运行带有特定模块的 perl 脚本？

我可以从终端运行 perl 脚本 myperlscript pl 没有任何问题但是如果我尝试从 RStudio 中运行相同的 perl 脚本则会出现以下错误 command lt myperlscript pl outputfile
删除ggplot2中的负图区域[重复]

这个问题在这里已经有答案了如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域请参见下面的示例我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
如何从 Fortran 调用 R 函数？

根据http gallery rcpp org articles r function from c http gallery rcpp org articles r function from c Rcpp 允许用户从 C 调用 R 函数
正则表达式字符串中第一个和最后一个非点的位置

我希望找到字符串的第一个和最后一个非点元素的位置理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码不过我对一个感兴趣regex解决方案感谢您的任何建议这是一个示例数据集和R代码以获得所需的结果此代码拆分字符串并使
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要

随机推荐

为什么 Google 的自定义搜索 API 提示我在使用 Ruby 客户端时缺少访问令牌？

我正在尝试使用Google 的自定义搜索 API http code google com apis customsearch v1 using rest html通过Google API Ruby 客户端 http code google
在 Google Apps 脚本中，如何为我实现的服务设置 HTTP 响应代码？

假设我有一个返回 XML 文档的服务 function doGet var result
阻止 GWT 中的事件冒泡

我有以下代码片段 changeTextArea 是一个 TextArea 对象 changeTextArea addKeyboardListener new KeyboardListenerAdapter public void onKey
angularjs - 将对象数组（JSON 数据）发布到 PHP 页面

我的 JSON 数据的示例如下 scope a email keval gmail permissions upload 1 edit 1 email new aa permissions upload 1 edit 1 我想发布同样的内容
DateTimePicker 的选择范围无法正常工作

kendo DatePicker 中是否有任何默认方法可以确保 To 日期始终大于或等于 From 日期这是我尝试过的代码 http jsfiddle net 5bchz 58 我的范围选择代码 function startChange
cuda-gdb 错误消息

我尝试使用 cuda gdb 调试我的 CUDA 应用程序但遇到了一些奇怪的错误我设置了选项 g G O0构建我的应用程序我可以在没有 cuda gdb 的情况下运行我的程序但没有得到正确的结果因此我决定使用 cuda gdb 但
在 shell 中处理 json 时，例如使用curl，如何正确地将多个 jq 语句链接在一起？

我是 jq 新手所以如果这不是 jq 问题或 json 问题请为我指出正确的方向我不确定正确的术语因此我很难正确地阐明问题我正在使用curl 来提取一些json 我想过滤掉具有特定值的键以下是一些示例 json id 593f4
与 GridSearchCV 的并行错误，与其他方法一起工作正常

我使用 GridSearchCV 时遇到以下问题它在使用时给我一个并行错误n jobs gt 1 同时n jobs gt 1与 RadonmForestClassifier 等单一模型配合良好下面是一个显示错误的简单工作示例 train
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
使用 ngx-translate 时更改 URL

当有人使用 ngx translate 单击所选语言时我尝试更改 URL 我想我应该通过订阅语言更改事件然后修改当前的 url 以反映所选的语言来做到这一点因为我是新手所以我不确定是否需要服务来做到这一点或者可能是另一种解决方法我
如何在Java中实现复合模式？

我想实现一个复合模式Java以便绘制软件开发组织图因此我们假设有多个项目经理和多个开发人员每个开发人员都被分配给一位项目经理并且每个开发人员都能够使用各种编程语言进行编码项目经理领导开发人员并准确了解他们的工作量我对这个设计模式
Capistrano 3 部署无法连接到 GitHub - 权限被拒绝（公钥）

我使用 Capistrano v3 和 capistrano symfony gem 设置了以下部署脚本我正在使用 Ubuntu 14 4 部署到 AWS EC2 实例我正在连接从 AWS 下载的 pem 文件我的deploy rb中
PHP 是否有可重用的路由器/调度程序？

我正在使用一个简单的框架它根据查询参数处理请求 http example com index php event listPage http example com index php event itemView id 1234 我想将
MongoDB：计算数组中的项目数

我有一个集合其中集合中的每个文档都有一个名为的数组foo包含一组嵌入文档目前 MongoDB shell 中是否有一种简单的方法来计算其中有多少个实例foo 就像是 db mycollection foos count or db my
创建 Pyomo 约束的性能

我正在用 pyomo 设置一个更大的能量优化问题正如其他中提到的设置花费了不合理的时间问题 https stackoverflow com questions 43413067 performance of pyomo to gener
是否可以将数组传递给 Amazon Redshift 上的准备好的语句？

我需要将一个数组传递给 AWS Redshift 上定义的准备好的语句来过滤我的查询由于 Redshift 不支持此功能因此我尝试使用 Python UDF 找到解决方法就像是 a function to split a comma
Elasticsearch 无法获取颁发者证书

我正在尝试使用 LetsEncrypt 加密 tls 证书但我的服务器页面显示 Kibana server is not ready yet 这是错误 etc kibana kibana yml type log timestamp 20
从哈希中删除 nil 值

我希望从哈希中删除具有nil value article是一个存储每篇文章的类并且attributes方法将文章存储为散列预期结果 articles results author null title Former bar manage
Android中从一个应用程序向另一个应用程序发送数据时的加密

我想将敏感数据从一个应用程序发送到另一个应用程序我使用 Intent 并通过 Bundle 发送数据现在我应该使用加密算法来加密要发送的数据同时接收器应用程序将解密数据哪种算法最适合移动平台我浏览过RSA文档建议不建议用于长文
使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取

我想解析这个 HTML 并从中获取这个元素 a p标签与class normal encontrado b div with class price 有时 p某些产品中不存在标签如果是这种情况 NA应添加到从该节点收集文本的向量中这个

使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取

使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取 的相关文章

随机推荐

热门标签

使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取的相关文章