使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容

2024-01-20

我要废弃的网站是：

http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061 http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061

我想获取上面链接的最后页码以继续进行，在截图时为 499。

我的代码：

   from bs4 import BeautifulSoup 
   from urllib.request import urlopen as uReq
   from selenium import webdriver;import time
   from selenium.webdriver.common.by import By
   from selenium.webdriver.support.ui import WebDriverWait
   from selenium.webdriver.support import expected_conditions as EC
   from selenium.webdriver.common.desired_capabilities import         DesiredCapabilities

   firefox_capabilities = DesiredCapabilities.FIREFOX
   firefox_capabilities['marionette'] = True
   firefox_capabilities['binary'] = '/etc/firefox'

   driver = webdriver.Firefox(capabilities=firefox_capabilities)
   url = "http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061"

   driver.get(url)
   wait = WebDriverWait(driver, 10)
   soup=BeautifulSoup(driver.page_source,"lxml")
   containers = soup.findAll("ul",{"class":"pages table"})
   containers[0] = soup.findAll("li")
   li_len = len(containers[0])
   for item in soup.find("ul",{"class":"pages table"}) : 
   li_text = item.select("li")[li_len].text
   print("li_text : {}\n".format(li_text))
   driver.quit()

我需要帮助来找出代码中获取最后页码的错误。另外，如果有人给出相同的替代解决方案并提出实现我的意图的方法，我将不胜感激。

如果您想获取上述链接的最后页码以继续操作，即499你可以使用Selenium or Beautifulsoup如下：

硒：

from selenium import webdriver

driver = webdriver.Firefox(executable_path=r'C:\Utility\BrowserDrivers\geckodriver.exe')
url = "http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061"
driver.get(url)
element = driver.find_element_by_xpath("//div[@class='row pagination']//p/span[contains(.,'Reviews on Reliance Jio')]")
driver.execute_script("return arguments[0].scrollIntoView(true);", element)
print(driver.find_element_by_xpath("//ul[@class='pagination table']/li/ul[@class='pages table']//li[last()]/a").get_attribute("innerHTML"))
driver.quit()

控制台输出：

美丽汤：

import bs4
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen as uReq

url = "http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061"
uClient = uReq(url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
container = page_soup.find("ul",{"class":"pages table"})
all_li = container.findAll("li")
last_div = None
for last_div in all_li:pass
if last_div:
    content = last_div.getText()
    print(content)

控制台输出：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

seleniumwebdriver

beautifulsoup

screenscraping

使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何使用 Java 处理 Selenium WebDriver 中的新窗口？

这是我的代码 driver findElement By id ImageButton5 click Thread sleep 3000 String winHandleBefore driver getWindowHandle drive
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

使用 C# 编码波斯语字符串

我正在开发一个短信应用程序使用C 对于通过 SMS 网关向客户发送交易警报即 ATM 交易的银行该应用程序工作正常唯一的问题是编码波斯语文本它没有正确编码波斯语文本以下是将波斯语文本编码为 UTF 16 格式的方法 publi
如何从 .pb 转换为 .tflite？

我使用创建了一个对象检测模型Pytorch然后转换自 pth to onnx进而 pb 但现在我需要将其转换为 tflite适用于 Android 应用程序怎么做这是我第一次 input arrays 64 3 224 224 outp
编译Linux内核错误xt_CONNMARK.h

由于非常具体的原因我尝试编译 Linux 2 6 32 6 内核并在内核中内置了多个模块我已将根文件系统包含在 NFS 上以尝试通过 LAN PXE 启动我自己的自定义救援 Live CD 在包含 ROOT NFS 所需的依赖项和模
是否可以在不编写新文件的情况下将文本合成语音？

我想使用 GCP 文本到语音 API 合成文本到语音几乎我能找到的每个示例都会写入一个新文件我想在该函数输入文本并通过计算机扬声器读取它时执行此操作我一直在尝试转换 GCP 上传的代码表示你好世界我还没有找到一种方法可以在转换
将 SelectSingleNode 与 XPath 结合使用会返回 NULL

我尝试修改 XML 文件SelectSingleNode 文件的结构是
Rails 安装错误：“原子”本机 gem 需要安装构建工具[重复]

这个问题在这里已经有答案了我正在我的 Windows 上安装 Rails 3 我安装了最新的 ruby 2 0 0 并更新了 gems 但是当我使用 gem install Rails 安装 Rails 时成功的消息来了但最后我发现
自定义字体连字

我正在使用 Visual Studio Code 我看到所有这些很酷的字体连字用于双等号和三等号箭头等我不禁想知道是否有任何方法可以向字体或 VS Code 添加新的自定义连字我尝试进行一些网络搜索但似乎找不到任何内容例如当我
Ansible 内置 Lineinfile 到 ~/.bashrc

我对 ansible 比较陌生所以如果这个问题遗漏了一些东西我很抱歉我的目标是添加一行 bashrc使用 ansible 文件我认为最好的方法是ansible builtin lineinfile module 不幸的是我已经运行
AttributeError：无法设置 python 列表属性的属性

我正在与python docx来自分叉的库version https pypi org project bayoo docx 并且我在编辑元素列表时遇到问题因为它被定义为属性 docx document Document property
我什么时候应该使用 Rosette 的浅嵌入与深嵌入进行程序综合？

一些教程Rosette https docs racket lang org rosette guide index html引入程序综合使用浅嵌入 https docs racket lang org rosette guide ch e
无法使用无头模式 Selenium 定位元素

由于所有用户在访问我们的网站时必须使用谷歌浏览器这一限制我无法使用无头模式定位元素此限制是由我们的管理员添加的因此用户只能使用 Google Chrome 我的代码是 Test priority 1 public void set
套接字和管道的 select.select 问题

我目前正在编写一个使用管道和套接字的基本 python 脚本管道当前保存来自 html 表单的传入数据套接字建立与服务器的连接以不同的时间间隔发送 TCP IP 命令表单和服务器位于同一 LAN 但不同的计算机上我的代码如下 us
MaterialiseCSS 卡片设计

我正在尝试使用 Materializecss com 在我的个人网站中调整 Material Design 但是该框架仅提供在 CARD 设计之上排除其他图像的选项我想实现如下链接第 2 行第 2 列最后一张图片中所示的目标其中
当列表初始化为空时使用 ngFor 创建 mat-option 元素

当我在能力 mat select 中选择一项技能时我想更新专业化 mat select 中的值我使用以下命令将我的 var 与模型链接起来 ngModel 但它不会更新列表我尝试使用 ngModel 角度和材质为 7 HTML
使用 Keen IO 创建给定时间段内会话长度的直方图

我们正在尝试构建给定时间段内会话长度的直方图目前我们有 sess start 和 sess end 事件其中包含会话 id 和用户 id 我想知道计算这些数据的最佳方法是什么可以使用漏斗 API 来实现吗你结帐了吗Keen IO
Wolkenkit：用于授权和用户角色的 ACL

我试图了解如何扩展 wolkenkit auth 层假设我想要具有不同角色的用户普通主持人和管理员 normal用户可以查看和修改自己的内容但不允许修改其他用户的内容主持人用户可以修改所有条目但无权删除除自己内容之外的任何内容
与所有其他给定点具有最小曼哈顿距离的所有点 [优化]

这里的问题是找到所有整数点的集合它给出了给定点集的所有曼哈顿距离的最小总和例如让我们有一组给定的点 P1 P2 P3 Pn 基本问题是找到一个点 X 该点在距点 P1 P2 P3 Pn 的所有距离上具有最小总和即 P1 X P2 X
从 WebBackForwardList 获取 WebView 历史记录

我如何使用 WebView 获取历史记录Web后退转发列表班级我看了看文档页 http developer android com reference android webkit WebBackForwardList html但我无法理
Htaccess 重写规则 - 如果没有尾部斜杠则不起作用

所以我有以下重写规则 RewriteRule a z0 9 php index php page 1 NC L QSA RewriteRule a zA Z0 9 index php shop 1 page index NC L QSA R
使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容

我要废弃的网站是 http www mouthshut com mobile operators Reliance Jio reviews 925812061 http www mouthshut com mobile operators

使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容

硒：

美丽汤：

使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容的相关文章