使用 PyQt / QtWebkit 抓取多个链接

2023-12-28

我正在尝试抓取一个大型政府记录网站，这需要“滚雪球”方法，即从主搜索页面开始，然后按照抓取工具找到的每个链接到达下一页。

我已经能够使用 PyQt 加载主页这个 SiteScraper 教程 http://blog.sitescraper.net/2010/06/scraping-javascript-webpages-in-python.html#comment-form.

import sys
from PySide.QtGui import *
from PySide.QtCore import *
from PySide.QtWebKit import *
from BeautifulSoup import BeautifulSoup

class Render(QWebPage):
      def __init__(self, url):
           self.app = QApplication(sys.argv)
           QWebPage.__init__(self)
           self.loadFinished.connect(self._loadFinished)
           self.mainFrame().load(QUrl(url))
           self.app.exec_()

      def _loadFinished(self, result):
           self.frame = self.mainFrame()
           self.app.quit()

def main():
    baseUrl = 'http://www.thesite.gov'
    url = 'http://www.thesite.gov/search'
    r = Render(url)
    html = r.frame.toHtml()
    # use BeautifulSoup to cycle through each regulation
    soup = BeautifulSoup(html)

regs = soup.find('div',{'class':'x-grid3-body'}).findAll('a')

# cycle through list and call up each page separately
for reg in regs:
    link = baseUrl + reg['href']
    link = str(link)
    # use Qt to load each regulation page
    r = Render(link)

    html = r.frame.toHtml() # get actual rendered web page

问题是当我尝试渲染新网页时出现此错误：

RuntimeError: A QApplication instance already exists.

我知道该函数正在尝试调用另一个 QApplication 实例。但是如何导航到具有相同实例的新页面？

class Render(QWebPage):
     def __init__(self, app, url):
          QWebPage.__init__(self)
          self.loadFinished.connect(self._loadFinished)
          self.mainFrame().load(QUrl(url))
          app.exec_()

     def _loadFinished(self, result):
          self.frame = self.mainFrame()

def main():
    app = QApplication(sys.argv)

    baseUrl = 'http://www.thesite.gov'
    url = 'http://www.thesite.gov/search'

    r = Render(app, url)
    html = r.frame.toHtml()

我遇到了同样的问题（需要使用 QWebPage 加载多个页面），但我无法得到任何适合我的答案。这是有效的，关键是使用Q事件循环并将 loadFinished 连接到loop.quit：

from PySide import QtCore, QtGui, QtWebKit
import sys

def loadPage(url):
      page = QtWebKit.QWebPage()
      loop = QtCore.QEventLoop() # Create event loop
      page.mainFrame().loadFinished.connect(loop.quit) # Connect loadFinished to loop quit
      page.mainFrame().load(url)
      loop.exec_() # Run event loop, it will end on loadFinished
      return page.mainFrame().toHtml()

app = QtGui.QApplication(sys.argv)

urls = ['https://google.com', 'http://reddit.com', 'http://wikipedia.org']
for url in urls:
      print '-----------------------------------------------------'
      print 'Loading ' + url
      html = loadPage(url)
      print html

app.exit()

在这里发布一个与OP相比的简化示例，以演示基本问题和解决方案。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

QT

QT4

webscraping

使用 PyQt / QtWebkit 抓取多个链接的相关文章

NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
Qt - ubuntu中的串口名称

我在 Ubuntu 上查找串行端口名称时遇到问题如您所知为了在 Windows 上读取串口我们可以使用以下代码 serial gt setPortName com3 但是当我在 Ubuntu 上编译这段代码时我无法使用这段代码 se
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

使用雪花连接器获取数据会引发 EmptyPyArrowIterator 错误

我在 python 脚本 plotly dash 应用程序中使用 python Snowflake 连接器今天在我不更改代码的情况下该应用程序停止工作我尝试了一些方法来找出可能出现的问题我什至尝试运行示例代码雪花文档 https
未捕获的 ReferenceError：进程未定义/第 0 行：解析错误

For a simple Create React App https create react app dev project I run npm install Then npm start opens the default web
MongoDB - 使用嵌套字典查找条目

我有一个与 python 一起使用的 MongoDB 我的条目如下所示 a something b something c d something e something f something 我想查询具有特定 d 和 e 值的条目但我
无锁竞技场分配器实现 - 正确吗？

对于一个简单的指针增量分配器它们有正式名称吗我正在寻找一种无锁算法这看起来微不足道但我想得到一些反馈看看我的实现是否正确非线程安全实现 byte head current head of remaining buffer byt
Java全对算法

给定一个整数集合有什么 Java 算法可以给出所有的项对如下所示给定示例集合 1 3 5 我们想要输出 1 1 3 3 5 5 1 3 1 5 3 5 请注意顺序并不重要因此我们需要 1 3 3 1 之一但不能同时两者这应该适
检测 Windows Phone 7 是否连接到桌面 Zune 软件

我已经在 Windows Phone 7 应用程序上工作了几个月并且拥有一组有用的检测标志这些标志用于测试代码是否在模拟器中后台前台线程上或在设计时间看完整列表在这里 http silverlightzxing codeplex
(html) phpmyadmin 中文本字段的所见即所得编辑器

我正在制作一个小型网站我需要谁接手来添加一些内容存储在三个表中到 2013 年 9 月最多将有 500 条记录小东西现在我正在使用 phpmyadmin 但添加文本其中一个表格是一个迷你博客需要基本的 html 技能我确信
Python文件缓存

我正在从文件创建一些对象来自模板 xsd 文件的验证器以将其他 xsd 文件组合在一起并且我想在磁盘上的文件发生更改时重新创建对象我可以创建类似的东西 def getobj fname cache try obj lastloade
L2 取指未命中率远高于 L1 取指未命中率

我正在生成一个综合 C 基准测试旨在通过以下 Python 脚本导致大量指令获取丢失 usr bin env python import tempfile import random import sys if name main fun
Azure 函数-System.Net.Http

我遇到了很多麻烦System Net Http使用 Azure Functions 时的库如果我在门户中创建一个全新的 httptrigger 函数它就可以正常工作不过我想用我自己的预编译汇编 https github com Az
如何在 AngularJS 中使用 JSON 数组？

我在这里想做的是我想使用使用 Spring Restful WebService 生成的 JSON 如下所示 userid 1 firstName kevin lastName buruk email email protected cd
将电子邮件作为服务发送给他人时是否应该使用 Reply-To 标头？

假设我们有一个充当中间人的应用程序允许 A 公司向其客户发送报告 A公司 B公司我 A公司的客户收到报告后我们会向收件人发送电子邮件通知但它们必须来自我们公司的通知电子邮件地址例如电子邮件受保护 cdn cgi l email
内部异常：java.sql.SQLException：无效状态，Connection 对象已关闭

我有一个使用 Eclipse Persistence Services 2 1 1 v20100817 r8050 的 JSF 应用程序有时会收到以下错误 Exception EclipseLink 4002 Eclipse Persis
如果我在 IntelliJ 中创建一个简单的客户端服务器应用程序，它应该如何工作？

创建客户端服务器应用程序 serversocket 时我会创建 2 个单独的项目还是可以在单个项目中执行此操作我对这将是什么类型的项目感到有点困惑并且对如何启动客户端和服务器感到更加困惑或者我必须手动启动终端并执行罐子这将是一个服
Python 在 Android 上有哪些限制？

我正准备开始一点 Android 开发需要选择一种语言我了解 Python 但必须学习 Java 我想了解那些在 Android 上使用 Python 的人有哪些限制另外与 Java 相比有什么好处吗 Andrew 提到的大部分观点
Android 使用捆绑包从一个活动发送数据到另一个活动

我必须活动AnswerQuestion java and SendAnswerToServer java 我想将数据从第一个活动发送到另一个活动在 AnswerQuestion 活动中我这样写 Bundle basket new Bund
使用 SQL 的百分位数

我的数据集中有 3 列 Monetary Recency 频率我想使用 SQL 创建另外 3 个列例如 M P R Q F Q 其中包含货币新近度和频率每个值的百分位值先感谢您 Customer ID Frequency Recen
如何拆分文件并并行处理它们，然后将它们缝合回去？ UNIX

我有一个文本文件infile txt像这样 abc what s the foo bar foobar hello world hhaha cluster spatio something something xyz trying to d
facebook 分享您在 ASP.NET MVC 中管理的页面

我正在尝试在 ASP MVC 中从我们的网站在 facebook 中共享产品详细信息我使用了 feed 对话框它工作正常但我需要 feed 对话框中的其他选项来在您管理的页面上共享提要对话框 a href a
使用 PyQt / QtWebkit 抓取多个链接

我正在尝试抓取一个大型政府记录网站这需要滚雪球方法即从主搜索页面开始然后按照抓取工具找到的每个链接到达下一页我已经能够使用 PyQt 加载主页这个 SiteScraper 教程 http blog sitescraper net

使用 PyQt / QtWebkit 抓取多个链接

使用 PyQt / QtWebkit 抓取多个链接 的相关文章

随机推荐

热门标签

使用 PyQt / QtWebkit 抓取多个链接的相关文章