加速美丽汤

2024-05-17

我正在运行本课程网站的抓取工具，我想知道将页面放入 beautifulsoup 后是否有更快的方法来抓取页面。花费的时间比我预期的要长得多。

Tips?

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from selenium.webdriver.support import expected_conditions as EC

from bs4 import BeautifulSoup

driver = webdriver.PhantomJS()
driver.implicitly_wait(10) # seconds
driver.get("https://acadinfo.wustl.edu/Courselistings/Semester/Search.aspx")
select = Select(driver.find_element_by_name("ctl00$Body$ddlSchool"))

parsedClasses = {}

for i in range(len(select.options)):
    print i
    select = Select(driver.find_element_by_name("ctl00$Body$ddlSchool"))
    select.options[i].click()
    upperLevelClassButton = driver.find_element_by_id("Body_Level500")
    upperLevelClassButton.click()
    driver.find_element_by_name("ctl00$Body$ctl15").click()

    soup = BeautifulSoup(driver.page_source, "lxml")

    courses = soup.select(".CrsOpen")
    for course in courses:
        courseName = course.find_next(class_="ResultTable")["id"][13:]
        parsedClasses[courseName] = []
        print courseName
        for section in course.select(".SecOpen"):
            classInfo = section.find_all_next(class_="ItemRowCenter")
            parsedClasses[courseName].append((int(classInfo[0].string), int(classInfo[1].string), int(classInfo[2].string)))

print parsedClasses
print parsedClasses['FL2014' + 'A46' + '3284']

driver.quit()

好吧，你确实可以通过以下方式加快速度：

深入到底层 - 查看正在发出哪些基本请求以及simulate http://docs.python-requests.org/en/latest/ them
let BeautifulSoup use lxml parser http://www.crummy.com/software/BeautifulSoup/bs4/doc/#specifying-the-parser-to-use
use SoupStrainer http://www.crummy.com/software/BeautifulSoup/bs4/doc/#parsing-only-part-of-a-document仅解析页面的相关部分

既然这是ASP.NET生成的表单，由于它的安全功能，事情变得有点复杂。这是完整的代码，不要害怕 - 我已经添加了评论并欢迎提问：

import re
from bs4 import BeautifulSoup, SoupStrainer
import requests

# start session and get the search page
session = requests.Session()
response = session.get('https://acadinfo.wustl.edu/Courselistings/Semester/Search.aspx')

# parse the search page using SoupStrainer and lxml
strainer = SoupStrainer('form', attrs={'id': 'form1'})
soup = BeautifulSoup(response.content, 'lxml', parse_only=strainer)

# get the view state, event target and validation values
viewstate = soup.find('input', id='__VIEWSTATE').get('value')
eventvalidation = soup.find('input', id='__EVENTVALIDATION').get('value')
search_button = soup.find('input', value='Search')
event_target = re.search(r"__doPostBack\('(.*?)'", search_button.get('onclick')).group(1)

# configure post request parameters
data = {
    '__EVENTTARGET': event_target,
    '__EVENTARGUMENT': '',
    '__LASTFOCUS': '',
    '__VIEWSTATE': viewstate,
    '__EVENTVALIDATION': eventvalidation,
    'ctl00$Body$ddlSemester': '201405',
    'ctl00$Body$ddlSession': '',
    'ctl00$Body$ddlDept': '%',
    'ctl00$Body$ddlAttributes': '0',
    'ctl00$Body$Days': 'rbAnyDay',
    'ctl00$Body$Time': 'rbAnyTime',
    'ctl00$Body$cbMorning': 'on',
    'ctl00$Body$cbAfternoon': 'on',
    'ctl00$Body$cbEvening': 'on',
    'ctl00$Body$tbStart': '9:00am',
    'ctl00$Body$tbEnds': '5:00pm',
    'ctl00$Body$ddlUnits': '0',
    'ctl00$Body$cbHideIStudy': 'on',
    'ctl00$Body$courseList$hidHoverShow': 'Y',
    'ctl00$Body$courseList$hidDeptBarCnt': '',
    'ctl00$Body$courseList$hidSiteURL': 'https://acadinfo.wustl.edu/Courselistings',
    'ctl00$Body$courseList$hidExpandDetail': '',
    'ctl00$Body$hidDay': ',1,2,3,4,5,6,7',
    'ctl00$Body$hidLevel': '1234',
    'ctl00$Body$hidDefLevel': ''
}

# get the list of options
strainer = SoupStrainer('div', attrs={'id': 'Body_courseList_tabSelect'})
options = soup.select('#Body_ddlSchool > option')
for option in options:
    print "Processing {option} ...".format(option=option.text)

    data['ctl00$Body$ddlSchool'] = option.get('value')

    # make the search post request for a particular option
    response = session.post('https://acadinfo.wustl.edu/Courselistings/Semester/Search.aspx',
                            data=data)
    result_soup = BeautifulSoup(response.content, parse_only=strainer)
    print [item.text[:20].replace('&nbsp', ' ') + '...' for item in result_soup.select('div.CrsOpen')]

Prints:

Processing Architecture ...
[u'A46 ARCH 100...', u'A46 ARCH 111...', u'A46 ARCH 209...', u'A46 ARCH 211...', u'A46 ARCH 266...', u'A46 ARCH 305...', u'A46 ARCH 311...', u'A46 ARCH 323...', u'A46 ARCH 328...', u'A46 ARCH 336...', u'A46 ARCH 343...', u'A46 ARCH 350...', u'A46 ARCH 355...', u'A46 ARCH 411...', u'A46 ARCH 422...', u'A46 ARCH 428...', u'A46 ARCH 436...', u'A46 ARCH 445...', u'A46 ARCH 447...', u'A46 ARCH 465...', u'A48 LAND 451...', u'A48 LAND 453...', u'A48 LAND 461...']
Processing Art ...
[u'F10 ART 1052...', u'F10 ART 1073...', u'F10 ART 213A...', u'F10 ART 215A...', u'F10 ART 217B...', u'F10 ART 221A...', u'F10 ART 231I...', u'F10 ART 241D...', u'F10 ART 283T...', u'F10 ART 301A...', u'F10 ART 311E...', u'F10 ART 313D...', u'F10 ART 315B...', u'F10 ART 317H...', u'F10 ART 323A...', u'F10 ART 323B...', u'F10 ART 323C...', u'F10 ART 329C...', u'F10 ART 337E...', u'F10 ART 337F...', u'F10 ART 337H...', u'F10 ART 385A...', u'F10 ART 391M...', u'F10 ART 401A...', u'F10 ART 411E...', u'F10 ART 413D...', u'F10 ART 415B...', u'F10 ART 417H...', u'F10 ART 423A...', u'F10 ART 423B...', u'F10 ART 423C...', u'F10 ART 429C...', u'F10 ART 433C...', u'F10 ART 433D...', u'F10 ART 433E...', u'F10 ART 433K...', u'F10 ART 461C...', u'F10 ART 485A...', u'F20 ART 111P...', u'F20 ART 115P...', u'F20 ART 1186...', u'F20 ART 119C...', u'F20 ART 127A...', u'F20 ART 133B...', u'F20 ART 135G...', u'F20 ART 135I...', u'F20 ART 135J...', u'F20 ART 1361...', u'F20 ART 1363...', u'F20 ART 1713...', u'F20 ART 219C...', u'F20 ART 2363...', u'F20 ART 2661...', u'F20 ART 281S...', u'F20 ART 311P...', u'F20 ART 315P...', u'F20 ART 3183...', u'F20 ART 333B...', u'F20 ART 335A...', u'F20 ART 335J...', u'F20 ART 3713...', u'F20 ART 381S...', u'F20 ART 415P...', u'F20 ART 435I...']
...

这里肯定有一些需要改进的地方，例如，我已经对其他表单值进行了硬编码 - 您可能应该解析可能的值并适当地设置它们。

另一个改进是将其与grequests https://github.com/kennethreitz/grequests:

GRequests 允许您将 Requests 与 Gevent 一起使用来进行异步轻松进行 HTTP 请求。

正如您所看到的，当您处于较高级别并通过网络驱动程序与浏览器交互时，您并不担心发送到服务器以获取数据的实际请求。这使得自动化变得很容易，但速度可能会非常慢。当您进入低级自动化时，您有更多选择来加快速度，但实现复杂性增长得非常快。另外，请考虑一下这种解决方案的可靠性如何。所以可能会坚持“黑匣子”解决方案并继续使用selenium?

我还尝试使用以下方法解决问题：

mechanize https://pypi.python.org/pypi/mechanize/
robobrowser https://github.com/jmcarp/robobrowser
mechanicalsoup https://github.com/hickford/MechanicalSoup

但由于不同原因失败（可以为您提供相关错误信息）。不过，所有这 3 个工具都应该有助于简化解决方案。

另请参阅类似主题：

使用 python 将请求发送到 asp.net 页面 https://stackoverflow.com/questions/14746750/post-request-using-python-to-asp-net-page
如何在python中向.aspx页面提交查询 https://stackoverflow.com/questions/1480356/how-to-submit-query-to-aspx-page-in-python
向 aspx 页面提交 post 请求 https://stackoverflow.com/questions/6269064/submitting-a-post-request-to-an-aspx-page
如何与 ASP 网页相处 https://blog.scraperwiki.com/2011/11/how-to-get-along-with-an-asp-webpage/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

webscraping

htmlparsing

beautifulsoup

加速美丽汤的相关文章

在 Python 中使用 Selenium 处理“接受 Cookie”弹出窗口

我一直在尝试用硒抓取这个房地产网站的一些信息但是当我访问该网站时我需要接受 cookie 才能继续这仅在机器人访问网站时发生而不是在我手动执行时发生当我尝试通过 xpath 或 id 查找相应的元素时正如我在手动检查页面时找到
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
将一个列表的元素除以另一个列表的元素

我有两个清单比如说 a 10 20 30 40 50 60 b 30 70 110 正如你所看到的列表 b 由一个列表的元素总和组成其中 window 2 b 0 a 0 a 1 10 20 30 etc 如何获得另一个列表该列表由
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
查找给定节点的最高权重边

我在 NetworkX 中有一个有向图边缘的权重从 0 到 1 表示它们发生的概率网络连通性非常高所以我想修剪每个节点的边缘只保留最高概率的节点我不确定如何迭代每个节点并仅保留最高权重in edges在图中有没有一个networ
张量流：注册 numpy bfloat16 扩展

正如我所见 tensorflow 中有 bfloat16 的 numpy 扩展 https github com tensorflow tensorflow blob 24ffe9f729160a095a5cab8f592392018280
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代

随机推荐

我的 DataContext 怎么错了？

我使用 LINQ To SQL 一段时间了我通常在解决方案中执行以下操作在一个项目中我创建了一个 dbml 架构在另一个项目中我创建了一个简单的 DataAccessLayer DAL 它了解我的第一个项目并实例化 DataCo
函数未定义 - 未捕获的引用错误

我有这个 Uncaught ReferenceError 函数未定义错误不明白如果我有 document ready function function codeAddress var address document getElem
如何在不关闭浏览器自动完成建议的情况下改进它们？

这里有十个无数的线程如何disable浏览器自动完成行为例如如何禁用网络表单字段输入标签上的浏览器自动完成功能 https stackoverflow com questions 2530 how do you disable bro
鼠标悬停时放大图像而不使用 Jquery 推送其他图像？

当您将鼠标悬停在图像缩略图上例如 Google 图片正在使用的缩略图时我正在尝试创建图像放大效果但是我遇到了一个问题即放大的图像根据放大的图像的位置不断将另一张图像推到另一个位置这是我到目前为止所拥有的
在学术 CS 世界中，“非类型化”是否也意味着“动态类型化”？

我正在阅读一个幻灯片上面写着 JavaScript 是无类型的这与我的想法相矛盾所以我开始挖掘并尝试了解更多信息每个答案JavaScript 是一种无类型语言吗 https stackoverflow com questions 9
如何在 Spring Boot 1.4 中使用 @DataJpaTest 和 SpringFox @EnableSwagger2 进行切片测试

Re https spring io blog 2016 04 15 testing improvements in spring boot 1 4 https spring io blog 2016 04 15 testing impro
Cython：如何在结构中公开 void* 和函数指针？

我有一个 C 标头 typedef struct
如何在重定向操作中传递 ActionMessage 和 ActionError [重复]

这个问题在这里已经有答案了可能的重复我可以在不同的操作类之间传播 struts2 ActionErrors 吗 https stackoverflow com questions 1070111 can i propagate stru
Booking.com酒店管理API

我拥有一家酒店并在 booking com 上查看了 API 因为我想创建自己的前端界面来更新我的酒店房价房间数以及通过该 API 上传图片更新酒店描述然而我唯一能找到的是一个 API 供联营公司以一定的价格获取特定位置的酒店等
在 HTML 文件中包含模板文件，类似于 CSS？

我正在使用 HTML
Angular 2：基于环境导入服务

根据 Angular CLI 项目中的当前环境导入服务的最佳正确方法是什么我已经设置了一个名为 dev mock 的新环境我可以使用它来调用 ng serve environment mock 然后我使用 useClass 在模块中设
使用 javax/json，如何将元素添加到现有的 JsonArray 中？

我从文件中读取了一个 JSON 数组但我想向该数组中添加其他条目我将如何使用 javax json 库来做到这一点 private String getJson FileInputStream fis throws IOExceptio
flutter 中 sqlite 中的多个参数

我想知道如何将多个参数传递给 sqllite 中的原始查询我的代码如下 query async get a reference to the database Database db await DatabaseHelper instan
如果用户不活动，SignalR 会发生什么？

我想知道如果用户不活动会发生什么想象一下用户连接到集线器连接已建立但用户没有刷新页面或一个小时没有执行任何操作无论如何连接都会保持吗那过了这个时间还可以推送消息给他吗 SignalR 发送 keep alive 消息即使没有其他
你能识别 Haskell 程序中的无限列表吗？ [复制]

这个问题在这里已经有答案了可能的重复如何判断列表是否是无限的 https stackoverflow com questions 7371730 how to tell if a list is infinite 在Haskell中你
cURL 错误 77：设置证书验证位置时出错：CAfile

我正在使用 Firebase php SDKlink https firebase php readthedocs io en latest index html并在 Windows 10 上的 XAMPP 服务器上使用 laravel 最
在每台计算机安装中删除 HKCU 下的注册表项

我使用 WiX 3 6 构建了一个 perMachine 安装程序来安装我尚未开发的软件不幸的是该软件在执行期间在 HKCU 下创建了一些注册表项卸载时还应删除自行创建的密钥移除这些钥匙似乎并不那么容易我正在与 ICE57 和
重复使用相同的卷曲手柄。性能大幅提升？

在 PHP 脚本中我对不同的 URL 执行了许多不同的curl GET 请求一百个将重复使用来自curl init提高性能还是与请求的响应时间相比可以忽略不计我这么问是因为在当前的架构中保持相同的句柄并不容易交叉发布自我应该关闭
在 ASP.NET 中加密 cookie

我想在 ASP NET 中加密 cookie 我已关注本文的方法 http www codeproject com KB web security HttpSecureCookie aspx 但它有一个缺点那就是在内部方法上使用反射这导
加速美丽汤

我正在运行本课程网站的抓取工具我想知道将页面放入 beautifulsoup 后是否有更快的方法来抓取页面花费的时间比我预期的要长得多 Tips from selenium import webdriver from selenium

加速美丽汤

加速美丽汤 的相关文章

随机推荐

热门标签

加速美丽汤的相关文章