需要使用 python(selenium) 抓取通过 ajax 加载的表

2024-05-04

我有一个page https://seahawks.strmarketplace.com/Charter-Seat-Licenses/Charter-Seat-Licenses.aspx有一个表（表 id=“ctl00_ContentPlaceHolder_ctl00_ctl00_GV”class=“GridListings”）我需要抓取。我通常使用 BeautifulSoup 和 urllib，但在这种情况下，问题是该表需要一些时间来加载，所以当我尝试使用 BS 获取它时，它不会被捕获。由于一些安装问题，我无法使用 PyQt4、drysracpe 或 Windmill，所以唯一可能的方法是使用 Selenium/PhantomJS 我尝试了以下操作，仍然没有成功：

from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.PhantomJS()
driver.get(url)
wait = WebDriverWait(driver, 10)
table = wait.until(EC.presence_of_element_located(By.CSS_SELECTOR, 'table#ctl00_ContentPlaceHolder_ctl00_ctl00_GV'))

上面的代码没有给我所需的表内容。我该如何实现这一目标？？？

您可以使用获取数据requests and bs4,，几乎（如果不是所有）ASP 网站都需要提供一些后置参数，例如__活动目标, __事件验证 etc.. :

from bs4 import BeautifulSoup
import requests

data = {"__EVENTTARGET": "ctl00$ContentPlaceHolder$ctl00$ctl00$RadAjaxPanel_GV",
    "__EVENTARGUMENT": "LISTINGS;0",
    "ctl00$ContentPlaceHolder$ctl00$ctl00$ctl00$hdnProductID": "139",
    "ctl00$ContentPlaceHolder$ctl00$ctl00$hdnProductID": "139",
    "ctl00$ContentPlaceHolder$ctl00$ctl00$drpSortField": "Listing Number",
    "ctl00$ContentPlaceHolder$ctl00$ctl00$drpSortDirection": "A-Z, Low-High",
    "__ASYNCPOST": "true"}

对于实际的帖子，我们需要添加更多值来发布数据：

post = "https://seahawks.strmarketplace.com/Charter-Seat-Licenses/Charter-Seat-Licenses.aspx"
with requests.Session() as s:
    s.headers.update({"User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"})
    soup = BeautifulSoup(s.get(post).content)

    data["__VIEWSTATEGENERATOR"] = soup.select_one("#__VIEWSTATEGENERATOR")["value"]
    data["__EVENTVALIDATION"] = soup.select_one("#__EVENTVALIDATION")["value"]
    data["__VIEWSTATE"] = soup.select_one("#__VIEWSTATE")["value"]

    r = s.post(post, data=data)
    soup2 = BeautifulSoup(r.content)
    table = soup2.select_one("div.GridListings")
    print(table)

运行代码时您将看到打印的表格。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

需要使用 python(selenium) 抓取通过 ajax 加载的表的相关文章

保存为 HDF5 的图像未着色

我目前正在开发一个将文本文件和 jpg 图像转换为 HDF5 格式的程序用HDFView 3 0打开似乎图像仅以灰度保存 hdf h5py File Sample h5 img Image open Image jpg data np
中断 Select 以添加另一个要在 Python 中监视的套接字

我正在 Windows XP 应用程序中使用 TCP 实现点对点 IPC 我正在使用select and socketPython 2 6 6 中的模块我有三个 TCP 线程一个读取线程通常会阻塞select 一个通常等待事件的写入线程
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重

随机推荐

如何在没有IB的情况下将2个按钮添加到右侧的UINavigationbar中？

我怎样才能添加2个按钮到UINavigationBar没有XIB 2 个按钮应在右侧对齐UINavigationBar 我知道如何添加一个按钮但是添加两个怎么样使用 iOS 5 就这么简单 UIBarButtonItem btnShar
如何使用 OR 逻辑（而不是 AND）过滤表列

小提琴示例 http jsfiddle net fks37 我有一个 html 表 A B C D 0 1 0 1 0 1 0 0 1 0 0 1 我要过滤non zero列使用 jQuery dataTables 不是硬性要求只是我当
将文本文件转换为逗号分隔的字符串

我似乎没有找到与这个问题完全匹配的问题我有一个文本文件每行有一个文本标记没有任何逗号制表符或引号我想根据文件内容创建一个逗号分隔的字符串 Input one two three Output one two three 我正在使用
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
你可以将 UIGestureRecognizer 附加到多个视图吗？

UITapGestureRecognizer tapGesture UITapGestureRecognizer alloc initWithTarget self action selector tapTapTap self view1
IE 302 重定向无缓存标头问题

发布信息后返回 302 重定向此重定向旨在重新加载当前页面这一切都工作正常但 IE 在标头中添加了 No Cache Cache Control no cache 我们使用 Squid 来缓存我们的内容并将其放在标头中绕过了鱿鱼由
as3 事件 - 类型强制失败？

我正在将事件从孩子发送到父母 swf 它工作正常直到我使用预加载器 swf 加载父级然后父级停止从子级获取事件我现在收到此错误 TypeError Error 1034 Type Coercion failed cannot conv
生成适用于不同时区和数据的计划

我正在构建一个网络应用程序指导人们早起它会为用户生成七十天内的起床时间表他们输入当前的上升时间和目标上升时间然后上升时间每周减少一定量直到达到目标时间用户必须登录网站并在预定时间签到考虑到当前登录用户的时区和夏令时我对如
如何在 Angular 6 中编辑环境变量而不重建？

我通常将 API URL 设置为environment ts文件我必须将相同的版本部署到具有不同 API URL 的多个客户端目前我正在更改环境变量后进行单独的构建有没有办法在构建后编辑环境变量以便我可以为每个客户端提供相同的构建
什么时候空值在列中“安全”？

设计数据库时是否存在允许列为空与 3nf 规范化的一般经验法则我有一个表其中的列主要由空值 85 组成但表大小不超过 10K 记录不是很大它主要用于日志记录和记录保存因此大多数事务将是插入和选择而不是更新我试图同时考虑性能和
如何删除 RadioListTile 上的内部填充，以便可以连续使用 3 个 RadioListTiles？

我对 Flutter 和 Dart 还很陌生我似乎找不到关于这个特定主题的任何提示我想把 3RadioListTiles in a Row像这样 Row children Expanded child RadioListTile
为什么 Node typescript 项目的 jasmine Karma 单元测试显示覆盖范围包括依赖项？

正如题主所说我们项目的代码覆盖率包括节点依赖但请注意当我们开发和发布它时此 npm 依赖项的源代码也是项目的一部分这是该项目的结构 root main project 业力 conf ts src 和其他要测试并生成覆盖率的文件
反应本机无法解析模块“warnOnce”

我的英语有点生疏对此我很抱歉当我在 iOS 模拟器上启动 React Native 项目时出现错误为了排除与我的代码的任何冲突我开始了一个新项目 react native init demo react native start
向图节点添加标签

我使用 visnetwork 库制作了下图 library tidyverse library igraph set seed 123 n 15 data data frame tibble d paste 1 n relations da
cv2.cv.BoxPoints(rect) 返回什么？

rect cv2 minAreaRect largest contour rect rect 0 0 self scale down rect 0 1 self scale down rect 1 0 self scale down rec
为什么 PackageInfo.signatures 字段是一个数组，什么时候这里会出现除一个值之外的其他值？

我正在相互检查包签名以确定它们是否不兼容针对不同的密钥库进行编译我注意到PackageInfo signatures几乎总是包含单个条目的集合这对我来说很有意义我使用调试或生产密钥库构建应用程序这决定了包的签名这是我此时对 ap
当 mysql_connect 不适用于 IIS 上的 PHP 时，不会返回任何错误消息

我是 PHP 和 MySQL 的新手最近在已经运行 IIS v6 的 Windows Server 2003 服务器上安装了 PHP v5 3 10 和 MySQL v 5 5 21 PHP 运行我已经从 MySQL 5 5 命令行客户
Spring Security - 基于令牌的 API 身份验证和用户/密码身份验证

我正在尝试创建一个主要使用 Spring 提供 REST API 的 Web 应用程序并尝试配置安全方面我正在尝试实现这种模式 https developers google com accounts docs MobileApps h
Terraform 蓝图上的退出条件

我想要一个地形蓝图在顶部满足特定条件时退出 If the var available设置为 false 我希望蓝图停止一切并抛出错误这个的语法是什么我在任何地方的文档文件中都找不到它 terraform 中是否存在此功能注意此代码
需要使用 python(selenium) 抓取通过 ajax 加载的表

我有一个page https seahawks strmarketplace com Charter Seat Licenses Charter Seat Licenses aspx有一个表表 id ctl00 ContentPlaceH

需要使用 python(selenium) 抓取通过 ajax 加载的表

需要使用 python(selenium) 抓取通过 ajax 加载的表 的相关文章

随机推荐

热门标签

需要使用 python(selenium) 抓取通过 ajax 加载的表的相关文章