使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取

2024-05-25

我正在尝试编写一个程序，作为示例，该程序将从该网页上刮掉最高价格：

http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults

首先，我可以通过执行以下操作轻松检索 HTML：

from urllib import urlopen 
from BeautifulSoup import BeautifulSoup
import mechanize

webpage = 'http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults'
br = mechanize.Browser()
data = br.open(webpage).get_data()

soup = BeautifulSoup(data)
print soup

但是，原始 HTML 不包含价格。浏览器会...它的事情（这里的澄清也可能对我有帮助）...并在构建 DOM 树时从其他地方检索价格。

我被引导相信 mechanize 会像我的浏览器一样运行并返回 DOM 树，我也被引导相信这就是我在查看时看到的，例如，Chrome 的开发者工具页面视图（如果我是对此不正确，我该如何获取存储价格信息的内容？）我需要告诉 mechanize 做什么才能看到 DOM 树？

一旦我可以将 DOM 树导入到 python 中，我需要做的其他事情就变得轻而易举了。谢谢！

Mechanize 和 Beautiful soup 是 Python 中无与伦比的网络抓取工具。

但您需要了解其含义：

Mechanize：它模仿网页上的浏览器功能。

BeautifulSoup：HTML 解析器，即使在 HTML 格式不正确时也能正常工作。

你的问题似乎是javascript。价格通过 ajax 调用填充javascript. Mechanize但是，它不执行 javascript，因此由 javascript 生成的任何内容对于机械化来说都是不可见的。

看看这个：http://github.com/davisp/python-spidermonkey/tree/master http://github.com/davisp/python-spidermonkey/tree/master

这通过 js 执行对 mechanize 和 Beautiful soup 进行了包装。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取的相关文章

将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
如何使用 JavaScript 创建链接？

我有一个标题字符串和一个链接字符串我不知道如何将两者放在一起以使用 JavaScript 在页面上创建链接任何帮助表示赞赏我试图解决这个问题的原因是因为我有一个 RSS 源并且有一个标题和 URL 列表我想将标题链接到 URL 以使
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
使用 XPATH（和 PHP）从样式属性中选择背景 url

我只想从此背景图像样式属性中选择 url 这可以通过 XPATH 实现吗 a href http www test com style background image none test a 我有类似的东西 url xpath gt qu
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
可以在初始 DOM 解析期间/之前修改 DOM 吗？

是否可以在初始 DOM 解析期间或之前修改 DOM 或者我是否必须等到 DOM 被解析和构建之后才能与其交互更具体地说是否有可能阻止 DOM 中的脚本元素使用用户脚本内容脚本或 Chrome 或 Firefox 中的类似脚本运行在解
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

TopologyTestDriver 在 KTable 聚合上发送错误消息

我有一个聚合在 KTable 上的拓扑这是我创建的通用方法用于根据我拥有的不同主题构建此拓扑 public static
井字游戏代码有助于改进

这是我必须检查玩家在井字棋游戏中获胜的代码这是一个很长的 if 语句可以改进该板由 9 个图片框组成我是一名 C 初学者 pBox Image Player players Player playerTurn getImage ch
有没有好的 GLSL 哈希函数？

所以我对这个问题的古老评论仍然得到了支持 GLSL rand 这一行代码的起源是什么 https stackoverflow com questions 12964279 whats the origin of this glsl rand
NodeJS Express 中每个请求的全局范围

我有一个基本的快速服务器需要在每个请求处理期间存储一些全局变量更深入地说请求处理涉及许多需要存储在变量中的操作例如global transaction 当然如果我使用global范围每个连接都将共享其事务的信息并且我需要一个全
如何在 Laravel 中将秒转换为天小时分钟[重复]

这个问题在这里已经有答案了我想将以秒为单位的时间间隔转换为天小时分钟我已经尝试过了 value 90060 CarbonInterval seconds value gt forHumans 我得到了输出 90060 seconds 我
C++，多语言/本地化支持

向 C 程序添加多语言支持的最佳方法是什么如果可能应该从包含键值对 WelcomeMessage Hello s 之类的纯文本文件中读取语言我想到了添加一个 localizedString key 函数来返回加载的语言文件的字符串有
Azure 媒体服务播放器

我觉得这是一个非常愚蠢的问题但我的研究告诉我我必须创建自己的播放器真的吗我有一个来自 Azure 媒体服务的链接发布 URL 如下所示 http streamvideotest streaming mediaservices win
使用 Bouncy Castle 重建 ED25519 按键 (Java)

Bouncy Castle 的最新测试版版本 bcprov jdk15on 161b20 jar 支持 ED25519 和 ED448 EC 加密以进行签名我设置了这个完整的工作示例它按预期工作我的问题我是否正确重建了私钥和公钥
桨在移动时留下痕迹（Pygame Pong 游戏）[重复]

这个问题在这里已经有答案了我的游戏中的球拍有问题每次我试图移动它时桨都会留下一条痕迹我想这是因为我的代码没有删除旧位置的前一个桨如果是的话怎么删除之前的呢我应该使用blit Code import pygame sys ran
在没有 SurfaceView 的 Android 上获取 GPU 信息

在Android上有没有一种方法可以在不创建SurfaceView的情况下获取GPU信息我不想使用 OpenGL 绘制任何内容但我只需要获取硬件信息例如供应商 OpenGL ES 版本可用扩展等抱歉我不知道如何在 Androi
CodeIgniter 3 - 在控制器中支持 API 和 Web 请求？

我目前正在使用 CodeIgniter3 应用程序并为标准的类似博客系统奠定了基础该结构是标准 CI 用户请求页面页面加载控制器方法控制器方法从其模型调用任何相关的数据库函数然后加载视图不过我还希望能够通过 API 访问此视图
将对象传递给jquery中的回调函数

我最近正在开发小型聊天模块该模块需要不断检查服务器是否有新消息我正在向服务器发送 ajax 请求服务器将保持连接直到找到新消息长轮询 Code var chatController function other variable
WPF 中的 IWin32Window

我有一个 excel AddIn 它公开 IWin32Window 作为它的主 UI 我想显示一个使用它作为父窗口的 WPF 窗口我该如何去做呢您可以使用窗口互操作助手 http msdn microsoft com en us lib
获取 403 - Google 服务帐户被禁止

我正在尝试获取 Google 服务帐户的访问令牌以下是我的代码 String SERVICE ACCOUNT EMAIL email protected cdn cgi l email protection List scope new
将mysql数据导入kubernetes pod

有谁知道如何将我的 dump sql 文件中的数据导入到 kubernetes pod 中直接与处理 docker 容器的方式相同 docker exec i container name mysql uroot password se
有没有类似RegexBuddy的在线正则表达式分析器？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个在线实用程序可以美化正则表达式并向其添加解释性注释有吗我喜欢在线工具 http regexr com http reg
HashMap何时以及如何将桶从链表转换为红黑树？ [复制]

这个问题在这里已经有答案了我正在研究 java 8 功能发现当存储桶上的条目集数量增加时哈希图使用红黑树而不是链表但是这是否不需要密钥是可比较的或存在某种密钥排序以及这是如何工作的这种转变何时真正发生以及如何发生当有at le
卷曲：参数列表太长

我想通过 Sparkpost API 使用curl post 发送一封附有pdf 文件的电子邮件插入我使用的 pdf 我的 test pdf 约为 200KB data cat test pdf base64 wrap 0 但不知怎的这
Laravel 总结雄辩集

如何对已预先加载的数据集求和这是我的表结构 regions table Field Type Null Key Default Extra id int 10 unsigned NO PRI NULL
使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取

我正在尝试编写一个程序作为示例该程序将从该网页上刮掉最高价格 http www kayak com flights JFK PAR 2012 06 01 2012 07 01 1adults http www kayak com fli

使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取

使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取 的相关文章

随机推荐

热门标签

使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取的相关文章