屏幕抓取建议：交互式图表

2024-01-10

我最近学习了一些关于如何在 Python 中使用 BeautifulSoup 的教程，并学习了如何简单地从网页中抓取文本和 URL。我现在正在尝试从以下链接中抓取数据，

http://www.study.cam.ac.uk/undergraduate/apply/statistics/ http://www.study.cam.ac.uk/undergraduate/apply/statistics/

页面底部有一个交互式图形生成器，我想从中抓取所有数据，而不必花费大量时间繁琐地手写所有可能生成的图形中的值。我尝试使用我微不足道的初学者技术，但对我来说，图表数据来自 HTML 中的何处并不明显 - 此外，HTML 似乎是动态的，具体取决于我的鼠标在屏幕上的位置。

问题：是否可以使用这些工具来抓取这些数据？如果可以，如何抓取？

使用浏览器开发者工具，当您点击Show Graph按钮有一个POST请求前往http://www.study.cam.ac.uk/undergraduate/apply/statistics/data.php http://www.study.cam.ac.uk/undergraduate/apply/statistics/data.php。结果是JSON包含构建图表所需的所有数据的对象。

在 Python 中模拟此请求，例如：requests http://docs.python-requests.org/en/latest/ module:

import requests

URL = "http://www.study.cam.ac.uk/undergraduate/apply/statistics/data.php"
HEADERS = {'X-Requested-With': 'XMLHttpRequest'}

data = {
    'when': 'year',
    'year': 2014,
    'applications': 'on',
    'offers': 'on',
    'acceptances': 'on',
    'groupby': 'college',
    'for-5-years-what': 'university'
}

response = requests.post(URL, data=data, headers=HEADERS)
print response.json()

不需要BeautifulSoup这里。至少，从我从你的问题中了解到的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

屏幕抓取建议：交互式图表的相关文章

从网站存储数据的最简单方法（在服务器端）

我有一个非常简单的网站实际上是单页有一个输入字段和一个按钮我需要将用户提交的数据存储在服务器端的某个位置完美的方法可能是简单的文本文件并在每次单击按钮后附加新行日志文件也可以据我了解 JavaScript 本身是不可能的我在
哪些网络浏览器不支持 Javascript？以及如何识别客户端使用的是哪个浏览器？

是否有不支持 javascript 的网络浏览器以及如何确定客户端是否正在使用这些浏览器之一或者客户端禁用了javascript 是否有不支持 javascript 的网络浏览器当然 Lynx http en wikipedia or
Python脚本从字母和两个字母组合生成单词

我正在编写一个简短的脚本它允许我使用我设置的参数生成所有可能的字母组合例如 b a 参数单词 5 个字母第三第五个字母 b a 第一个字母 ph sd nn mm 或 gh 第二第四个字母任意元音 aeiouy 和 rc 换句
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
JavaScript：预期的赋值或函数调用，却看到了一个表达式

我正在使用 JSHint 来确保我的 JavaScript 是严格的但我收到以下错误预期是赋值或函数调用但看到的是表达式关于以下代码 var str A B C D var data var strArr str split fo
无法在 phantomjs 中延迟加载

我正在尝试从链接中抓取一些信息 http www myntra com women sarees nav id 606 http www myntra com women sarees nav id 606 涉及延迟加载下面是我的代码片段
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
如何将当前元素传递给 Knockout.js 绑定中的 Javascript 函数？

因此我尝试根据是否选中子复选框使用 Knockout js 将类添加到元素为此我试图通过this作为我的函数的参数目前我的精简 DOM 结构如下 tr td td tr
通过 jQuery 从输入类型=“文件”多个中删除文件

我在使用 PHP 和 jQuery 上传文件时遇到问题表单可以一次上传多个图像这些图像可以在滑块中预览表单还包含两个字段标题和描述滑块通过 jQuery 工作当用户通过单击选择文件来选择多个图像时
类返回语句不打印任何输出

我正在学习课程但遇到了问题return语句它是语句吗我希望如此程序什么也没有打印出来它只是结束而不做任何事情 class className def createName self name self name name def
JavaScript 访问密码字段值是否被视为存在安全风险？

如果安全正确地存储密码是良好的风格和安全性那么对于要求用户输入密码的网页来说不应该也是如此吗考虑这个例子
AWS 将 MQTT 消息存储到 DynamoDB

我构建了一个定期发送 MQTT 消息的 python 脚本这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端我想将 MQTT 消息存储到 DynamoDB 表中
PhantomJS 网页内存消耗？

是否有一种编程方式因为我想在运行时自动执行方式来查看网页在通过 PhantomJs 运行时使用了多少内存我也在使用 casperjs 如果这有帮助的话我已经搜索了很多但没有找到任何方法 PhantomJs 使用 QtWebKit 因
为什么从 openAI 导入 Universe 模块时出现“无效语法”错误

当我导入时universe来自 openAI 的模块我收到以下错误 Traceback most recent call last File
父指令属性更改时子指令不会更新

这是对这两个问题的后续在父指令和子指令之间传递参数 https stackoverflow com questions 42814530 pass argument between parent and child directives
文本后面有粗下划线

如何使用 span 和 css 在文本 ABC 后面重现这种下划线我已经能够做下划线below嵌套的文本span和彩色的border bottom 但无法获取behind图像和above文本基线 p style font size 48p
如何有效地比较 pandas DataFrame 中的行？

我有一个 pandas 数据框其中包含雷击记录以及时间戳和全球位置格式如下 Index Date Time Lat Lon Good fix 0 1 20160101 00 00 00 9962692 7 1961 60 7604 1
如何设置 Firebase 用户的显示名称？

根据Firebase网站上的JS Auth文档它只展示了如何获取 displayName 以及如何更新 displayName 所以我尝试更新它但这有点不合逻辑因为你怎么能在不创建某些东西的情况下更新它呢所以我的问题是如何设置注册
CSS：缩放字体大小以适应父块元素的高度

我发现的几乎每个问题和答案都谈到了视口大小这确实不是我的问题拿着这支笔 https codepen io njt1982 pen pZjZNM https codepen io njt1982 pen pZjZNM 我有一个非常基本的
使用 JQuery 预填充选择字段的下拉选项验证

我有这个 JQuery 片段来防止选择已在另一个字段中选择的下拉选项 var coll select name service on change function coll each function var val this value

随机推荐

如何在r中为异方差数据设置加权最小二乘？

我正在对人口普查数据进行回归其中因变量是预期寿命并且有八个自变量数据是按城市汇总的因此我有数千个观察结果不过我的模型有点异方差我想运行加权最小二乘法其中每个观察值均按城市人口加权在这种情况下这意味着我想通过总体平方根的倒
SQL Server 2008 R2 - sqlcmd bat 文件在文件夹中运行一批 sql 查询，但它们不按文件名顺序运行

我写了一堆sql脚本我希望在文件夹中按顺序批量运行阅读完后我求助于创建一个bat文件其中包括使用sqlcmd 对于这组特定的脚本当我运行 bat 时它似乎没有按顺序运行我不知道发生了什么因为我尝试在开头使用前缀数字对 sql
IPython Notebook：默认编码是什么？

我已经使用 utf 8 编码创建了一个包当调用一个函数时它返回一个DataFrame 其中有一列以 utf 8 编码在命令行使用 IPython 时显示该表的内容没有任何问题使用笔记本时它崩溃并出现错误 utf8 codec c
通用 getter 和 setter 方法[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在尝试编写一个抽象类这个类将是一个 Field 会有不同类型的字段需要扩展字段类并编写自己的 setter 类例如将会有一个字符
ZipArchive 在 Laravel 中不起作用

我有 laravel 项目想要添加压缩文件的功能我正在使用 php ZipArchive 当我尝试仅使用 PHP 创建 ZIP 文件时我很幸运但是当我尝试使用 Laravel 时未创建 zip 文件所以我添加了使用ZipArc
时间：2019-03-17 标签：c++STLmin_element

我想找到数组中的最小元素但如果最小元素出现多次那么我想要该元素的最后一次出现我用了std min element 和我的comp 功能 vector
Julia 浮点比较为零

julia gt r 3 3 Array Float64 2 1 77951 0 79521 2 57472 0 0 0 630793 0 630793 0 0 0 0 1 66533e 16 julia gt sort abs diag
使用核心转储在 Linux 中进行调试

使用 GDB 调试核心转储时的最佳实践是什么目前我面临一个问题我的应用程序的发行版是在没有 g 编译器标志的情况下编译的我的应用程序的调试版本使用 g 编译已存档以及源代码和发布二进制文件的副本最近当用户给我一个核心转
如何将图像保存为变量？

现在我有一个带有精灵的 python 游戏它从其目录中的文件中获取图像我想让它变得我什至不需要这些文件不知何故将图像预先存储在变量中以便我可以从程序中调用它而无需额外的 gif 文件的帮助我使用图像的实际方式是 image
如何在jsp中显示图片？

我有一个字节数组图像我需要在 jsp 页面中以 jpg 格式显示该图像单击该图像时我可以将图像下载到我的电脑上我正在从 mysql 数据库将图像加载为字节数组我的代码是 ResultSet res statement execut
SCORM 1.2 API 示例/教程

我花了相当多的时间搜索 SCORM 1 2 API 教程示例结果证明这是一项相当困难的任务我发现的唯一样本是这样的 http www vsscorm net 2009 05 30 ground rules http www vssco
maven-compiler-plugin:jar:3.8.1 丢失

尝试使用 3 8 1 而不是 3 8 0 但收到消息警告 org apache maven plugins maven compiler plugin jar 3 8 1 的 POM 丢失没有可用的依赖信息我的 pom xml 在 3
如果 File 不存在，如何确定它是否是文件或目录？

File isFile and File isDirectory 不仅当File不是指定的类型而且当File其本身不存在于文件系统上如何判断是否File当文件或目录不存在时代表它一般来说一个特定的路径既可以代表一个目录也可以代表一
使用 Node.JS

昨晚我转储了 Windows 7 并格式化了我的硬盘驱动程序以移植到基于 Linux 的操作系统纯粹是因为我想开始使用Node JS 所以我已经安装了Node JS并做了一些测试 http 服务器和套接字等我想做的是构建一个与 MVC
如何使用 pgAdmin 添加几何列

我正在使用在 PostgreSQL 中创建的数据库在其架构中有两个表我想在其中一个表中添加一个geometry柱子问题是我创建了 postgis 扩展 CREATE EXTENSION postgis 对于数据库但我无法使用 pgA
MVC AuthenticationManager.SignOut() 未注销

我的项目基于 Visual Studio 2013 中的 MVC 5 项目模板个人用户帐户选项我一直依赖用户的默认登录和注销方法但我不确定我做了什么在某些时候用户无法再注销但他们可以以其他用户的身份登录这是帐户控制器的默认注销
是否有一种补充方法来获取鼠标事件之类的东西？

直接使用 jQuery 如果我有一个固定框例如一个彩色矩形并且将鼠标移入或移出其中则如果我将鼠标光标以一种或另一种方式移动到框的边界上 jQuery 就会给我事件如果我有一个以编程方式移动的彩色矩形例如向右移动然后我将鼠标放在
无法在模拟器中运行应用程序：运行时遇到错误（域 = LaunchServicesError，代码 = 0）

在 Xcode 6 中成功编译项目后我无法在模拟器中运行它并显示上述消息我做了所有可能的研究尝试了一切但仍然没有任何进展我不使用 swift 也不使用小部件或扩展因此请不要建议由这些引起的解决方案如类似问题中所示如果有人发现
Applet 与 Servlet

JAVA中Applet和Servlet有什么区别 Applet运行在客户端 servlet运行在服务器上就这么简单更具体地说该小程序被下载到客户端并在浏览器内的 JRE 中执行并且可以在小程序框架内显示它想要显示的任何内容相反
屏幕抓取建议：交互式图表

我最近学习了一些关于如何在 Python 中使用 BeautifulSoup 的教程并学习了如何简单地从网页中抓取文本和 URL 我现在正在尝试从以下链接中抓取数据 http www study cam ac uk undergradua

屏幕抓取建议：交互式图表

屏幕抓取建议：交互式图表 的相关文章

随机推荐

热门标签

屏幕抓取建议：交互式图表的相关文章