获取网页内容（通过AJAX调用加载）

2023-12-07

我是一个爬行初学者。我需要从链接中获取帖子和评论。我想自动化这个过程。我考虑过使用 webcrawler 和 jsoup 来实现此目的，但被告知 webcrawler 主要用于具有更大深度的网站。

页面示例：Jive 社区网站

对于此页面，当我查看页面源时，我只能看到帖子而看不到评论。认为这是因为评论是通过 AJAX 调用服务器获取的。

因此，当我使用 jsoup 时，它不会获取评论。

那么如何自动化获取帖子和评论的过程呢？

Jsoup 是一个html仅解析器。不幸的是，无法解析任何 javascript/ajax 内容，因为 jsoup 无法执行这些内容。

解决方案：使用可以处理脚本的库。

以下是我所知道的一些例子：

HtmlUnit
Java脚本引擎
Apache Commons BSF
Rhino

如果这样的库不支持解析或选择器，您至少可以使用它们从脚本中获取 Html（然后可以由 jsoup 解析）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Jsoup

webcrawler

获取网页内容（通过AJAX调用加载）的相关文章

在 Python 3 中查找网站中最常见的单词 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要使用 Python 3 代码查找并复制在给定网站上出现超过 5 次的单词但我不知道该怎么做我已经浏览了有关堆栈溢出的档案但
Jsoup：忽略 SSL 错误

我正在尝试下载https www deviantart com https www deviantart com使用 Jsoup v1 10 3 以及validateTLSCertificates false Java 8 已安装 Unli
外部库会使应用程序变慢吗？

我正在构建一个从网页中抓取信息的应用程序为此我选择使用一个名为的 html scraperJsoup http jsoup org 因为它使用起来非常简单 Jsoup 还依赖于 Apache Commons Lang 库它们总计 38
Scrapy CrawlSpider 无法抓取第一个登陆页面

我是 Scrapy 的新手正在进行抓取练习并且正在使用 CrawlSpider 尽管 Scrapy 框架运行良好并且它遵循相关链接但我似乎无法使 CrawlSpider 抓取第一个链接主页登陆页面相反它直接抓取由规则确定的链接
带负载的 Jsoup HTTP POST

我正在尝试通过 jsoup 发出此 HTTP 请求here http developer decarta com Docs REST BatchRequests http api decarta com v1 KEY batch reque
如何查找网站上的所有链接/页面

是否可以找到任何给定网站上的所有页面和链接我想输入一个 URL 并生成该站点所有链接的目录树我查看过 HTTrack 但它下载了整个站点我只需要目录树查看链接检查器 https linkchecker github io linkc
Scrapy中如何控制yield的顺序

帮助阅读下面的scrapy代码和爬虫的结果我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
Jsoup 解析和嵌套标签

我正在学习 Jsoup 并有这个 HTML p Content p p Content p p Content p 我使用 Jsoup parse 和文档 select p 来捕获内容并且效果很好但 p Content p p Con
通过wget命令爬取sitemap.xml的链接

我尝试抓取 sitemap xml 的所有链接以重新缓存网站但是 wget 的递归选项不起作用我只得到响应远程文件存在但不包含任何链接无法检索但可以肯定的是 sitemap xml 充满了 http 链接我尝试了 wget 的
如何基于Scrapy构建一个永远运行的网络爬虫？

我想基于Scrapy构建一个网络爬虫从多个新闻门户网站抓取新闻图片我希望这个爬虫是永远奔跑意味着它将定期重新访问一些门户页面以获取更新安排优先事项为不同类型的 URL 赋予不同的优先级多线程获取我已经阅读了Scrapy文档
Facebook 爬虫严重攻击我的服务器并忽略指令。多次访问相同资源

Facebook 爬虫每秒多次访问我的服务器它似乎忽略了 Expires 标头和 og ttl 属性在某些情况下它会在 1 5 分钟内多次访问同一 og image 资源在一个示例中爬虫程序在 3 分钟内使用 12 个不同的 IP
如何自动检索AJAX调用的URL？

目的是对爬行蜘蛛进行编程使其能够 1 检索此页面表格中链接的 URL http cordis europa eu fp7 security projects en html http cordis europa eu fp7 securi
我们可以从 LinkPresentation 框架中的 LPLinkView 中提取图像吗？

我想在我的应用程序中呈现丰富的链接并将这些数据发送到我的服务器我需要访问视图内的图像LPLinkView https developer apple com documentation linkpresentation lplinkvi
检测诚实的网络爬虫

我想在服务器端检测哪些请求来自机器人我现在并不关心恶意机器人只关心那些表现良好的机器人我见过一些方法主要涉及将用户代理字符串与 bot 等关键字进行匹配但这似乎很尴尬不完整且无法维护那么有人有更可靠的方法吗如果没有您是
使用Java获取CSS文件中图像的URL？

我正在尝试使用 Java 获取远程 CSS 文件中图像所有 MIME 类型的 URL 我正在使用 jsoup 来获取 css 的 URL 经过无数个小时的观看CSS解析器 http cssparser sourceforge net 由
如何使用 Jsoup 获取包含非 ASCII 字符（ą、ś ...）的 URL？

我正在使用 jsoup 解析一些波兰网站但我对 URL 中的等特殊字符有问题example com k t读起来像example com k 每个没有这个特殊字符的查询都可以完美运行我努力了Document doc Jsoup par
scrapy-如何停止重定向（302）

我正在尝试使用 Scrapy 抓取 url 但它会将我重定向到不存在的页面 Redirecting 302 to
Scrapy在页面上找不到表单

我正在尝试编写一个自动登录的蜘蛛这个网站 https www athletic net account login ReturnUrl 2Fdefault aspx 但是当我尝试使用scrapy FormRequest from resp
PyPi 下载计数似乎不切实际

I put PyPi 上的一个包 http pypi python org pypi powerlaw第一次约两个月前此后进行了一些版本更新我注意到本周的下载计数记录并惊讶地发现它已经被下载了数百次在接下来的几天里更令我惊讶的是下
Scrapy - 如何抓取网站并将数据存储在 Microsoft SQL Server 数据库中？

我正在尝试从我们公司创建的网站中提取内容我在 MSSQL Server 中为 Scrapy 数据创建了一个表我还设置了 Scrapy 并配置了 Python 来抓取和提取网页数据我的问题是如何将Scrapy爬取的数据导出到我本地的M

随机推荐

我创建了一个有多个敌人的游戏太空侵略者

我想创建 1 个额外的敌人我在循环列表时遇到问题但是当我这样做时我不断收到此错误 enemyX i enemyX change i IndexError list index out of range 这是我的代码 num of en
俄罗斯套娃到百叶窗xsl改造

我一直在尝试编写一个 xslt 转换将俄罗斯娃娃样式的 xsd 转换为威尼斯盲人样式我写了一些东西但并不完全按照我的预期工作所以我有以下xsd文档
在 Chrome 中，当焦点位于已注册 onChange 和 onBlur 处理程序的 TextArea 上时，无法在 FocusPanel 上获得 onClick()

我不喜欢在我的应用程序中使用 Button s 因为它们在视觉上太重了我想我可以使用具有图像的按钮但我发现我认为是一个更简单的解决方案不需要使用图像只需制作一个 InlineLabel 并将其放入 FocusPanel 中然后拦截
根据本地安全策略验证新的 AD 密码？

我想允许当前用户更改其密码通过活动目录管理我想验证然后在 Active Directory 中设置他们的密码当前使用SetPassword调用方法我的问题是验证密码使其满足复杂性要求不包含用户的帐户名或用户全名的一部分超过两
WINAPI EnumWindowsProc：非标准语法；使用 & 创建指向成员的点

当我调用 EnumWindows EnumWindowsProc 0 时我不断收到错误消息它将我的 BOOL CALLBACK SelectionWindows EnumWindowsProc HWND hWnd long lParam
如何更新光标位置？ [复制]

这个问题在这里已经有答案了可能的重复在 RichTextBox 中设置光标 private void richTextBox1 TextChanged object sender EventArgs e string text rich
如何为特定任务创建 Ant 监听器

我们的应用程序中有大约 80 个 jar 全部都是使用ant中的javac任务和jar任务创建的我想介绍一下 findbug 检查一种选择是创建单个 findbug 检查 ant 项目其中包含所有 jars 和定义的所有源路径这可行
布尔运算符如何在“if”条件下工作？

我目前是 Python 新手正在尝试运行几行简单的代码我无法理解 Python 在之后如何评估这个语法if陈述任何解释将不胜感激 number int raw input Enter number if number 1 or 2 o
如何在java中序列化ArrayLIst而不出现错误？

我只是想输出一个先前创建的 ArrayList 以将其序列化以供将来存储但是当我尝试这样做时我收到运行时错误 notSerializedException Department 有没有一种特殊的方法来序列化 arrayList 有人能告
JQuery 回调先前定义的函数

我仍在学习 JQuery 因此学习了一点 JavaScript 但我似乎不知道如何在回调中使用先前定义的函数假设我有我希望在另一个函数中使用它例如
MYSQL count(*) 和 count(1) 哪个更好？

相关 SQL Server 计数与计数 1 你能告诉我什么性能更好 MySQL 计数还是计数 1 这是 MySQL 的答案它们的执行完全相同除非您使用 MyISAM 然后是一个特殊情况COUNT 存在我总是用COUNT anywa
如何使用 Google Apps 脚本将视频上传到 Youtube？

我想使用 Google Apps 脚本通过 YouTube Data API v3 将视频上传到 YouTube 这是我的代码 function YouTubeAPI var url URL VIDEO var file UrlFetchA
WPF：按钮中奇怪的图像拉伸

我有多个按钮每个按钮都有一个 32x32 像素的 PNG 图像奇怪的是两个按钮显示不同的尺寸是的我三次检查图标确实是 32x32 秒按钮看起来大小为 48x48 像素最有趣的是如果我省略Stretch None 属性时图标会
了解Spring Cloud Eureka Server自我保存和更新阈值

我对开发微服务还很陌生尽管我已经研究它有一段时间了阅读了 Spring 的文档和 Netflix 的文档我开始了一个简单的项目可以在 Github 上找到它基本上是一个 Eureka 服务器阿基米德和三个 Eureka 客户端微
使用 DataOutputStream 将消息写入客户端套接字到服务器套接字仅在关闭客户端套接字后发送，为什么？

我用 Java 进行了 Socket Client 编程我正在使用 DataOutputStream 将消息发送到 Server Socket 有时在 DataOutputstream 上写入的消息不会发送到 ServerSocket
仅允许 oracle 数据库登录特定应用程序？

我们希望仅通过我们自己的应用程序允许用户进行数据库访问 Oracle 让我们将其称为 ourTool exe 安装在用户计算机本地目前用户每次启动 ourTool 时都必须提供用户名密码提供的密码密码被解密我们使用用户名解密密码
如何在数据库列中存储多个项目？

在我的项目中员工插入一个餐桌号选择客户订购的所有商品并将其保存到数据库中我有三张桌子 Employee empId firstname lastname Orders orderId tableNum empIDFK itemIDFK
批处理脚本从文件中删除 BOM (ï¿)

我创建了一个批处理脚本用于将 SQL 文件从文件夹复制到一个大 SQL 脚本中问题是当我运行这个 SQL 脚本时它出现错误附近的语法不正确我将一个 SQL 脚本复制到 Notepad 中并将编码设置为 ANSI 我在发生错误的行上
如何在PyGame中拖动多个图像？

import pygame from pygame locals import pygame display init screen pygame display set mode 1143 677 img pygame image loa
获取网页内容（通过AJAX调用加载）

我是一个爬行初学者我需要从链接中获取帖子和评论我想自动化这个过程我考虑过使用 webcrawler 和 jsoup 来实现此目的但被告知 webcrawler 主要用于具有更大深度的网站页面示例 Jive 社区网站对于此页面当

获取网页内容（通过AJAX调用加载）

获取网页内容（通过AJAX调用加载） 的相关文章

随机推荐

热门标签

获取网页内容（通过AJAX调用加载）的相关文章