获取网页内容(通过AJAX调用加载)

2023-12-07

我是一个爬行初学者。我需要从链接中获取帖子和评论。我想自动化这个过程。我考虑过使用 webcrawler 和 jsoup 来实现此目的,但被告知 webcrawler 主要用于具有更大深度的网站。

页面示例:Jive 社区网站

对于此页面,当我查看页面源时,我只能看到帖子而看不到评论。认为这是因为评论是通过 AJAX 调用服务器获取的。

因此,当我使用 jsoup 时,它不会获取评论。

那么如何自动化获取帖子和评论的过程呢?


Jsoup 是一个html仅解析器。不幸的是,无法解析任何 javascript/ajax 内容,因为 jsoup 无法执行这些内容。

解决方案:使用可以处理脚本的库。

以下是我所知道的一些例子:

  • HtmlUnit
  • Java脚本引擎
  • Apache Commons BSF
  • Rhino

如果这样的库不支持解析或选择器,您至少可以使用它们从脚本中获取 Html(然后可以由 jsoup 解析)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

获取网页内容(通过AJAX调用加载) 的相关文章

  • 在 Python 3 中查找网站中最常见的单词 [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我需要使用 Python 3 代码查找并复制在给定网站上出现超过 5 次的单词 但我不知道该怎么做 我已经浏览了有关堆栈溢出的档案 但
  • Jsoup:忽略 SSL 错误

    我正在尝试下载https www deviantart com https www deviantart com使用 Jsoup v1 10 3 以及validateTLSCertificates false Java 8 已安装 Unli
  • 外部库会使应用程序变慢吗?

    我正在构建一个从网页中抓取信息的应用程序 为此 我选择使用一个名为的 html scraperJsoup http jsoup org 因为它使用起来非常简单 Jsoup 还依赖于 Apache Commons Lang 库 它们总计 38
  • Scrapy CrawlSpider 无法抓取第一个登陆页面

    我是 Scrapy 的新手 正在进行抓取练习 并且正在使用 CrawlSpider 尽管 Scrapy 框架运行良好并且它遵循相关链接 但我似乎无法使 CrawlSpider 抓取第一个链接 主页 登陆页面 相反 它直接抓取由规则确定的链接
  • 带负载的 Jsoup HTTP POST

    我正在尝试通过 jsoup 发出此 HTTP 请求here http developer decarta com Docs REST BatchRequests http api decarta com v1 KEY batch reque
  • 如何查找网站上的所有链接/页面

    是否可以找到任何给定网站上的所有页面和链接 我想输入一个 URL 并生成该站点所有链接的目录树 我查看过 HTTrack 但它下载了整个站点 我只需要目录树 查看链接检查器 https linkchecker github io linkc
  • Scrapy中如何控制yield的顺序

    帮助 阅读下面的scrapy代码和爬虫的结果 我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允
  • Jsoup 解析和嵌套标签

    我正在学习 Jsoup 并有这个 HTML p Content p p Content p p Content p 我使用 Jsoup parse 和文档 select p 来捕获 内容 并且效果很好 但 p Content p p Con
  • 通过wget命令爬取sitemap.xml的链接

    我尝试抓取 sitemap xml 的所有链接以重新缓存网站 但是 wget 的递归选项不起作用 我只得到响应 远程文件存在 但不包含任何链接 无法检索 但可以肯定的是 sitemap xml 充满了 http 链接 我尝试了 wget 的
  • 如何基于Scrapy构建一个永远运行的网络爬虫?

    我想基于Scrapy构建一个网络爬虫 从多个新闻门户网站抓取新闻图片 我希望这个爬虫是 永远奔跑 意味着它将定期重新访问一些门户页面以获取更新 安排优先事项 为不同类型的 URL 赋予不同的优先级 多线程获取 我已经阅读了Scrapy文档
  • Facebook 爬虫严重攻击我的服务器并忽略指令。多次访问相同资源

    Facebook 爬虫每秒多次访问我的服务器 它似乎忽略了 Expires 标头和 og ttl 属性 在某些情况下 它会在 1 5 分钟内多次访问同一 og image 资源 在一个示例中 爬虫程序在 3 分钟内使用 12 个不同的 IP
  • 如何自动检索AJAX调用的URL?

    目的是对爬行蜘蛛进行编程 使其能够 1 检索此页面表格中链接的 URL http cordis europa eu fp7 security projects en html http cordis europa eu fp7 securi
  • 我们可以从 LinkPresentation 框架中的 LPLinkView 中提取图像吗?

    我想在我的应用程序中呈现丰富的链接 并将这些数据发送到我的服务器 我需要访问视图内的图像LPLinkView https developer apple com documentation linkpresentation lplinkvi
  • 检测诚实的网络爬虫

    我想 在服务器端 检测哪些请求来自机器人 我现在并不关心恶意机器人 只关心那些表现良好的机器人 我见过一些方法 主要涉及将用户代理字符串与 bot 等关键字进行匹配 但这似乎很尴尬 不完整且无法维护 那么有人有更可靠的方法吗 如果没有 您是
  • 使用Java获取CSS文件中图像的URL?

    我正在尝试使用 Java 获取远程 CSS 文件中图像 所有 MIME 类型 的 URL 我正在使用 jsoup 来获取 css 的 URL 经过无数个小时的观看CSS解析器 http cssparser sourceforge net 由
  • 如何使用 Jsoup 获取包含非 ASCII 字符(ą、ś ...)的 URL?

    我正在使用 jsoup 解析一些波兰网站 但我对 URL 中的 等特殊字符有问题example com k t读起来像example com k 每个没有这个特殊字符的查询都可以完美运行 我努力了Document doc Jsoup par
  • scrapy-如何停止重定向(302)

    我正在尝试使用 Scrapy 抓取 url 但它会将我重定向到不存在的页面 Redirecting 302 to
  • Scrapy在页面上找不到表单

    我正在尝试编写一个自动登录的蜘蛛这个网站 https www athletic net account login ReturnUrl 2Fdefault aspx 但是 当我尝试使用scrapy FormRequest from resp
  • PyPi 下载计数似乎不切实际

    I put PyPi 上的一个包 http pypi python org pypi powerlaw第一次约两个月前 此后进行了一些版本更新 我注意到本周的下载计数记录 并惊讶地发现它已经被下载了数百次 在接下来的几天里 更令我惊讶的是下
  • Scrapy - 如何抓取网站并将数据存储在 Microsoft SQL Server 数据库中?

    我正在尝试从我们公司创建的网站中提取内容 我在 MSSQL Server 中为 Scrapy 数据创建了一个表 我还设置了 Scrapy 并配置了 Python 来抓取和提取网页数据 我的问题是 如何将Scrapy爬取的数据导出到我本地的M

随机推荐