我是一个爬行初学者。我需要从链接中获取帖子和评论。我想自动化这个过程。我考虑过使用 webcrawler 和 jsoup 来实现此目的,但被告知 webcrawler 主要用于具有更大深度的网站。
页面示例:Jive 社区网站
对于此页面,当我查看页面源时,我只能看到帖子而看不到评论。认为这是因为评论是通过 AJAX 调用服务器获取的。
因此,当我使用 jsoup 时,它不会获取评论。
那么如何自动化获取帖子和评论的过程呢?
Jsoup 是一个html仅解析器。不幸的是,无法解析任何 javascript/ajax 内容,因为 jsoup 无法执行这些内容。
解决方案:使用可以处理脚本的库。
以下是我所知道的一些例子:
- HtmlUnit
- Java脚本引擎
- Apache Commons BSF
- Rhino
如果这样的库不支持解析或选择器,您至少可以使用它们从脚本中获取 Html(然后可以由 jsoup 解析)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)