screenscraping

HTMLAgilityPack 中的 XPath 选择无法按预期工作

我正在用 C 编写简单的屏幕抓取程序为此我需要选择放置在一个名为 aspnetForm 的单个表单内的所有输入页面上有 2 个表单我不希望来自另一个表单的输入并且此表单中的所有输入都放置在不同的表 div 中或者仅放置在该表单的第

c xpath screenscraping

HtmlUnit 的替代方案

迄今为止我一直在研究可用的无头浏览器发现 HtmlUnit 的使用非常广泛与 HtmlUnit 相比我们是否有任何具有可能优势的 HtmlUnit 替代方案谢谢纳恩据我所知 HtmlUnit 是最强大的无头浏览器你对此有什么

screenscraping webcrawler HtmlUnit headlessbrowser

页面抓取以从谷歌财经获取价格

我试图通过抓取谷歌金融页面来获取股票价格我在 python 中使用 urllib 包然后使用正则表达式来获取价格数据当我让 python 脚本运行时它最初会运行一段时间几分钟然后开始抛出异常 HTTP 错误 503 服务不可用

python screenscraping urllib stockquotes googlefinance

使用 Python 抓取和解析 Google 搜索结果

我问了一个question https stackoverflow com questions 7722876 web mining or scraping or crawling what tool library should i us

python screenscraping webscraping googlesearchapi

使用 javascript 屏幕延迟抓取网站 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在尝试抓取一个有瞬间 JavaScript 延迟的网站我目前正在使用 python 进行抓取每当我获取页面时 JavaSc

javascript python screenscraping webscraping scraper

如何在此上下文中使用 WebClient.DownloadDataAsync() 方法？

我的计划是让用户在我的程序中写下电影标题我的程序将异步提取适当的信息这样 UI 就不会冻结这是代码 public class IMDB WebClient WebClientX new WebClient byte Buffer nu

c Asynchronous Download screenscraping

用scrapy一一爬取网站列表

我正在尝试抓取网站列表scrapy 我尝试将网站网址列表作为start urls 但后来我发现我买不起那么多内存有什么办法可以设置scrapy一次抓取一两个网站您可以尝试使用concurrent requests 1以免数据超载 htt

python screenscraping webcrawler Scrapy

Node.js 抓取工具中的内存泄漏

这是一个用 JavaScript 和 Node js 编写的简单抓取工具用于抓取 Wikipedia 中的元素周期表元素数据依赖项是jsdom https github com tmpvar jsdom用于 DOM 操作和链帮 http

javascript memoryleaks nodejs screenscraping

使用 PHP 从网页中提取特定数据[重复]

这个问题在这里已经有答案了可能的重复 PHP 中的 HTML 抓取 https stackoverflow com questions 34120 html scraping in php 我想知道是否有任何方法可以从网页获取特定的文本字

php html screenscraping

网页抓取、屏幕抓取、数据挖掘技巧？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi

Java screenscraping htmlparsing datamining webscraping

Ruby 的“open_uri”是否在读取或失败后可靠地关闭套接字？

我一直在使用open uri拉下 ftp 路径作为数据源一段时间但突然发现我几乎连续不断地收到 530 抱歉已连接允许的最大客户端数 95 我不确定我的代码是否有问题或者是否是其他人正在访问服务器不幸的是我似乎无法真正确定谁有问题

rubyonrails ruby rubyonrails3 screenscraping

屏幕抓取：正则表达式还是 XQuery 表达式？

我正在回答一些面试的测验问题问题是关于我如何进行屏幕抓取也就是说假设您没有更好的结构化方法来直接查询信息例如网络服务则从网页中挑选内容我的解决方案是使用XQuery表达该表达式相当长因为我需要的内容在 HTML 层次结构中相

regex screenscraping xquery

无限滚动抓取网站

我写了很多抓取工具但我不太确定如何处理无限滚动条如今大多数网站例如 Facebook Pinterest 都有无限滚动条您可以使用 selenium 废弃 twitter 或 facebook 等无限滚动网站步骤 1 使用 pi

python screenscraping scraper

使用 Ruby 和 Mechanize 登录网站

我需要从网站上抓取数据但这需要我先登录我一直在使用 hpricot 成功抓取其他网站但我对使用 mechanize 还很陌生而且我真的对如何使用它感到困惑我看到这个例子经常被引用 require rubygems require

ruby authentication screenscraping mechanize hpricot

使用 C# 中的 asp.net 表单登录屏幕抓取网站？

是否可以为受表单登录保护的网站编写屏幕抓取程序当然我可以访问该网站但我不知道如何登录该网站并在 C 中保存我的凭据此外任何 C 屏幕截图的好例子将不胜感激这已经完成了吗这很简单您需要自定义登录 HttpPost 方法你可以

c screenscraping

Selenium：如何使用相同的类名选择第n个按钮

我正在尝试使用 css 类 btnProceed 选择第三个按钮

Java selenium screenscraping

使用 BeautifulSoup 和 Requests 抓取多个分页链接

Python 初学者在这里我正在尝试从以下位置抓取所有产品dabs com 上的一个类别 http www dabs com category computing 11001 我已经设法抓取给定页面上的所有产品但在迭代所有分页链接时遇到

python forloop webscraping beautifulsoup screenscraping

从登录后的页面获取 HTML

这个问题是我的后续问题上一个问题 https stackoverflow com questions 56279 export aspx to html关于从 ASPX 页面获取 HTML 我决定尝试使用 webclient 对象但问题是

aspnet html screenscraping

如何保护/监控您的网站免遭恶意用户抓取

情况网站内容受用户名密码保护并非全部受控因为他们可以是试用测试用户由于用户名密码限制普通搜索引擎无法获取它恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西问题是监控此类活动并对其做出响应的最佳

webcrawler screenscraping monitoring

urllib2 返回浏览器不同的页面？

我正在尝试抓取一个页面我的路由器的管理页面但该设备似乎为 urllib2 提供与我的浏览器不同的页面以前有人发现过这个吗我怎样才能绕过它这是我正在使用的代码 gt gt gt from BeautifulSoup import B

python screenscraping urllib2