Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
HTMLAgilityPack 中的 XPath 选择无法按预期工作
我正在用 C 编写简单的屏幕抓取程序 为此我需要选择放置在一个名为 aspnetForm 的单个表单内的所有输入 页面上有 2 个表单 我不希望来自另一个表单的输入 并且此表单中的所有输入都放置在不同的表 div 中 或者仅放置在该表单的第
c
xpath
screenscraping
HtmlUnit 的替代方案
迄今为止 我一直在研究可用的无头浏览器 发现 HtmlUnit 的使用非常广泛 与 HtmlUnit 相比 我们是否有任何具有可能优势的 HtmlUnit 替代方案 谢谢 纳恩 据我所知 HtmlUnit 是最强大的无头浏览器 你对此有什么
screenscraping
webcrawler
HtmlUnit
headlessbrowser
页面抓取以从谷歌财经获取价格
我试图通过抓取谷歌金融页面来获取股票价格 我在 python 中使用 urllib 包 然后使用正则表达式来获取价格数据 当我让 python 脚本运行时 它最初会运行一段时间 几分钟 然后开始抛出异常 HTTP 错误 503 服务不可用
python
screenscraping
urllib
stockquotes
googlefinance
使用 Python 抓取和解析 Google 搜索结果
我问了一个question https stackoverflow com questions 7722876 web mining or scraping or crawling what tool library should i us
python
screenscraping
webscraping
googlesearchapi
使用 javascript 屏幕延迟抓取网站 [关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 我正在尝试抓取一个有瞬间 JavaScript 延迟的网站 我目前正在使用 python 进行抓取 每当我 获取 页面时 JavaSc
javascript
python
screenscraping
webscraping
scraper
如何在此上下文中使用 WebClient.DownloadDataAsync() 方法?
我的计划是让用户在我的程序中写下电影标题 我的程序将异步提取适当的信息 这样 UI 就不会冻结 这是代码 public class IMDB WebClient WebClientX new WebClient byte Buffer nu
c
Asynchronous
Download
screenscraping
用scrapy一一爬取网站列表
我正在尝试抓取网站列表scrapy 我尝试将网站网址列表作为start urls 但后来我发现我买不起那么多内存 有什么办法可以设置scrapy一次抓取一两个网站 您可以尝试使用concurrent requests 1以免数据超载 htt
python
screenscraping
webcrawler
Scrapy
Node.js 抓取工具中的内存泄漏
这是一个用 JavaScript 和 Node js 编写的简单抓取工具 用于抓取 Wikipedia 中的元素周期表元素数据 依赖项是jsdom https github com tmpvar jsdom用于 DOM 操作和链帮 http
javascript
memoryleaks
nodejs
screenscraping
使用 PHP 从网页中提取特定数据[重复]
这个问题在这里已经有答案了 可能的重复 PHP 中的 HTML 抓取 https stackoverflow com questions 34120 html scraping in php 我想知道是否有任何方法可以从网页获取特定的文本字
php
html
screenscraping
网页抓取、屏幕抓取、数据挖掘技巧? [关闭]
就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
Java
screenscraping
htmlparsing
datamining
webscraping
Ruby 的“open_uri”是否在读取或失败后可靠地关闭套接字?
我一直在使用open uri拉下 ftp 路径作为数据源一段时间 但突然发现我几乎连续不断地收到 530 抱歉 已连接允许的最大客户端数 95 我不确定我的代码是否有问题 或者是否是其他人正在访问服务器 不幸的是 我似乎无法真正确定谁有问题
rubyonrails
ruby
rubyonrails3
screenscraping
屏幕抓取:正则表达式还是 XQuery 表达式?
我正在回答一些面试的测验问题 问题是关于我如何进行屏幕抓取 也就是说 假设您没有更好的结构化方法来直接查询信息 例如网络服务 则从网页中挑选内容 我的解决方案是使用XQuery表达 该表达式相当长 因为我需要的内容在 HTML 层次结构中相
regex
screenscraping
xquery
无限滚动抓取网站
我写了很多抓取工具 但我不太确定如何处理无限滚动条 如今 大多数网站 例如 Facebook Pinterest 都有无限滚动条 您可以使用 selenium 废弃 twitter 或 facebook 等无限滚动网站 步骤 1 使用 pi
python
screenscraping
scraper
使用 Ruby 和 Mechanize 登录网站
我需要从网站上抓取数据 但这需要我先登录 我一直在使用 hpricot 成功抓取其他网站 但我对使用 mechanize 还很陌生 而且我真的对如何使用它感到困惑 我看到这个例子经常被引用 require rubygems require
ruby
authentication
screenscraping
mechanize
hpricot
使用 C# 中的 asp.net 表单登录屏幕抓取网站?
是否可以为受表单登录保护的网站编写屏幕抓取程序 当然 我可以访问该网站 但我不知道如何登录该网站并在 C 中保存我的凭据 此外 任何 C 屏幕截图的好例子将不胜感激 这已经完成了吗 这很简单 您需要自定义登录 HttpPost 方法 你可以
c
screenscraping
Selenium:如何使用相同的类名选择第n个按钮
我正在尝试使用 css 类 btnProceed 选择第三个按钮
Java
selenium
screenscraping
使用 BeautifulSoup 和 Requests 抓取多个分页链接
Python 初学者在这里 我正在尝试从以下位置抓取所有产品dabs com 上的一个类别 http www dabs com category computing 11001 我已经设法抓取给定页面上的所有产品 但在迭代所有分页链接时遇到
python
forloop
webscraping
beautifulsoup
screenscraping
从登录后的页面获取 HTML
这个问题是我的后续问题上一个问题 https stackoverflow com questions 56279 export aspx to html关于从 ASPX 页面获取 HTML 我决定尝试使用 webclient 对象 但问题是
aspnet
html
screenscraping
如何保护/监控您的网站免遭恶意用户抓取
情况 网站内容受用户名 密码保护 并非全部受控 因为他们可以是试用 测试用户 由于用户名 密码限制 普通搜索引擎无法获取它 恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西 问题是监控此类活动并对其做出响应的最佳
webcrawler
screenscraping
monitoring
urllib2 返回浏览器不同的页面?
我正在尝试抓取一个页面 我的路由器的管理页面 但该设备似乎为 urllib2 提供与我的浏览器不同的页面 以前有人发现过这个吗 我怎样才能绕过它 这是我正在使用的代码 gt gt gt from BeautifulSoup import B
python
screenscraping
urllib2
«
1
2
3
4
5
6
7
»