Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
为什么 python 解码会替换编码字符串中的无效字节?
尝试解码无效编码的 utf 8 html 页面会产生不同的结果 蟒蛇 火狐和铬 测试页面中的无效编码片段看起来像 PREFIX xe3 xabSUFFIX gt gt gt fragment PREFIX xe3 xabSUFFIX gt
python
security
Unicode
screenscraping
无法从我的学校网站获取我的日程安排数据。使用 cURL 登录不起作用
Edit 为什么要负一呢 我想做的是 我正在尝试使用 cURL 登录我的学校网站并获取时间表以将其用于我的 AI 因此 我需要使用我的通行证和号码登录 但学校网站上的表格还需要一个隐藏的 令牌
php
cURL
screenscraping
尝试使用 HttpWebRequest 获取身份验证 cookie
我必须从安全站点抓取表格 但无法登录该页面并检索身份验证令牌和任何其他关联的 cookie 我在这里做错了什么吗 public NameValueCollection LoginToDatrose var loginUriBuilder n
c
httpWebRequest
screenscraping
WebClient
httpwebresponse
这种网络抓取行为是否合法? [关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我有与网络抓取相关的问题 不幸的是我在这里或谷歌搜索找不到任何答案 好吧 我可能参与了一个项目 站点 B 但不确定它的合法性 因为对我来说
Web
screenscraping
使用 www::mechanize 时的 Iconv::IllegalSequence
我正在尝试做一些网络抓取 但 WWW Mechanize gem 似乎不喜欢编码并且崩溃 post 请求导致 302 重定向 机械化遵循 到目前为止一切顺利 并且生成的页面似乎使其崩溃 我用谷歌搜索了很多 但到目前为止还没有找到如何解决这个
ruby
screenscraping
iconv
mechanizeruby
硒点击坐标没有点击预期的位置
我需要屏幕抓取使用 ActiveX 控件进行导航的网页 这不是用于用户界面测试目的 而是用于从遗留应用程序下载数据 我遇到的问题是顶部导航是带有 javascript 的完整 ActiveX 不可能通过任何方式获取元素 所以我试图在坐标上单
c
selenium
screenscraping
如何发送Scrapy中启用的JavaScript和Cookies?
我正在使用 Scrapy 抓取一个网站 该网站需要启用烹饪和 java 脚本 我认为我不必实际处理 javascript 我所需要的只是假装 javascript 已启用 这是我尝试过的 1 通过以下设置启用 Cookie COOKIES
python
screenscraping
mechanize
Scrapy
使用php的屏幕抓取技术
如何筛选特定网站 我需要登录一个网站 然后抓取内部信息 这怎么可能做到呢 请指导我 复制 如何用 PHP 实现网络爬虫 https stackoverflow com questions 26947 how to implement a w
php
screenscraping
使用 Node.js 实时抓取网页
好处是使用 Node js 抓取网站内容 我想构建一个非常非常快的东西 可以以以下方式执行搜索皮划艇网站 http www kayak com 其中一个查询被分派到多个不同的站点 结果被抓取 并在可用时返回给客户端 我们假设这个脚本应该只提
javascript
jQuery
nodejs
screenscraping
webscraping
使用 Simple HTML Dom 检索关键字元标记内容?
我正在使用 Simple HTML Dom 从远程网页上刮掉关键字 但我不知道如何实现这一点 我目前正在使用以下代码 html str get html remote html echo html gt find meta keywords
php
screenscraping
simplehtmldom
PHP 函数使用 scrape 方法抓取远程站点上
内的所有链接
有人有一个 PHP 函数可以抓取远程站点上特定 DIV 内的所有链接吗 所以用法可能是 links grab links url divname 并返回一个我可以使用的数组 抓取链接我可以弄清楚但不知道如何让它只在特定的 div 内执行 谢
php
cURL
screenscraping
screen
pregmatch
如何在 Ruby 中使用 mechanize 填写登录表单?
下面是我希望用机械化填写的表格 已经尝试过常用的模型 例如 使用 Ruby 和 Mechanize 填写远程登录表单之谜 但没有成功
ruby
Forms
screenscraping
mechanize
使用 JSOUP 登录 ConEd 网站
我已经广泛阅读了有关如何做到这一点的内容 并且尝试了许多不同的变体 但我无法让它发挥作用 基本上 我只想登录 ConEdison 网站并抓取我的账单历史记录 这是我所拥有的 Connection Response loginForm Jso
Java
authentication
Jsoup
screenscraping
使用 PHP 抓取完整图像 src
我正在尝试用 php 抓取 img src 我可以很好地获取 src 但是如果 src 不包含完整路径 那么我无法真正重用它 有没有办法使用php获取图像的完整路径 如果使用右键菜单 浏览器可以获取它 IE 如何获取包含以下两个示例之一中的
php
path
screenscraping
src
使用 jQuery 进行简单的屏幕抓取
我一直在考虑使用 jQuery 使用简单的屏幕抓取器的想法 我想知道以下是否可行 我有简单的 HTML 页面 并且正在尝试 如果可能的话 从另一个页面获取所有列表项的内容 如下所示 主页
javascript
jQuery
screenscraping
防止屏幕刮擦[关闭]
Closed 这个问题是无关 目前不接受答案 根据我的问题屏幕抓取的合法性 即使这是非法的 人们仍然会尝试 所以 可以采用哪些技术机制prevent或者至少抑制屏幕抓取 哦 只是为了笑 让生活变得困难 保留搜索引擎的访问权限可能会很好 我可
screenscraping
如果对象还有其他类,Beautiful Soup 也找不到 CSS 类
如果一个页面有 div class class1 and p class class1 then soup findAll True class1 会找到他们两个 如果有 p p class class1 class2 但是 它不会被发现
python
screenscraping
beautifulsoup
file_get_contents() 给我 403 Forbidden
我有一个合作伙伴创建了一些内容供我抓取 我可以使用浏览器访问该页面 但是当尝试使用file get contents 我得到一个403 forbidden 我尝试过使用stream context create 但这没有帮助 可能是因为我不
php
html
httpheaders
screenscraping
JSoup - 选择所有评论
我想使用 JSoup 从文档中选择所有评论 我想做这样的事情 for Element e doc select comment System out println e 我已经尝试过这个 for Element e doc getAllEl
Java
screenscraping
extract
comments
Jsoup
OpenUri 导致 HTTPS URL 出现 401 Unauthorized 错误
我正在添加从需要使用带有身份验证的 HTTPS 连接的源中抓取 XML 页面的功能 我正在尝试使用 Ryan Bates 的 Railscast 190 解决方案 但遇到 401 身份验证错误 这是我的测试 Ruby 脚本 require
ruby
authentication
https
screenscraping
«
1
2
3
4
5
6
7
»