零散的响应与浏览器响应不同

2024-01-03

我正在尝试用 scrapy 抓取此页面：

http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391

我得到的响应与我在浏览器中看到的不同。浏览器响应有正确的页面，而 scrapy 响应是：

http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=1

页。我已经尝试过 urllib2 但仍然有同样的问题。任何帮助深表感谢。

我不太明白这个问题，但通常浏览器和 scrapy 的不同响应是由以下之一引起的：

服务器分析你的User-Agent标头，并返回为移动客户端或机器人特制的页面；
服务器分析 cookie，并在您第一次访问时执行一些特殊操作；
您正在尝试像浏览器一样通过 scrapy 发出 POST 请求，但是您忘记了一些表单字段，或者输入了错误的值
etc.

没有通用的方法来确定问题所在，因为它取决于您不知道的服务器逻辑。如果幸运的话，您将分析并解决所有提到的问题并使其发挥作用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

beautifulsoup

urllib2

Scrapy

零散的响应与浏览器响应不同的相关文章

XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
urllib2.urlopen() 创建的对象是否表示持续连接？

在下面的代码中与远程服务器的连接是否保持打开状态直到close 被调用还是每次都重新创建read 叫做在下面的代码中我确实看到每次都会发生新的网络通信read 被调用而不是远程文件一旦被缓冲urlopen 叫做 import ur
在Python中打开网站框架或图像

所以我对 python 相当熟练并且经常使用 urllib2 和 Cookies 来实现网站自动化我刚刚偶然发现了 webbrowser 模块它可以在默认浏览器中打开一个网址我想知道是否可以从该 url 中仅选择一个对象并打开它具
Selenium/BeautifulSoup - WebScrape 该字段

我的代码运行良好并打印除带有下拉列表的行之外的所有行的标题例如如果单击第 4 行则会出现一个下拉菜单我实现了一个尝试理论上会单击下拉菜单然后拉出标题但是当我执行 click 并尝试打印时对于具有这些下拉列表的行它们不
scrapy蜘蛛如何将值返回给另一个蜘蛛

我正在爬行的网站包含许多玩家当我点击任何玩家时我都可以进入他的页面网站结构是这样的
无法使用python和beautifulsoup抓取网页中的某些href

我目前正在使用 Python 3 4 和 bs4 爬取网页以收集塞尔维亚在里约 2016 年的比赛结果所以网址here http rio2016 fivb com en volleyball women teams srb serbia
如何在解析网页时摆脱所有智能引号？

这是我的代码 name namestr decode utf 8 name replace u u2018 replace u u2019 replace u u201c replace u u201d 这似乎不起作用我还是发现 ldqu
使用 Beautifulsoup 和正则表达式提取 10-K Edgar 文件中的文本

我想从大约 10000 个文件中自动提取 1A 风险因素部分并将其写入 txt 文件可以找到带有文件的示例 URLhere https www sec gov Archives edgar data 1800 0001047469190
对于 scrapy/selenium 有没有办法返回到上一页？

我本质上有一个 start url 其中包含我的 javascript 搜索表单和按钮因此需要 selenium 我使用 selenium 在选择框对象中选择适当的项目然后单击搜索按钮接下来的页面我做了一些 scrapy 魔法但是
Scrapy Splash，如何处理onclick？

我正在尝试抓取以下内容我能够收到响应但我不知道如何访问以下项目的内部数据以抓取它我注意到访问这些项目实际上是由 JavaScript 和分页处理的这种情况我该怎么办下面是我的代码 import scrapy from scrapy
Flurry 登录 Requests.Session() Python 3

所以我之前回答过这个问题here https stackoverflow com questions 38670599 flurry scraping using python3 requests session 然而 Flurry 网站上
Python BeautifulSoup 循环表数据

这里对 Python 非常陌生我正在尝试从此页面捕获一些数据这一页 https us diablo3 com en item helm 我正在尝试获取两个列表中捕获的项目名称和项目类型我稍后可以弄清楚如何将它们连接到一张表中任何帮助都
scrapyd-client 命令未找到

我刚刚在 virtualenv 中安装了 scrapyd client 1 1 0 并成功运行命令 scrapyd deploy 但是当我运行 scrapyd client 时终端显示命令未找到 scrapyd client 根据自述文
Scrapy - 如何抓取网站并将数据存储在 Microsoft SQL Server 数据库中？

我正在尝试从我们公司创建的网站中提取内容我在 MSSQL Server 中为 Scrapy 数据创建了一个表我还设置了 Scrapy 并配置了 Python 来抓取和提取网页数据我的问题是如何将Scrapy爬取的数据导出到我本地的M
使用 python 在一个 html 页面中显示分割数据框的 HTML 代码

我是 html css 新手所以对以 html 格式显示的数据有疑问我有一个很长的列表我想将其拆分并以 html 格式显示为两个单独的列例如而不是 Col1 Col2 1 a 2 a 3 a 4 a 5 b 6 b 7 b 8 b
python SSLError("握手错误：SysCallError(-1，'意外的 EOF')",),))

我正在抓取这个 aspx 网站https gra206 aca ntu edu tw Temp W2 aspx Type 2 https gra206 aca ntu edu tw Temp W2 aspx Type 2 根据需要我必须解
通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
安装 scrapy 0.22 时出错（在 Ubuntu 12.04 上）：“gcc”失败，退出状态为 1

尝试使用 pip 从命令行安装 Scrapy 时 sudo pip install scrapy我收到以下错误 error command gcc failed with exit status 1 查看错误输出中的几行我发现在尝试安装
使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用

我正在尝试抓取该网站上的网络数据而我能够访问数据的唯一方法是迭代表的行将它们添加到列表中然后将它们添加到 pandas 数据框写入csv 然后单击下一页并重复该过程每次搜索大约 50 页我的程序执行 100 多个搜索它非常慢
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s

随机推荐

想要了解 Haskell 中的递归吗？

我现在已经使用了许多递归函数但仍然无法理解这样的函数到底是如何工作的我熟悉第二行即 n 0 1 但我不太熟悉最后一行即 n gt 0 fac n 1 n fac Int gt Int fac n n 0 1 n gt 0 fac n
如何连接蓝牙 a2dp 设备？

我正在尝试将运行 android 4 1 的 Android 设备与支持 a2dp 的音频接收器配对我可以在蓝牙设置屏幕上毫无问题地做到这一点但我很难在代码中做到这一点基本上我能够发现该设备但无法通过套接字连接到它也许我使用了错误
将 cookie 从第一个响应复制到下一个请求

我使用 HttpRequest gt send 发送第一个 HTTP 请求并收到带有以下 Set Cookie 标头的 302 响应设置 Cookie SESSION SCOPE 1 路径设置 Cookie III EXPT FILE
同一 WAR 中的多个 JAX-RS 应用程序

I have ApplicationPath resourcesP public class RestfulPrediction extends Application Override public Set
Postgresql regexp_matches 语法未按预期工作

我使用 Postgres正则表达式匹配提取数字的函数我使用的正则表达式是 4 s 0 3 s 12 1 s d 4 如果我使用像这样的工具https regexr com https regexr com 验证它是否正常工作我应用了以
NHibernate：映射列表字典

我的班级有一个类型字段Dictionary
Jetty嵌入和JSP编译到1.7？

我可以以某种方式指定jsp编译的vm的目标版本吗我需要 1 7 而不是默认的 1 5 我有一个Web应用程序上下文代码中的一些过滤器等 webapp 本身就是一场爆炸性的战争因此没有使用 xml 配置因为不需要但似乎为了做到这一
初始包含块和视口之间的区别

两者之间有什么区别还是相同我认为它们指的是同一件事但在不同的上下文中但我不确定所以我在这里问初始包含块和视口虽然彼此相关但却是两个不同的概念视口通常是指浏览器窗口的可视区域页面在屏幕上呈现在该区域中初始包含块是页面内的逻辑
Python 2.6 聊天循环问题。无法同时接收和发送

我正在尝试制作一个控制台聊天程序但我的循环有问题我无法同时获得输入和接收其他人的输入如果一端发送了两条或更多消息则另一端在发送一条消息之前无法接收下一条消息我对 python 相当陌生正在寻找正确方向的推动我考虑过多线程但这
如何使用非 root 用户创建 postgres 容器？

我想以非 root 用户身份运行 postgres 容器默认情况下该映像具有用户 postgres uid 999 当通过命令访问容器时docker exec it mycontainer bin bash 用户是root 为了使容器更
如何在使用 node_save($node) 创建节点时将图像附加到节点；

您好我正在使用 drupal 7 并尝试通过使用 php 解析 xml 来导入数据然后使用以下命令创建节点node save node 到目前为止我已经成功地从 xml 创建节点无需任何图像我想在导入图像时将图像附加到节点我知道
将值从页面传递到用户控件

我将姓名和姓氏存储在主页的两个标签中我在一个类中也有这些值类没有做太多事情但我将它们用于将来的扩展我有一个用户控件它将发送一封以姓名和姓氏作为正文的电子邮件我的问题是如何将标签或类变量值传输到用户控件的主体变量中使用要传递给它
混合 16 位线性 PCM 流并避免削波/溢出

我尝试将 2 个 16 位线性 PCM 音频流混合在一起但似乎无法克服噪音问题我认为它们是在将样品混合在一起时溢出的我有以下功能 short int mix sample short int sample1 short int sam
CPU和GPU的区别

CPU的单个处理单元和GPU的单个处理单元有什么区别我在互联网上看到的大多数地方都涵盖了两者之间的高级差异我想知道每条指令可以执行哪些指令它们的速度有多快以及这些处理单元如何集成到完整的架构中这似乎是一个答案很长的问题所以很多链
在 spring jpa 实体中保存级联实体后缺少值

我对 Spring 和 JPA 等比较陌生我试图在标签和客户之间创建多对多关系双向我想我的关系是正确的除了一个问题之外一切都运行良好保存到数据库后 Tag 值为 Null 所以我正在做的是向客户添加新的标签列表然后使用级联选
javascript中的子对象函数

我知道您可以使用子对象和函数创建文字对象 var obj val 1 level1 val 2 val2 3 func function return this val2 console log obj val console log ob
创建 Javascript 日历（完整，不弹出）

我在创建 javascript 约会样式日历时遇到一些困难虽然它确实进行了渲染但我知道会有一种更有效的方法来实现它有人有用于创建日历的模式吗我将使用 jQuery 但我不想使用某人的日历插件因为 a 我还没有找到适合我需要的插件
修复 Google 地图折线的编码字符串

我有一个编码字符串我想用它在谷歌地图中画一条线但由于反斜杠等特殊字符 Javascript 无法读取该字符串不幸的是我对Javascript没有太多经验而且我不知道如何转义这些字符编码字符串 qikrIehwu WOKEIAIBG
MVC 和 JQuery：检索表单数据的最佳实践

我有一些 JQuery 使用 Ajax 将信息发送回我的控制器进行处理我这样做是这样的 Define my controls Get the values from my controls var param1 pName val Def
零散的响应与浏览器响应不同

我正在尝试用 scrapy 抓取此页面 http www barnesandnoble com s dref 4815 sort SA startat 7391 我得到的响应与我在浏览器中看到的不同浏览器响应有正确的页面而 scrapy

零散的响应与浏览器响应不同

零散的响应与浏览器响应不同 的相关文章

随机推荐

热门标签

零散的响应与浏览器响应不同的相关文章