使用 Tor + Privoxy 抓取谷歌购物结果：如何避免被阻止？

2024-01-19

我已经安装了Tor + Privoxy在我的服务器上，它们工作正常！（已测试）。但现在当我尝试使用urllib2 (python)当然，使用代理来抓取谷歌购物结果，我总是被谷歌阻止（有时是503错误，有时是403错误）。那么任何人有任何解决方案可以帮助我避免这个问题吗？我们将非常感激！

我正在使用的源代码：

 _HEADERS = {
      'User-Agent': 'Mozilla/5.0',
      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Encoding': 'deflate',
      'Connection': 'close',
      'DNT': '1'
  }

  request = urllib2.Request("https://www.google.com/#q=iphone+5&tbm=shop", headers=self._HEADERS)

  proxy_support = urllib2.ProxyHandler({"http" : "127.0.0.1:8118"})
  opener = urllib2.build_opener(proxy_support) 
  urllib2.install_opener(opener)

  try:
      response = urllib2.urlopen(request)
      html = response.read()
      print html

   except urllib2.HTTPError as e:
       print e.code
       print e.reason

请注意：当我不使用代理时，它可以正常工作！

你安装了Tor的控制器库stem吗？只需几行代码，您就可以向 Tor 请求新的身份。看：

https://stem.torproject.org/faq.html#how-do-i-request-a-new-identity-from-tor https://stem.torproject.org/faq.html#how-do-i-request-a-new-identity-from-tor

只需使用异常来捕获 403 和 503 错误，并通过请求新身份来处理它们，如上面的链接所示。祝你好运。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Tor + Privoxy 抓取谷歌购物结果：如何避免被阻止？的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2

随机推荐

调试新的 Chrome 打包应用程序

我正在 Chrome 24 中使用新型打包应用程序但我没有看到任何方法可以调出开发人员工具来进行调试推荐的调试策略是什么去这里 chrome inspect 找到你想要的页面
如何将图像背景添加到 btn-default twitter-bootstrap 按钮？

我尝试使用现有的类设计一个 bootstrap v3 3 5 按钮btn 默认值下面是我所做的代码示例
如何使用 boost::program_options 创建选项别名？

我希望能够创建选项别名boost program options将它们的参数存储在相同的键标签下我的软件的架构根据值使用不同的专用选项解析器argv 1 然而有些选项是共享的比如我的选项 inputs inputOptions ad
为什么这种提取在示例上工作正常，但在真实网址上却不起作用？

我正在尝试提取内容href在班上a 里面是 td class DataZone 它适用于下面的示例 from bs4 import BeautifulSoup text td class DataZone div div style fon
使用 TortoiseGit 推送到远程 URL

我已经安装了最新的MSysGit 1 6 3 http code google com p msysgit 预览和乌龟Git 0 6 2 http code google com p tortoisegit 在我的 Windows XP 电
Yii2 干净的 URL 和操作参数

我已经在 Yii2 应用程序上启用了干净的 URL 但我似乎无法将参数传递给操作我期望这样本地主机应用程序网络 a b c d 映射到以下内容 AController gt actionB c d 这并没有发生这是我的 htacc
Spring Boot重定向到html页面

这是springboot的一个控制器我想写一个重定向到html页面的函数但它总是响应404 这是代码和属性 Component Controller RequestMapping Weixin public class KindlePo
ReactJS 组件 PropTypes - 使用一组参数指定函数类型

我在react 版本0 13 3 组件中指定所需的函数proptype var MyComponent React createClass propTypes onClick React PropTypes func isRequired
Flutter - 使用 Google API 发送电子邮件

经过大量研究和修复问题我到达了我的以下位置 github https github com rafaelcb21 gmail api flutter 但我不知道我是否正确安装了 json 由于出现以下错误 error errors dom
如何验证类属性？

背景我有一个 CSV 文件我需要准备并验证每行中的每个元素并创建一个具有有效数据的类的集合 IE CSV 文件如下所示 EmpID FirstName LastName Salary 1 James Help 100000 2 Jan
动态改变约束

我有一个 dijit form NumberTextBox 输入字段以这些参数开头 new dijit form NumberTextBox id din1 style width 60px constraints places 0 pa
Jquery：如何将TD移动到另一个TR？

我已经生成了 html 我需要使用 Jquery 重构 html 如下所示原来的 table tr td Col 1 Value td tr tr td Col 2 Value td tr tr td Col 3 Value td tr
从 EmberJS 中的路线观察服务上的属性

我想我不理解这里的概念据我所知有任何Ember object可以观察另一个人的属性Ember object 所以我有一个服务一个路由器和一个组件我需要组件和路由器能够观察服务的属性我完全有可能只是以错误的方式构建解决方案我将在最
向停靠且具有自动滚动功能的面板添加填充

我的表单底部有一个面板该面板设置为自动滚动以便在需要时出现滚动条我有一个动态添加到此面板的图像一切看起来都很好除了最后一张图像因为这里表单的最边缘是一个图像例如有谁知道如何在面板的右侧添加填充是的我确实尝试设置面板右侧
Thymeleaf + Spring（非 Boot）-如何显示来自 messageSource 的消息

我在使用 Thymeleaf 设置 Spring MVC 不使用 Boot 因为我在发现 Spring Initializr 之前启动了它以显示来自我的资源包的消息时遇到了问题该应用程序的主要配置类是 Configuration Ena
在 C++ std::vector 和 C 数组之间进行转换而不进行复制

我希望能够在 std vector 及其底层 C 数组 int 之间进行转换而无需显式复制数据 std vector 是否提供对底层 C 数组的访问我正在寻找这样的东西 vector
App Store 必须使用 iOS 15 SDK 或更高版本构建，包含在 Xcode 13 或更高版本中

错误 ITMS 90725 SDK 版本问题此应用程序是使用 iOS 14 4 SDK 构建的提交到 App Store 的所有 iOS 应用程序都必须使用 iOS 15 SDK 或更高版本构建包含在 Xcode 13 或更高版本中
R 中带有加权数据的频率表

我需要按年龄和婚姻状况计算个人的频率所以通常我会使用 table age marital status 然而每个人在数据采样后都有不同的权重如何将其合并到我的频率表中您可以使用函数svytable从包装中survey or wtd
访问属性“H”的权限被拒绝

我编写了下面的代码来使用java脚本捕获网页的整个屏幕截图我在用着火狐版本 49 0 1 铬版本 54 0 2840 59 m硒版本 3 0 0 OS Win10 64位Java 1 8 import java io File impo
使用 Tor + Privoxy 抓取谷歌购物结果：如何避免被阻止？

我已经安装了Tor Privoxy在我的服务器上它们工作正常已测试但现在当我尝试使用urllib2 python 当然使用代理来抓取谷歌购物结果我总是被谷歌阻止有时是503错误有时是403错误那么任何人有任何解决方案可以帮助

使用 Tor + Privoxy 抓取谷歌购物结果：如何避免被阻止？

使用 Tor + Privoxy 抓取谷歌购物结果：如何避免被阻止？ 的相关文章

随机推荐

热门标签

使用 Tor + Privoxy 抓取谷歌购物结果：如何避免被阻止？的相关文章