urllib.request.urlopen详解

2023-11-10

视频链接https://www.bilibili.com/video/BV1Us41177P1?p=2

requests.get详解见：https://blog.csdn.net/qq_41845823/article/details/119516178

requests.get和urlopen的比较:https://blog.csdn.net/qq_41845823/article/details/119517519

以下为urllib.request.urlopen部分

Urllib是python内置的HTTP请求库：

urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块

在这里插入图片描述

python2中urllib2库中的很多方法在python3中被移至urllib.request库中。

urllib.request.urlopen

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

# get 类型请求
# 不加decode 返回json格式
import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')
print(response.read().decode('utf-8'))

# post 类型请求 需要添加属性data post请求用来上传或者修改服务器数据的 
# post和个体区别见  https://segmentfault.com/a/1190000018129846
# 'http://httpbin.org/post' 网站可以用来测试http请求响应
import urllib.request
import urllib.parse

data = bytes(urllib.parse.urlencode({'word':'hollow'}), encoding='utf8')
response = urllib.request.urlopen('http://httpbin.org/post', data=data)
print(response.read().decode('utf-8'))

# timeout 属性 设置响应时长  
import urllib.request
import urllib.error
import socket

try:
    response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1)
    print(response.read().decode('utf-8'))
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT')

响应

#  响应类型
import urllib.request

response = urllib.request.urlopen('http://httpbin.org')
print(type(response))

# 输出：<class 'http.client.HTTPResponse'>

# 根据响应的属性 status和getheaders获得响应状态码和响应头部
import urllib.request

response = urllib.request.urlopen('http://httpbin.org')
print(response.status)
print(response.getheaders())
print(response.getheader('Date'))

Request

通过urlopen参数直接是url地址可以构造简单的请求，但是有时候需要进行很精准的请求，比如加上header的User-Agent、host等信息，这个时候就需要构造request请求

# 利用 urllib.request.Request 制作request请求，再把该请求作为 urllib.request.urlopen 的参数请求响应
import urllib.request

request = urllib.request.Request('http://httpbin.org')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

# 利用 urllib.request.Request 制作request请求的 post请求
import urllib.request
import urllib.parse

url = 'http://httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36',
    'Host': 'httpbin.org'
}
dict = {
    'name': 'Germey'
}
data = bytes(urllib.parse.urlencode(dict), encoding='utf8')
request =  urllib.request.Request(url=url, data=data, headers=headers, method='POST')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

request对象提供了一个add_header方法，直接添加请求头部信息：

# 若有多个键值对需要用for循环添加
import urllib.request
import urllib.parse

url = 'http://httpbin.org/post'

dict = {
    'name': 'Germey'
}
data = bytes(urllib.parse.urlencode(dict), encoding='utf8')
request =  urllib.request.Request(url=url, data=data,  method='POST')
request.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

以上是基本的爬虫的构造，可以完成大部分爬取工作，以下是高级设置

Handler

urllib.request官方文档 https://docs.python.org/3/library/urllib.request.html 给出很多Handler的方法

代理

当我们爬取一个网站的时候，有时候需要重复访问多次，此时该网站可能会捕获你的访问次数，当检测到访问次数异常时会禁止你的ip访问，这个时候我们需要设置代理进行访问该网站，在爬虫运行过程中不断切换代理

import urllib.request

proxy_handler = urllib.request.ProxyHandler({
    'http': 'http://127.0.0.1:9743',
    'https': 'https://127.0.0.1:9743'
})
# 使用urllib.request.build_opener把proxy_handler里的地址、端口转换成代理
opener = urllib.request.build_opener(proxy_handler)
# 产生的opener之久就可以访问网站
reponse = opener.open('http://httpbin.org/post')
print(reponse.read())

在这里插入图片描述

cookie

cookie是用来维持登陆状态的信息，存储在本地文件中，网站根据cookie值来决定是否是登陆状态，若把cookie都清除掉，则网站就退出登陆了

以下是百度的 cookie信息

在这里插入图片描述

# 和代理类似，这里把cookie制作成opener
import http.cookiejar, urllib.request

# 产生一个<class 'http.cookiejar.CookieJar'>对象
cookie = http.cookiejar.CookieJar()
# 将cookie制作成<class 'urllib.request.HTTPCookieProcessor'>对象
handler = urllib.request.HTTPCookieProcessor(cookie)
# 产生<class 'urllib.request.OpenerDirector'>对象
opener = urllib.request.build_opener(handler)
reponse = opener.open('http://www.baidu.com')
for item in cookie:
    print(item.name + '=' + item.value)

可以把cookie保存成文件，在下次访问的时候如果该cookies还没失效，则可以维持登陆状态

import http.cookiejar, urllib.request

filename = "cookie.txt"
# 这里是生成 mozilla 格式的cookie文本
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
reponse = opener.open('http://www.baidu.com')
cookie.save(ignore_discard='True', ignore_expires='True')

import http.cookiejar, urllib.request

filename = 'cookie.txt'
# 这里是生成 LWP 格式的cookie文本
cookie = http.cookiejar.LWPCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)

接下来读取该文件，并加载cookie进行请求，文本是什么格式，就以哪种方法加载

import http.cookiejar, urllib.request

cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
print(response.read().decode('utf-8'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

笔记

爬虫

python

urllib.request.urlopen详解的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

C#中List集合的常用方法

C 中List集合的常用方法常用方法和属性常用属性常用方法 List类是ArrayList类的泛型等效类该类使用大小可按需动态增加的数组实现IList泛型接口泛型的好处它为使用c 语言编写面向对象程序增加了极大的效力和灵活性不
事物属性表现形式之变量、常量

目录新生的疑惑变量的定义变量注意事项常量的定义常量表现形式命名规范新生的疑惑先给大家模仿一段java老师讲课的情形来大家能看到我的PPT吧今天我们重点讲讲变量常量及首先来看变量顾名思义变量变量就是可变的量为
1、算法导论---时间复杂度、确定性和非确定性图灵机、算法的确定性与非确定性、P问题、NP问题、规约/约化、NPC问题、NP-hard问题

算法导论 1 时间复杂度 2 图灵机 3 算法的确定性与非确定性 4 P问题 5 NP问题 6 规约约化 7 NPC问题 8 NP Hard问题 9 四大问题关系 1 时间复杂度要想了解算法的问题首先要知道问题的分类而要想知道问题的
【华为OD机试真题 Java】路灯照明问题

前言本专栏将持续更新华为OD机试题目并进行详细的分析与解答包含完整的代码实现希望可以帮助到正在努力的你关于OD机试流程面经面试指导等如有任何疑问欢迎联系我 wechat steven moda email nansun09
在线协作文档综合评测：金山文档、腾讯文档、石墨文档

在线协作文档综合评测 Notion FlowUs Wolai 飞书语雀微软 Office 谷歌文档金山文档腾讯文档石墨文档 Dropbox Paper 坚果云文档百度网盘在线文档如今在线协作文档已经成为效率办公的必备产品然
安装SQL2008 提示创建usersettings/microsoft.sqlserver.configuration.landingpage.properties.se

安装SQL2008 提示创建usersettings microsoft sqlserver configuration landingpage properties se 环境WIN7 64位安装SQL2008之前已安装好了 VS2
关于QT中tr()翻译的简单理解

当我们使用一下方式进行翻译时候需要了解tr是怎么运行的 tr qstring 1 tr 接口会去调用一个 QCoreApplication translate objectClassName this s c n 其中this形参就是翻译所
jedis 出现java.lang.ClassCastException: java.util.ArrayList cannot be cast to java.lang.Long

问题使用jedis出现java lang ClassCastException java util ArrayList cannot be cast to java lang Long 解决办法参考文章 http hellojimmy
【设计模式】创建者模式_工厂、抽象工厂、建造者

设计模式六大原则开闭原则 Open Close Principle 开闭原则就是说对扩展开放对修改关闭在程序需要进行拓展的时候不能去修改原有的代码而是要扩展原有代码单一职责原则不要存在多于一个导致类变更的原因也就是说每个类应
若依框架_05：接口汇总

若依接口汇总一登录路由渲染 1 1 登录 1 1 1 登录 1 1 2 注册 1 1 3 获取验证码 1 1 4 获取用户详细信息 1 1 5 登出 1 2 路由渲染 1 2 1 获取路由二系统管理模块 2 1 用户管理 2 1
javascript中defer和async 区别

defer和async 区别 1 没有 defer 或 async 浏览器会立即加载并执行指定的脚本立即指的是在渲染该 script 标签之下的文档元素之前也就是说不等待后续载入的文档元素读到就加载并执行 2 有 async 加载和
递归函数的例子python卖鸭子_递归算法实现卖鸭子

问题重述 1 一个人赶着鸭子去每个村庄卖每经过一个村子卖去所赶鸭子的一半又一只这样他经过了七个村子后还剩两只鸭子问他出发时共赶多少只鸭子经过每个村子卖出多少只鸭子代码题目分析设在经过n 个村子时有xn 只鸭子根据题意可以得到
MATLAB算法实战应用案例精讲-【集成算法】集成学习模型Bagging（附Python和R语言代码）

目录前言几个相关概念几个高频面试题目
阿里云-MaxComputer学习+踩坑第001天

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一 DataWorks是什么二 MaxComputer是什么 1 产品介绍 2 表分区规范 3 官方分区文档总结前言由于公司一家蒸蒸日上的小跨境电商
[搬运]台湾大学机器学习课程 by 李宏毅

最近看到一个比较好的机器学习课程大致听了一遍整体感觉机器学习领域还是比较难虽然李宏毅老师讲得还是挺好的没有足够基础吸收起来还是有一定困难即便是已经把过程讲了一遍也很难理解到那些理论是如何构建起来的这个课程一个好是讲到了当前最热
科目一考试系统服务器奔溃,科目一错误率最高的题学员都崩溃了

2017 02 28 09 07 59 做错这种基础题目的时候与其有时间责怪出题人套路太深不如反省一下自己为什么做题的时候没有多看选项一眼在学习科目一的时候很多学员都对科目一的题目感到头疼有的是因为交通法规太难背有的是对绕人的题
css video 样式,使用CSS修改 video 标签默认样式

使用CSS修改 video 标签默认样式时间 2019 11 08 17 42 14 来源作者效果展示 1 模拟直播去除进度条当前观看时间剩余时间效果 2 去除 video 标签全部控件效果 Tags CSS 点击评论声
10x倍加速PDE的AI求解：元自动解码器求解参数化偏微分方程

研究背景科学和工程中的许多应用需要求解具有不同方程系数不同边界条件甚至不同求解域形状的偏微分方程 Partial Differential Equation PDE 即需要求解一个方程族而不是单个方程这类应用经常在反问题求解控制和优
关于RxJava最友好的文章

本篇文章已授权微信公众号 guolin blog 郭霖独家发布 RxJava到底是什么让我们直接跳过官方那种晦涩的追求精确的定义其实初学RxJava只要把握两点观察者模式和异步就基本可以熟练使用RxJava了异步在这里并不需要做
urllib.request.urlopen详解

视频链接https www bilibili com video BV1Us41177P1 p 2 requests get详解见 https blog csdn net qq 41845823 article details 119516

urllib.request.urlopen详解

urllib.request.urlopen

响应

Request

Handler

代理

cookie

urllib.request.urlopen详解 的相关文章

随机推荐

热门标签

urllib.request.urlopen详解的相关文章