Python两大爬虫库

2023-05-16

文章目录

Python两大爬虫库
urllib库
- urllib库使用
- urllib.request
- 实验案例：
- 模拟头部信息
requests库
- 实验案例--get请求
- 实验案例--抓取网页
- 实验案例--响应

在使用Python爬虫时，需要模拟发起网络请求，主要用到的库有requests库和python内置的urllib库，一般建议使用requests，它是对urllib的再次封装。

Python两大爬虫库

urllib库

urllib 包包含以下几个模块：

urllib.request - 打开和读取 URL。
urllib.error - 包含 urllib.request 抛出的异常。
urllib.parse - 解析 URL。
urllib.robotparser - 解析 robots.txt 文件。

urllib库使用

urllib库的response对象是先创建http，request对象，装载到reques.urlopen里完成http请求。

返回的是http，response对象，实际上是html属性。使用.read().decode()解码后转化成了str字符串类型，decode解码后中文字符能够显示出来。

urllib.request

urllib.request 定义了一些打开 URL 的函数和类，包含授权验证、重定向、浏览器 cookies等。

urllib.request 可以模拟浏览器的一个请求发起过程。

我们可以使用 urllib.request 的 urlopen 方法来打开一个 URL，语法格式如下：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url：url 地址。
data：发送到服务器的其他数据对象，默认为 None。
timeout：设置访问超时时间。
cafile 和 capath：cafile 为 CA 证书， capath 为 CA 证书的路径，使用 HTTPS 需要用到。
cadefault：已经被弃用。
context：ssl.SSLContext类型，用来指定 SSL 设置。

实验案例：


import urllib
from urllib.request import urlopen
# get请求
response = urllib.request.urlopen('http://www.baidu.com')
print(response.read().decode('utf-8'))
# push请求
data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding='utf-8')
response = urllib.request.urlopen('http://www.baidu.com', data=data)
print(type(response))
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

try:
    response = urllib.request.urlopen("http://www.baidu.com/no.html")
except urllib.error.HTTPError as e:
    if e.code == 404:
        print(404)   # 404

在这里插入图片描述

模拟头部信息

我们抓取网页一般需要对 headers（网页头信息）进行模拟，这时候需要使用到 urllib.request.Request 类：

class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

url：url 地址。
data：发送到服务器的其他数据对象，默认为 None。
headers：HTTP 请求的头部信息，字典格式。
origin_req_host：请求的主机地址，IP 或域名。
unverifiable：很少用整个参数，用于设置网页是否需要验证，默认是False。
method：请求方法，如 GET、POST、DELETE、PUT等。

import urllib
from urllib import request
#请求头
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'
}
# wd = {"wd": "hello"}
# url = "http://www.baidu.com/s?"
url = 'https://www.runoob.com/?s='  # 菜鸟教程搜索页面
keyword = 'Python 教程'
key_code = urllib.request.quote(keyword)  # 对请求进行编码
url_all = url+key_code

req = request.Request(url_all, headers=headers)
response = request.urlopen(req)
print(type(response))
print(response)
res = response.read().decode()
print(type(res))
print(res)

在这里插入图片描述

requests库

requests库调用是requests.get方法传入url和参数，返回的对象是Response对象，打印出来是显示响应状态码。

requests的优势：
Python爬虫时，更建议用requests库。因为requests比urllib更为便捷，requests可以直接构造get，post请求并发起，而urllib.request只能先构造get，post请求，再发起。

实验案例–get请求

import requests
# 1.基本get请求
response = requests.get('http://www.baidu.com')
print('response\n',response)
# 2.带参数的get请求
response2 = requests.get('http://www.baidu.com/get?name=germy&age=22')
print('response2\n',response2)
# 3.将参数传入params参数中来实现2中一样的功能
data = {
    'name': 'germy',
    'age': 22
}
response3 = requests.get('http://www.baidu.com', params=data)
print('response3\n',response3)
# 4.解析jason(如果返回结果是一个json, 则调用该方法就可以直接返回json)
response4 = requests.get('http://httpbin.org/get')
print('response4\n',response4)

# 5.获取二进制数据(图片, 视频...)
response5 = requests.get('http://github.com/favicon.ico')
with open('icon.ico', 'wb') as f:
    f.write(response5.content)

# 6.添加headers(传入headers参数)
headers = {
    'User-Agent': '...'
}
response6 = requests.get('http://zhihu.com', headers=headers)
print('response6\n',response6)

实验案例–抓取网页

import requests  

url = 'http://httpbin.org/get'
params = {  
    'name': 'germey',  
    'age': 25
}  
r = requests.get(url, params = params)  
print(type(r.json()))
print(r.json())
print(r.json().get('args').get('age'))

实验案例–响应

响应是指在发送请求后，服务器返回的数据，在上面例子中，我们通过响应的 text 以及 content 获取了响应内容，此外，还可以通过其他方法来获取其他属性值，比如状态码、响应头、Cookies

import requests
# 1.基本get请求
r = requests.get('http://www.baidu.com')
print(type(r.status_code), r.status_code)
print(type(r.headers), r.headers)
print(type(r.cookies), r.cookies)
print(type(r.url), r.url)
print(type(r.history), r.history)

在这里插入图片描述
在上面的例子中， status_code , cookies ，history 分别代表响应的状态码，cookie 以及请求历史。

在这里需要注意的是，status_code 状态码就是 HTTP 请求状态码，比如 200 代表请求成功，404 代表资源不存在等，具体可以查阅相关资料。因此，在爬虫代码中，我们就可以通过这个状态码来判断是否请求成功，从而方便做相应的处理。

import requests

r = requests.get('http://www.baidu.com')
if not r.status_code == requests.codes.ok:
    print('不OK')
else:
    print('Request Successfully!')

在这里，我们用 requests.codes.ok 代表200状态，这样就不用自己手写200等数字，比较方便。当然，也还有其他内置的状态码，在下面会列出一些比较常用的，供大家参考：

# 信息性状态码  
100: ('continue',),  
101: ('switching_protocols',),  
102: ('processing',),  
103: ('checkpoint',),  
122: ('uri_too_long', 'request_uri_too_long'),  

# 成功状态码  
200: ('ok', 'okay', 'all_ok', 'all_okay', 'all_good', '\\o/', '✓'),  
201: ('created',),  
202: ('accepted',),  
203: ('non_authoritative_info', 'non_authoritative_information'),  
204: ('no_content',),  
205: ('reset_content', 'reset'),  
206: ('partial_content', 'partial'),  
207: ('multi_status', 'multiple_status', 'multi_stati', 'multiple_stati'),  
208: ('already_reported',),  
226: ('im_used',),  

# 重定向状态码  
300: ('multiple_choices',),  
301: ('moved_permanently', 'moved', '\\o-'),  
302: ('found',),  
303: ('see_other', 'other'),  
304: ('not_modified',),  
305: ('use_proxy',),  
306: ('switch_proxy',),  
307: ('temporary_redirect', 'temporary_moved', 'temporary'),  
308: ('permanent_redirect',  
      'resume_incomplete', 'resume',), # These 2 to be removed in 3.0  

# 客户端错误状态码  
400: ('bad_request', 'bad'),  
401: ('unauthorized',),  
402: ('payment_required', 'payment'),  
403: ('forbidden',),  
404: ('not_found', '-o-'),  
405: ('method_not_allowed', 'not_allowed'),  
406: ('not_acceptable',),  
407: ('proxy_authentication_required', 'proxy_auth', 'proxy_authentication'),  
408: ('request_timeout', 'timeout'),  
409: ('conflict',),  
410: ('gone',),  
411: ('length_required',),  
412: ('precondition_failed', 'precondition'),  
413: ('request_entity_too_large',),  
414: ('request_uri_too_large',),  
415: ('unsupported_media_type', 'unsupported_media', 'media_type'),  
416: ('requested_range_not_satisfiable', 'requested_range', 'range_not_satisfiable'),  
417: ('expectation_failed',),  
418: ('im_a_teapot', 'teapot', 'i_am_a_teapot'),  
421: ('misdirected_request',),  
422: ('unprocessable_entity', 'unprocessable'),  
423: ('locked',),  
424: ('failed_dependency', 'dependency'),  
425: ('unordered_collection', 'unordered'),  
426: ('upgrade_required', 'upgrade'),  
428: ('precondition_required', 'precondition'),  
429: ('too_many_requests', 'too_many'),  
431: ('header_fields_too_large', 'fields_too_large'),  
444: ('no_response', 'none'),  
449: ('retry_with', 'retry'),  
450: ('blocked_by_windows_parental_controls', 'parental_controls'),  
451: ('unavailable_for_legal_reasons', 'legal_reasons'),  
499: ('client_closed_request',),  

# 服务端错误状态码  
500: ('internal_server_error', 'server_error', '/o\\', '✗'),  
501: ('not_implemented',),  
502: ('bad_gateway',),  
503: ('service_unavailable', 'unavailable'),  
504: ('gateway_timeout',),  
505: ('http_version_not_supported', 'http_version'),  
506: ('variant_also_negotiates',),  
507: ('insufficient_storage',),  
509: ('bandwidth_limit_exceeded', 'bandwidth'),  
510: ('not_extended',),  
511: ('network_authentication_required', 'network_auth', 'network_authentication')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

两大爬虫库

Python两大爬虫库的相关文章

在 Python 中解析 TCL 列表

我需要在双括号上拆分以空格分隔的 TCL 列表例如 OUTPUT 172 25 50 10 01 01 Ethernet 172 25 50 10 01 02 Ethernet Traffic Item 1 172 25 50 10 01
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

Apollo配置中心介绍

一背景最近公司订单中心重构 xff0c 利用spring boot集成apollo配置中心 xff0c 因此学习一下apollo配置中心因为如今程序功能越来越复杂 xff0c 程序的配置日益增多 xff1a 各种功能的开关参数配置
前端工程化-loader机制

前言 xff1a loader是用来加载处理各种形式的资源 xff0c 本质上是一个函数 xff0c 接受文件作为参数 xff0c 返回转化后的结构 loader 用于对模块的源代码进行转换 loader 可以使你在 import 或加载
Java中大量数据批量处理方式

在订单中心处理订单 xff0c 总会遇到大批量订单处理的业务 xff0c 下面就将如何大批量处理数据来提高效率做一个总结 xff1b 代码设计 xff1a 在dao层写批量新增的方法以及实现dao的实现类 xff0c 在service调用
java 获取视频的时长、大小、格式等信息

1 最近有一个小的视频处理需求 xff0c 根据传入视频的url获取视频的时长大小格式等信息下面将记录一下 xff1a package Void 64 Author psw 64 Description 获取视频宽高大小时间工具类 i
Linux下安装Anaconda3详细教程

简介 Anaconda是一个开源的包环境管理器 xff0c 可以用于在同一个机器上安装不同版本的软件包及其依赖 xff0c 并能够在不同的环境之间切换 Anaconda包括Conda Python以及一大堆安装好的工具包 xff0c 比如
keil下载出现错误Error：Flash Download failed -“Cortex-M3”问题

在基本确认配置都正确的情况下 xff0c 可以试一下先擦除flash再下载程序 xff0c 一次不成功可以多擦除几次本人就是这样解决的分界线更新博客 xff1a 前面解决方法
《华为机试》刷题之HJ39 判断两个IP是否属于同一子网

一题目描述 IP地址是由4个0 255之间的整数构成的 xff0c 用 34 34 符号相连二进制的IP地址格式有32位 xff0c 例如 xff1a 10000011 xff0c 01101011 xff0c 00000011 xf
camera调试：i2c不通如何排查？

这篇文章介绍一下在调试camera驱动的过程 xff0c 最常见的一个问题 xff0c i2c不通导致驱动注册不上 xff0c 应该如何排查常见的报错log如下 xff1a 1 973566 T1 gc8034 4 0037 driver
Linux上好用的截图工具——flameshot

我在windows上习惯了QQ的Ctrl 43 Alt 43 A截图 xff0c 在linux也想拥有这样愉快截图的体验 xff0c flameshot无疑是一个比较好的选择 flameshot的功能 xff1a 绘画直线箭头矩形框实心矩
Linux下Zsh安装并配置

Oh My Zsh 是基于 zsh 命令行的一个扩展工具集 xff0c 提供了丰富的扩展功能本文使用的乌班图系统版本为16 04 一下载安装zsh 1 首先点击这里下载最新的zsh源码然后将源码包复制到 usr local目录下 xf
vnc viewe连接，同时ubuntu系统显示灰屏解决方案，不显示命令行和菜单栏解决方法

span class token number 1 span 在Ubuntu上首先需要安装vnc4server span class token macro property apt get install vnc4server span
ROS的可视化工具 rviz 的安装与运行

1 安装rviz sudo apt get install ros kinetic rviz 然后环境检测安装 rosdep install rviz rosmake rviz 2 运行rviz 打开一个linux终端 xff0c 输入
STM32生成互补PWM波（输出前均为低电平）

STM32的定时器功能很多 xff0c 今天介绍一下生成互补PWM波形 STM32高级定时器1和8的时钟是168MHZ 通用定时器通常是84MHZ 频率通用设置定时器时钟频率设置的通用写法一般我们都是设置两个参数 xff0c 分频系数和
解决ubuntu上的samba共享无法被windows访问问题

年后回来发现自己ubuntu服务器的samba共享访问不了了先来看看samba的log记录的啥 root cat var log samba log smbd 2022 02 14 09 19 46 514611 0 lib util f
Android仿微信未读消息数提示数字之BadgeView的使用

没事在整理以前上班收藏的一些笔记 xff0c 发现其中的关键字部分有个 BadgeView 不知道是什么东东 xff0c 于是乎搜了下 xff0c 发现也是一个项目中很常用的功能比如 xff1a 这样的 xff0c 很常见这是官方的de
cocos creator 游戏背景音乐处理（音乐循环淡入淡出等）

在处理游戏背景音乐中遇到的问题 xff0c 策划对于音乐播放提出新的想法但由于目前周围没有人尝试过 xff0c 所以自己摸索的来需求在同一场景音乐处理一般同一场景是同一首背景音乐现需求在同一场景 xff08 时代 xff09 内播
Linux 进程状态D Disk Sleep

Linux进程状态 xff1a S TASK INTERRUPTIBLE xff0c 可中断的睡眠状态处于这个状态的进程因为等待某某事件的发生 xff08 比如等待socket连接等待信号量 xff09 xff0c 而被挂起这些进程的
两个超实用的 Kubernetes 集群中 Flannel 故障排除案例

自建的 K8s 集群的坑不少尤其是到了 Node 数量越来越多之后问题也逐渐显露了出来博客主要介绍我们使用flannel之后遇到的两个问题以及解决方案问题其实不严重只是涉及到了底层的结构改动时候要小心问题 1 flannel
解决zsh: command not found问题

zsh command not found 看字面意思就是找不到这个方法 xff0c 缺少环境变量配置 1 打开zsh配置文件 open zshrc 2 添加缺少的文件路径 PATH 61 34 Users mengmeng Downloa
Python两大爬虫库

文章目录 Python两大爬虫库urllib库urllib库使用urllib request实验案例 xff1a 模拟头部信息 requests库实验案例 get请求实验案例抓取网页实验案例响应在使用Python爬虫时 xff0c 需

Python两大爬虫库

文章目录

Python两大爬虫库

urllib库

urllib库使用

urllib.request

实验案例：

模拟头部信息

requests库

实验案例–get请求

实验案例–抓取网页

实验案例–响应

Python两大爬虫库 的相关文章

随机推荐

热门标签

Python两大爬虫库的相关文章