1.爬取原界面
今天给大家介绍第一个爬虫小例子,使用requests库爬取淘宝商品信息,首先想要爬取的内容如下图。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201026231024464.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDU3ODE3Mg==,size_16,color_FFFFFF,t_70#pic_center)
2.代码解析
使用交互环境给大家带来代码解析
(1)首相导入requests库,然后将网页url地址保存到变量中
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201026232450308.png#pic_center)
(2)使用requests库的get()方法得到地址,并用r.raise_for_status函数判断是否连接正常,正常则返回200,其他值则为错误
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201026232610928.png#pic_center)
(3)将从网页内容中解析出的编码方式赋值给r.encoding,之后以字符串的方式将爬取内容输出
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201026232844137.png#pic_center)
(4)输出内容如下
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020102623295983.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDU3ODE3Mg==,size_16,color_FFFFFF,t_70#pic_center)
3.完整代码
import requests
url = "https://item.taobao.com/item.htm?id=625588903252&ali_refid=a3_430673_1006:1123185872:N:5Li%2BA5zGU7Aqz5docyZENQ%3D%3D:6620fa14ff820a1fe33c8d19bbbd1752&ali_trackid=1_6620fa14ff820a1fe33c8d19bbbd1752&spm=a2e15.8261149.07626516002.2"
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text)
except:
print("爬取失败")
所有编程实践中,代码最终的效果固然很重要,但更重要的还是代码的稳定性,所以使用try except代码块捕获异常
本篇完,如有错误欢迎指出~
引用源自
中国大学MOOC Python网络爬虫与信息提取
https://www.icourse163.org/course/BIT-1001870001
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)