目录
1、什么是网络爬虫?
2、准备工作
1、什么是网络爬虫?
百度百科所给注释如下:
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
2、网络爬虫能做什么?
本质功能是定向抓取相关网页资源,也可以根据具体的功能分为通用,聚焦,增量式,Deep wep爬虫。
3、准备工作 :
1、获取所要爬取的网站的地址和所需要爬取内容的源代码
2、利用python所给的一些第三方和自带的库来简化程序:
from bs4 import BeautifulSoup # 网页解析
import re # 正则表达式,进行文字匹配
import urllib.request # 制定url,获取网页数据
import xlwt # 进行excel操作
import sqlite3 # 进行sqlite数据库操作
注:查看网页的源代码或相关内容,可以按F12