想快速获取到百度搜索结果原始URL,一次一次输入搜索太慢了,所以就写了一个小爬虫,效率提升10000倍,平均耗时一个关键词爬取百度搜索结果前30页的链接耗时4秒内。
1、你要准备一些搜索词,我的环境下我的搜索词是放在:key_file_path = "/Users/mac/Desktop/data/cloudbility/四周爬虫/百度/搜索词"
所以你要修改代码中的这段代码为您的搜索词文件的路径。
2、你要安装MongoDB,因为这些数据会保存在数据库中,或者你也可以更换别的数据库进行存储,比如Mysql。
代码示例:
# -*- coding:utf-8 -*-
'''
读关键词文件,然后百度搜索到关键词前30页的url爬取并保存至MOngoDB
'''
import multiprocessing # 利用pool进程池实现多进程并行
import time
from bs4 import BeautifulSoup # 处理抓到的页面
import json
import requests
import warnings
# 搜索词路径
key_file_path = "/Users/mac/Desktop/data/cloudbility/四周爬虫/百度/搜索词"
# 忽略警告
warnings.filterwarnings('ignore')
import urllib
from pymongo import MongoClient
# 连接MongoDB
conn = MongoClient('localhost', 27017, connect=False)
baidu_url = conn.baidu_ur