通过关键词模拟百度搜索并爬取前30页的URL

2023-11-09

想快速获取到百度搜索结果原始URL,一次一次输入搜索太慢了,所以就写了一个小爬虫,效率提升10000倍,平均耗时一个关键词爬取百度搜索结果前30页的链接耗时4秒内。

1、你要准备一些搜索词,我的环境下我的搜索词是放在:key_file_path = "/Users/mac/Desktop/data/cloudbility/四周爬虫/百度/搜索词"

所以你要修改代码中的这段代码为您的搜索词文件的路径。

2、你要安装MongoDB,因为这些数据会保存在数据库中,或者你也可以更换别的数据库进行存储,比如Mysql。

代码示例:

# -*- coding:utf-8 -*-
'''
读关键词文件,然后百度搜索到关键词前30页的url爬取并保存至MOngoDB
'''
import multiprocessing  # 利用pool进程池实现多进程并行
import time
from bs4 import BeautifulSoup  # 处理抓到的页面
import json
import requests
import warnings

# 搜索词路径
key_file_path = "/Users/mac/Desktop/data/cloudbility/四周爬虫/百度/搜索词"

# 忽略警告
warnings.filterwarnings('ignore')

import urllib
from pymongo import MongoClient

# 连接MongoDB
conn = MongoClient('localhost', 27017, connect=False)
baidu_url = conn.baidu_ur
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

通过关键词模拟百度搜索并爬取前30页的URL 的相关文章

随机推荐

  • 用手机版python爬虫_Python爬虫也能用手机进行抓包?没错!这个技巧我只告诉你...

    今天要说说怎么在我们的手机抓包 我们知道了 HTTP 的请求方式 以及在 Chrome 中摸清了一些套路 但是 除了对数据进行解析之外 有时候我们想 对请求的数据或者响应的数据进行篡改 怎么做呢 我们经常在用的手机 手机里面的数据 怎么对它
  • Memcached 学习笔记(三)——多节点测试

    Memcached 学习笔记 三 多节点测试 一 启动两个 或者多个 节点 memcached d p 11212 u nobody c 1024 m 64 memcached d p 11213 u nobody c 1024 m 64
  • 跳跃列表(skipList)、压缩列表(zipList)和快速列表(quicklist)

    跳跃列表 skipList 压缩列表 zipList 和快速列表 quicklist 都是Redis底层重要的数据结构 跳跃列表 skipList Redis使用跳跃表作为有序集合键的底层实现之一 通过在每个节点中维持多个指向其他节点的指针
  • python信号端点检测_python的webrtc库实现语音端点检测

    引言 语音端点检测最早应用于电话传输和检测系统当中 用于通信信道的时间分配 提高传输线路的利用效率 端点检测属于语音处理系统的前端操作 在语音检测领域意义重大 但是目前的语音端点检测 尤其是检测 人声 开始和结束的端点始终是属于技术难点 各
  • 网站被DDOS攻击怎么办?防护经验!

    为了能够及时发现ddos攻击 下面我们就详细介绍一下网站受ddos攻击的症状 网站遇到ddos攻击的表现之一 服务器CPU被大量占用 ddos攻击其实是一种恶意性的资源占用攻击 攻击者利用肉鸡或者攻击软件对目标服务器发送大量的无效请求 导致
  • AngularJS的使用总结

    1 AngularJS是一个前端JavaScript框架 它可通过
  • 无法使用域名访问服务器,但IP访问正常

    具体判断方法和解决办法 问题判断 在电脑的windows系统左下角点击 开始 运行 输入 cmd 确定 然后在弹出的命令提示符界面输入命令 nslookup 空格 域名 若命令结果中域名指向的ip和服务器实际公网ip一致 那么问题产生的原因
  • C语言 cortex-A7核 点LED灯 (附 汇编实现、使用C语言 循环实现、使用C语言 封装函数实现【重要、常用】)

    1 汇编实现 text global start start LED1点灯 gt PE10 RCC章节初始化 CC INIT 1 使能GPIOE组控制器 通过RCC MP AHB4ENSETR寄存器设置GPIOE组使能0x50000A28
  • C++11多线程之条件变量

    文章目录 一 关于多线程的同步 二 初始条件变量 三 关于条件变量的例题 四 生产者消费者模型 一 关于多线程的同步 函数被调用 分配相应的栈帧 进行现场保护 void func char c char filename 20 sprint
  • elementUI table组件渲染问题

    elementUI table组件渲染问题 1 问题 问题描述 页面内 使用选项卡 进行内容显示的切换 切换后 原本高度合适的表格出现白边 以及滚动条 检查Dom会发现 el table组件内 发现了一个类名为 is scrolling n
  • 分布式文件存储Minio学习入门

    文章目录 一 分布式文件系统应用场景 1 Minio介绍 Minio优点 2 MinIO的基础概念 3 纠删码ES Erasure Code 4 存储形式 5 存储方案 二 Docker部署单机Minio 三 minio纠删码模式部署 四
  • html空格符号代码及特殊符号

    一 html空格符号代码 nbsp 一个字符的半角的不断行的空格 如果需要在网页中插入多个空格 可以将 nbsp 代码写多遍 ensp 一个字符的半角的空格 也可以将 写多遍来插入多个空格 emsp 两个字符的全角的空格 也可以将 emsp
  • Flask框架入门教程(非常详细)从零基础入门到精通,看完这一篇就够了

    Flask框架 一 简介 Flask是一个非常小的PythonWeb框架 被称为微型框架 只提供了一个稳健的核心 其他功能全部是通过扩展实现的 意思就是我们可以根据项目的需要量身定制 也意味着我们需要学习各种扩展库的使用 二 概要 1 安装
  • 【学习笔记】python实现excel数据处理

    概述 Excel固然功能强大 也有许多函数实现数据处理功能 但是Excel仍需大量人工操作 虽然能嵌入VB脚本宏 但也容易染上宏病毒 python作为解释性语言 在数据处理方面拥有强大的函数库以及第三方库 excel作为主要基础数据源之一
  • MySQL中的事务(隔离性详解)

    1 什么是事务 事务是指逻辑上的一组操作 组成这组操作的各个单元 要么全部成功 要么全部失败 通俗的说一组SQL语句 要么全部执行成功 一条语句出错则全部出粗 在不同的环境中 都可以有事务 对应在数据库中 就是数据库事务 2 为什么使用事务
  • RobotFramework学习系列--(一)

    测试工作需要用到了RobotFramework 之前只是使用 用了一段时间后 决定深入研究一下它 使用平台为Windows Linux 由于是基于Linux 系统方面的测试工作 使用的RobotFramework版本为2 8 5 先简单介绍
  • 强力推荐:Atom入坑必备插件

    You are my warm gloves my cloud beer my sun kissed shirt my day after day dreams 你是我温暖的手套 冰冷的啤酒 带着阳光味道的衬衫 日复一日的梦想 强力推荐 A
  • vue 快速入门--快速使用vue2

    关于mvvm的理解 说到mvvm 就要提到vue的优点了 vue有什么优点呢 更改变量很容易 具有即时性 这是我们广泛所知道的 vue的优点 在原来只有jquery的时候 我们改变一个元素的值的时候 我们需要深入到原代码里 重新绑定元素啦
  • C51数码管显示

    一 数码管简介 LED数码管 数码管是一种简单 廉价的显示器 是由多个发光二极管封装在一起组成 8 字 型的器件 管按段数可分为七段数码管和八段数码管 八段数码管比七段数码管多一个发光二极 管单元 也就是多一个小数点 DP 这个小数点可以更
  • 通过关键词模拟百度搜索并爬取前30页的URL

    想快速获取到百度搜索结果原始URL 一次一次输入搜索太慢了 所以就写了一个小爬虫 效率提升10000倍 平均耗时一个关键词爬取百度搜索结果前30页的链接耗时4秒内 1 你要准备一些搜索词 我的环境下我的搜索词是放在 key file pat