python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb

2023-11-05

爬取的内容为百度招聘页面下的python 杭州地区

所要爬取的内容

这里写图片描述

一共爬取的是6个字段
1 招聘岗位 2 招聘城市 3 招聘公司 4 招聘薪资 5 招聘日期 6 招聘来源网站

用的是selenium + beautifulsoup + mongodb + re 模块进行爬取的内容

总体上难度不是很大，内容清除也不是很完整，记不住的或者没有记牢固的一边百度，一边加深印象。总体来说还是爬取出来了了

问题总结: 不知道是不是多进程结合selenium 爬取是不是不行，然后试着用了，我也不知道里面的原理是怎么回事，这次是自己初次入门，能力还是不足，mongodb使用的时候也不知道为什么开启了服务，但是插入数据老是插不进去，可能是被锁住了，但是删除锁之后还是会出现问题，也不知道后来问题是怎么解决的，也就那样好的吧。

在使用selenium 跳转到下一页的时候，根据get_element_byxpath(xxx) 里面的id 会根据页面的变化而变化的。如下图，可以自己亲测一下

这里写图片描述

总的值有1,2，3 昨晚弄的也是有点急什么的，不过最后爬取出来

看下爬取成果，总共586条，确实对应上了第一张图片上的586，
没有重复度。
这里写图片描述

最后贴上源代码：

# encoding=utf8
import re
import time

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains

from bs4 import BeautifulSoup

import pymongo

# 多进程
from multiprocessing import Pool

# 1 打开数据库连接，mongodb默认端口为27017
conn = pymongo.MongoClient(host='localhost',port=27017)
# 2 选择或创建数据库
jobdata = conn['baidujobs']
# 3 选择或创建数据集合
ver_job = jobdata['verjob']

baidu_baseurl = 'http://zhaopin.baidu.com/quanzhi?tid=4139&ie=utf8&oe=utf8&query=python%E6%9D%AD%E5%B7%9E&city_sug=%E6%9D%AD%E5%B7%9E'
def set_winscroll(driver):
    time.sleep(2)
    driver.execute_script('window.scrollBy(0,2000)')
    time.sleep(3)
    driver.execute_script('window.scrollBy(0,3000)')
    time.sleep(3)


# 1 初始化driver
driver = webdriver.PhantomJS()
# 2 调用get方法
driver.get(baidu_baseurl)
# 3 进入网页
set_winscroll(driver)

# 4 获取资源（第一页的数据）
we_data = driver.page_source
# print('first_we_data ' + we_data)


def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    item_url = soup.findAll('a', {'class': 'clearfix item line-bottom'})
    # for item in zip(item_url):
    #     print(item.get('href'))

    # 职位信息
    jobs = soup.findAll('div', {'class': 'title-h3 line-clamp1'})
    # for job in jobs:
    # print(job.string) # 职位信息
    # 地址 + 公司名
    compy = soup.findAll('p', {'class': 'area line-clamp1'})
    # for com in compy:
    #     print(com.string)

    # 薪资
    salarys = soup.findAll('p', {'class': 'salary'})
    # for salary in salarys:
    #     print(salary.string)
    # 发布时间跟发布来源网站
    addresss = soup.findAll('div', {'class': 'right time'})
    # print(addresss)
    reg = r'<p>(.*?)</p>'
    regx = re.compile(reg)
    ads = re.findall(regx, str(addresss))
    # print(ads)
    # for adds in ads:
    #     data = adds.split('|')
    #     print(data)
    for itm_url, job_detail, ver_compny, ver_salary, ver_addres in zip(item_url, jobs, compy, salarys, ads):
        data = {
            'itme_url': 'http://zhaopin.baidu.com'+itm_url.get('href'),
            'job_detail': job_detail.string,
            'ver_compny': str(ver_compny.string),
            'ver_salary': ver_salary.string,
            'ver_addres': str(ver_addres).split('|'),
        }
        print(data)
        # 插入数据库
        ver_job.insert_one(data) # 插入数据库失败
        f.write(str(data))


def get_page_source(page_num):
    time.sleep(2)
    driver.find_element_by_xpath('//*[@id="pagination"]/p/span/a[%s]' % page_num).click()
    # //*[@id="pagination"]/p/span/a[1]  为在第一页的按钮
    # //*[@id="pagination"]/p/span/a[2]  为第二页的按钮
    set_winscroll(driver)
    we_data = driver.page_source
    return we_data

f = open('百度招聘前30页杭州.txt', 'a',encoding='utf-8')
# 首页的数据
def getBaiduHangZhouJob(we_data):
    parse_html(we_data)
    for i in range(1, 50):
        if i==1:
            we_data = get_page_source(1)
            parse_html(we_data)
        elif i<=5:
            we_data = get_page_source(str(2))
            parse_html(we_data)
        else:
            we_data = get_page_source(str(3))
            parse_html(we_data)
    f.close()


if __name__ == '__main__':
    getBaiduHangZhouJob(we_data)
    # pool = Pool(processes=10)
    # pool.map_async(getBaiduHangZhouJob(we_data))
    # pool.close()
    # f.close()

这里也使用了存入道txt文件中的方法，两个方法都有用到。

这次是第二次自己单独做练习selenium + mongodb

对于分布式爬虫scraper框架，需要进行开始的学习了，一开始对mongodb ， selenium 也是有抵触，惧怕心理，不过下来之后却也是差不多的感觉，这次是入门了吧。慢慢的了解，熟悉，练习，回头过来你会发现也就是那么回事，加油

下次， scraper分布式爬虫的练习，对于python开发岗位，自己也要学会Django的学习开发，路子还有很长，需要自己静下心来摸索。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3爬虫

我的python3爬虫之路

MongoDB

python

爬虫

python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb 的相关文章

下载 PyQt6 的 Qt Designer 并使用 pyuic6 将 .ui 文件转换为 .py 文件

如何下载 PyQt6 的 QtDesigner 如果没有适用于 PyQt6 的 QtDesigner 我也可以使用 PyQt5 的 QtDesigner 但是如何将此 ui 文件转换为使用 PyQt6 库而不是 PyQt5 的 py 文件
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f

随机推荐

【100%通过率】【华为OD机试真题】模拟商场优惠打折(一)【2022 Q4

华为OD机试题目列表 2023Q1 点这里 2023华为OD机试刷题指南点这里题目描述模拟商场优惠打折有三种优惠券可以用满减券打折券和无门槛券满减券满100减10 满200减20 满300减30 满400减40 以此类推
辛普森悖论

本系列主要为大家带来一整套的博弈论问题广义因为在面试的过程中除了常规的算法题目我们经常也会被问到一些趣味题型来考察思维而这类问题中很多都有博弈论的影子存在这些公司里以FLAG Facebook LinkedIn Amazon
webpack5.x性能优化之代码分包配置文件分离多入口 SplitChunks cacheGroups runtimeChunk dynamic import(动态导入) 懒加载魔法注释

webpack优化文章目录 webpack优化代码分离认识代码分离多入口起点 Entry Dependencies 入口依赖 SplitChunks chunks 其他的splitChunks属性很少手动配置 minSize和ma
java多线程---C++没有内置的多线程机制，因此必须调用操作系统的多线程功能来进行多线程程序的设计。

多线程 Java 的特点之一就是内置对多线程的支持多线程允许同时完成多个任务实际上多线程使人产生多个任务在同时执行的错觉因为目前的计算机的处理器在同一时刻只能执行一个线程但处理器可以在不同的线程之间快速地切换由于处理器速度非常快
uni-app 和 spring boot 实现通知栏消息推送 (第二版)

背景上次第一版打包上线后无法使用推送失效第一版使用的是 websocket h5puls 原因估计是云打包后对这个做了一些编译处理导致失效解决方案用官网的教程走个推服务器取消后端自己的websocket实现虽然麻烦但是
深度学习入门（四）：经典网络架构（Alexnet、Vgg、Resnet）

一经典网络架构 Alexnet 2012年ImageNet竞赛冠军 8层神经网络 5层卷积层 3层全连接二经典网络架构 Vgg 2014 年ImageNet 竞赛冠军 VGG 最大的特点就是它在之前的网络模型上通过比较彻底地采用 3
Excutor线程池原理详解

目录一线程池的创建以及参数二任务提交的方法三线程池参数解释四线程池原理五线程池原理图六 execute方法执行流程图一线程池的创建以及参数 public ThreadPoolExecutor int corePoo
vue3.0版本给对象新增属性

对象新增属性 Reflect set 目标对象属性名值 Reflect set val middle middle
Spring Cloud Alibaba 2021.0.1.0 版本发布啦

01 什么是 Spring Cloud Alibaba Aliware Spring Cloud Alibaba 是由阿里巴巴后文简称阿里中间件团队于 2018 年 7 月开源为业界提供的一套基于阿里内部分布式技术的一站式微服务构建
JavaWeb学习-Servlet处理解析JSON文件导出Excel实例

文章目录前言一实例要求二主要问题点 1 保存请求中的文件 2 JSON的简单处理 3 Servlet共享数据实现勾选信息导出为excel 三源码总结前言这里是javaweb小白第一次尝试写博客主要是想记录一下自己在学习
vue 简单实现vuex原理

效果图如下 1 准备好环境使用 vue cil 初始化项目配置 npm install g vue cli 全局安装 vue cli vue create demo vue 创建项目 yarn add vuex安装vuex创建一个stor
什么是区块链？区块链相关知识区入门

初识区块链 1 区块链家族一去中心化父亲基本概念中心化和去中心化就是集权与分权去中心化是一种哲学中思想在人类存在时即有主旨为弱化中心实现人与人之间的直接沟通交易的一种方式去中心化不是不要中心而是由节点来自由选择中
使用gdb调试出现 No debugging symbols found in a.out

使用常规的gcc编译或者使用带调式信息 g的编译都有可能会在使用gdb工具的时候出现No debugging symbols found in a out错误 1 常规编译使用常规编译生成的可执行文件正常一定会出现No debugging
服务器强制关机后，无法开机

服务器强制关机后开不了机开机后显示 dev sda1 recovering journal dev sda1 clean 3905813 58720032 files 193134708 234422272 blocks 经询问是由强
2014软专高级程序语言T4（三角形面积）

平面有100个点任意三个点可以构成一个三角形编一个程序输入100个点的坐标输出在构成的所有三角形中最大的三角形的面积代码如下 include
数据处理中的归一化与反归一化

一定义数据归一化标准化是数据预处理的一项基础工作不同评价指标往往具有不同的量纲和量纲单位为避免影响数据分析结果消除指标之间的量纲影响须对数据进行标准化处理数据的归一化 normalization 是将数据按比例缩放使之落
redis必杀命令：键（key）

语法 Redis 键命令的基本语法如下 redis 127 0 0 1 6379 gt COMMAND KEY NAME 例如 redis 127 0 0 1 6379 gt SET w3ckey redis OK redis 127 0
使用UltraISO或Rufus制作U盘启动安装优麒麟19.04

本文教你在Windows操作系统中使用UltraISO 软碟通或Rufus制作U盘启动盘的方法以优麒麟Ubuntu Kylin 19 04为例适用于大多数Linux发行版包括Ubuntu 18 04等 UltraISO和Rufus任
[网络安全自学篇] 三十八.hack the box渗透之BurpSuite和Hydra密码爆破及Python加密Post请求（二）

这是作者的系列网络安全自学教程主要是关于安全工具和实践操作的在线笔记特分享出来与博友们学习希望您们喜欢一起进步前文详细讲解了hack the box在线渗透平台获取邀请码注册过程本文将分享Web渗透三道入门题目它们包括Pyt
python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb

爬取的内容为百度招聘页面下的python 杭州地区所要爬取的内容一共爬取的是6个字段 1 招聘岗位 2 招聘城市 3 招聘公司 4 招聘薪资 5 招聘日期 6 招聘来源网站用的是selenium beautifulsoup mongo

python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb

爬取的内容为百度招聘页面下的python 杭州地区

最后贴上源代码：

python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb 的相关文章

随机推荐

热门标签