基础爬虫记~豆瓣+东方财富网爬虫

2023-10-31

基础小白，大佬轻点喷~

一、基础豆瓣爬虫

1、首先在某站上听讲解，简单建立起了对爬虫的基础框架，具体包括五个板块（当然有些东西看个人可写成函数也可以直接写但重复用到的东西建议写函数）

用到了下面五个库：

from bs4 import BeautifulSoup      ##网页解析，获取数据
import re       ##正则表达式，进行文字匹配
import urllib.request,urllib.error      ##制定URL，获取网页数据
import xlwt     ##进行excel操作
import sqlite3  ##进行SQLite数据库操作

然后在主函数写爬取网页的步骤（在脑海有个框架）

def main():
    baseurl = "https://movie.douban.com/top250?start="
    # 1.爬取网页
    datalist = getData(baseurl)
    savepath = "豆瓣电影Top250.xls"  ##./和不写就是当前文件夹 .\\就是文件系统
    dbpath = "movie.db"
    # 3.保存数据
    saveData(datalist,savepath)
    # savaData2DB(datalist,dbpath)

    #askURL("https://movie.douban.com/top250?start=")

保存路径有两个方式，一个是保存到Excel，另一个是保存到MySql（数据量小可选择前者量大则选择后者）

2、然后写爬取网页的函数，注意观察豆瓣页面，一共10页，每页25个电影。https://movie.douban.com/top250?start=（具体数字） 0就是第一页 ,以此类推

故可用循环写入列表中

def getData(baseurl):
    datalist = []
    for i in range(0,10):    ##调用获取页面信息的函数 10次
        url = baseurl +str(i*25)
        html = askURL(url)  ##保存获取到的网页源码

通过BeautifulSoup 解析网页，获取数据

soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):  ##查找符合要求的字符串,行程列表
            #print(item)  ##测试查看电影item 全部信息
            data = []   ##保存一部电影的所有信息
            item = str(item)

3、模拟浏览器头部信息，向豆瓣服务器发送消息，用户代理表示告诉豆瓣服务器，我们是什么类型的机器浏览器（本质上是告诉浏览器，我们可以接受什么水平的文件内容）可以去主函数测试一下askURL,看是否成功模拟浏览器

def askURL(url):
    head = {  "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 94.0.4606.61Safari / 537.36Edg / 94.0.992.31"}
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)  ##看错误信息
        if hasattr(e,"reason"):
            print(e.reason)   ##看错误信息产生的原因
    return html

可以去主函数测试一下askURL,看是否成功模拟浏览器

4、保存数据

1）保存到Excel

def saveData(datalist,savepath):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)  ##创建workbook对象
    sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)  #cell_overwrite_ok=True每一个单元往里面输入的时候直接覆盖掉里面的内容
    col=('电影详情链接','图片链接','影片中文名','影片外国名','评分','评价数','概况','相关信息')
    for i in range(0,8):
        sheet.write(0,i,col[i])  ##列名
    for i in range(0,250):
        #print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])  #数据
    book.save(savepath)  #保存

2）保存到MySql

# def init_db(dbpath):
#     ##autoincrement 是一个关键字，用于表中的字段值自动递增
#     ##text表示文本格式  后面加的就是跟的格式
#     sql = '''
#         create table movie250
#         (
#         id integer primary key autoincrement ,
#         info_link text,
#         pic_link text,
#         cname varchar,
#         ename varchar,
#         score numeric,
#         rated numeric,
#         instroduction text,
#         info text
#         )
#
#
#     ''' #创建数据库
#     conn = sqlite3.connect(dbpath)
#     cursor = conn.cursor()
#     cursor.execute(sql)
#     conn.commit()
#     conn.close()

# def savaData2DB(datalist,dbpath):
#     init_db(dbpath)
#     conn = sqlite3.connect(dbpath)
#     cur = conn.cursor()
#
#     for data in datalist:
#         for index in range(len(data)):
#             if index == 4 or index == 5:
#                 continue
#             data[index] = '"'+data[index]+'"'
#         sql = '''
#                 insert into movie250(
#                 info_link,pic_link,cname,ename,score,rated,instroduction,info)
#                 values(%s)'''%",".join(data)
#         print(sql)
#         cur.execute(sql)
#         conn.commit()
#     cur.close()
#     conn.close()

5、当然最后也别忘记调用主函数

if __name__ =="__main__":  ##当程序执行时
##调用函数
    main()
    #init_db("movietest.db")  ##测试movietest.db是否生成
    print("爬虫完毕！")

6、以上完整操作知识获取到了这个页面，但是并没有说明我想找到什么，所以我们还需要去主函数添加你想得到的东西，运用re库中的compile(findall也是可以的)

##影片详情链接的规则
findlink = re.compile(r'<a href="(.*?)">')  ##re.compile()创建正则表达式对象，表示规则（字符串的模式）
##影片图片的链接
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)  ##re.S让换行符包含在字符中
##影片的片名
findTitle= re.compile(r'<span class="title">(.*)</span>')
##影片的评分
findRating= re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#找到评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

7、getData中也需要在for循环下去逐一解析数据，最后全部添加到一个列表中

 # 2.逐一解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):  ##查找符合要求的字符串,行程列表
            #print(item)  ##测试查看电影item 全部信息
            data = []   ##保存一部电影的所有信息
            item = str(item)

            ##影片详情的链接
            link = re.findall(findlink,item)[0]  ##re库用来通过正则表达式查找指定的字符串
            data.append(link)   ##添加链接

            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc)  ##添加图片

            titles = re.findall(findTitle,item)   ##片名可能只有一个中文名，没有外国名
            if len(titles) == 2:
                ctitle = titles[0]     ##添加中文名
                data.append(ctitle)
                otitle = titles[1].replace("/","")  ##去掉无关的符号
                data.append(otitle)    ##添加外国名
            else:
                data.append(titles[0])
                data.append(' ')  ##给没有外国名的影片留空，保持对应

            rating = re.findall(findRating,item)[0]
            data.append(rating)    ##添加评分

            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum)  ##添加评价人数

            inq = re.findall(findInq,item)
            if len(inq) != 0:
                inq = inq[0].replace("。","")   #去掉句号
                data.append(inq)               ##添加概述
            else:
                data.append(" ")   ##留空

            bd = re.findall(findBd,item)[0]  #找到影片的相关内容
            bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)   #去掉<br/>
            bd = re.sub('/'," ",bd)  #替换/
            data.append(bd.strip())  ##去掉前后空格

            datalist.append(data)  ##把处理好的一部电影信息放入datalist
    #print(datalist)  ##打印全部代码的信息
    return datalist

二、东方财富网爬取名称与数据

爬取名称，相当于就是在页面表面的东西，直接可以通过re库中的compile找到要爬取的名称

findTitle = re.compile(r'<a href="(.*?)">(.*?)</a>')

其他都可参照一中的豆瓣爬虫写，比一更简单

下图呈现构造模拟浏览器参数

爬取数据比爬取名称复杂一点，最重要的是找到如下展示的这些元素：

params = {
        'cb': 'jQuery112302973922664351607_1634440511064',
        'lmt': '0',
        'klt': '101',
        'fields1': 'f1,f2,f3,f7',
        'fields2': 'f51,f52,f53,f54,f55,f56,f57,f58,f59,f60,f61,f62,f63,f64,f65',
        'ut': 'b2884a393a59ad64002292a3e90d46a5',
        'secid': '0.000005',
        '_': '1634440511065'
        }

具体情况需要具体分析，可以去网页页面右击检查里的网络里去找，有很多get?cb=……，要具体去看需要的是什么，再爬。

爬下来后注意看数据的形式，很多数据都是不规整的，需要通过strip(),join()或者split()去调节成可以用的数据，对于东方财富网这种数据量大的，建议直接保存到啊MySql。下图为展示

最后一些小技巧帮友友们避个雷

1、在cmd输入ipconfig/flushdns，重置IP，适用于被禁IP的友友~

2、正则表达式中的(.*)和(.*?)，前者适用于查找全部数据放在一个框下架的，取全部，若用后者取，只能取到全部中的一个参数；后者适用于固定格式但不是直接相连的数据。（具体情况具体分析哦~）

3、用navicat可下载一个phpstdudy,启动一三即可，连接数据库即可用~

4、数据库若报错pymysql.err.InterfaceError: (0, '')，只需要加上一行conn.ping(reconnect=True)，重新连接到数据库即可~

若有错误的地方，尽请大佬指教~ ...>.<...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

基础爬虫记~豆瓣+东方财富网爬虫的相关文章

“扩展”numpy ndarray 的好方法？

有没有扩展 numpy ndarray 的好方法假设我有一个像这样的 ndarray 1 2 3 4 我希望每行通过填充零来包含更多元素 1 2 0 0 0 3 4 0 0 0 我知道一定有一些蛮力的方法可以做到这一点比如构造一个带有
Ubuntu Python shebang 线不工作

无法让 shebang 线在 Ubuntu 中为 python 脚本工作我每次只收到命令未找到错误 test py usr bin env python print Ran which python usr bin python 在 sh
插入多行并返回主键时 Sqlalchemy 的奇怪行为

插入多行并返回主键时我注意到一些奇怪的事情如果我在 isert 查询中添加使用参数值我会得到预期的行为但是当将值传递给游标时不会返回任何内容这可能是一个错误还是我误解了什么我的sqlachemy版本是0 9 4 下面如何重现错
创建一个行为类似于任何变量但具有更改/读取回调的类

我想创建一个类其行为类似于 python 变量但在更改读取变量时调用一些回调函数换句话说我希望能够按如下方式使用该类 x myClass change callback read callback 将 x 定义为 myclas
计算 for 循环期间的运行总计 - Python

编辑下面是我根据收到的反馈答案编写的工作代码这个问题源于我之前使用 MIT 的开放课件学习 Python CS 时提出的问题在这里查看我之前的问题 https stackoverflow com questions 4990159
Django REST Framework：无法使用视图名称解析超链接关系的 URL

我已经广泛研究了这个相当常见的问题但没有一个修复对我有用我正在 REST 框架中构建 Django 项目并希望使用超链接关系用户可以拥有许多独立的汽车和路线路线是位置的集合这些是我的序列化器 class CarSerialize
生产环境的 Flask-Login 与 Flask-Security

我正在构建一个功能供用户注册登录验证和授权自己特别是使用 Python Flask 作为后端我找到了一些解决方案例如flask login and flask security 据我了解 flask login实际上并没有进行任
自定义信号的声明

在 Qt 中我们可以通过将自定义信号设为静态变量来创建它们然后我们使用self signame反而classname signame 这样就在类中创建了一个实例变量我想了解这种模式之外的理论这是我尝试过的一些伪代码这些伪代码已记录
在 PyCharm 中运行命令行命令

你好我正在使用Python 但之前从未真正使用过它我收到一些命令需要在终端中运行基本上 python Test py GET feeds 我正在使用 PyCharm 我想知道是否有办法从该 IDE 中运行这些相同的命令按 Alt
使用 Twisted Python 的 UDP 客户端和服务器

我想创建一个服务器和客户端使用 Twisted 从网络发送和接收 UDP 数据包我已经用 Python 中的套接字编写了此代码但想利用 Twisted 的回调和线程功能然而我需要 Twisted 设计方面的帮助我想接收多种类型的
PyCharm 输出错误消息散布在控制台输出中。如何解决这个问题？

我正在运行 PyCharm 社区版 4 0 4 有谁知道为什么控制台输出后不显示错误消息 Thanks C Python27 python exe F Google Drive code python scripts leetcode lc
Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
如何使用子进程打开新的浏览器选项卡？

我正在打开一个新的 IE 窗口 subprocess Popen r os environ PROGRAMFILES Internet Explorer IEXPLORE EXE Call URL 当 IE 关闭时这很好但即使打开它也会生
Mac 上的 Errno 13 权限被拒绝

我只是测试如何从一个 py 文件调用外部 py 文件我有 2 个 py 文件都在同一目录中这是主要代码 runext py 假设调用 ext py import subprocess subprocess call Users tra
pip-tools 的干净设置不会编译非常基本的 pyproject.toml

使用全新的pip tools设置总是会导致Backend subprocess exited error pyproject toml project dependencies openpyxl gt 3 0 9 lt 4 在仅包含上述 p
Celery 设计帮助：如何防止并发执行任务

我对 Celery AMQP 相当陌生正在尝试提出一个任务队列工作人员设计来满足以下要求我有多种类型的每用户任务例如 TaskA TaskB TaskC 这些每用户任务中的每一个都为系统中的一个特定用户读取写入数据因此
检测计算机何时解锁 Windows

我用过这个优秀的方法 https stackoverflow com questions 20733441 lock windows workstation using python 20733443锁定 Windows 计算机那部分工作
Django：在单独的线程中使用相同的测试数据库

我正在使用具有以下数据库设置的测试数据库运行 pytests DATABASES default ENGINE django db backends postgresql psycopg2 NAME postgres USER someth
磁盘寻道时间测量方法

我编写了一个脚本来测量 HDD 上的寻道时间并且其完成方式的微小变化会导致显着不同的时间第一个周期在磁盘开头的区域内进行跳转第二个周期选择磁盘上执行查找的随机区域相同大小这种方法显然不同但我不明白为什么它会改变结果请注意对于
Scrapy - 持续从数据库中获取要爬取的url

我想不断地从数据库中获取要爬行的网址到目前为止我成功地从基地获取了 url 但我希望我的蜘蛛继续从该基地读取因为该表将由另一个线程填充我有一个管道一旦爬行工作就会从表中删除 url 换句话说我想使用我的数据库作为队列我尝试

随机推荐

学习笔记：固件和驱动的区别？

驱动和固件是经常会看到的字眼尤其是在IoT设备的使用安装过程中有时很容易搞糊涂本文根据自己的理解对https www zhihu com question 22175660 驱动与固件的区别是什么进行了部分整理而成如有误导请见谅
几何检测

概述几何检测主要相交性检测这里的内容大体上是根据 3D数学基础图形与游戏开发这本书来的对于这本书来说这一部分看完了后面内容就不看了因为后面讲的太空泛了有点像一本绝世武功的目录一样看似很强其实没什么卵用 1 2D隐式直线上
解决报错：TypeError: log_sigmoid(): argument ‘input‘ (position 1) must be Tensor, not torch.return_types.

报错如下 TypeError log sigmoid argument input position 1 must be Tensor not torch return types max torch max 的返回类型为 torch re
一个机器人位于一个 m x n 网格的左上角（起始点在下图中标记为“Start” ）。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角（在下图中标记为“Finish”）。总共多少步

所有实现代码均使用JAVA letcode上的算法题贴原图首先来分析一下网格可以使用二维数组来实现以下图为例 m 2 n 3 起点为 1 0 0 终点为 6 1 2 1 2 3 4 5 6 由于只能向右或向下走先列出所有路径 1
linux C获取Mac地址

1 基础用法获取eth0的mac地址 include
uniapp引入高德地图sdk经纬度解析诚地址名称

1 申请key 2 下载js sdk amap wx js文件 https lbs amap com api wx gettingstarted 3 引入 import AMap from js sdk amap wx js 4 使用 th
4.10实习日志

1 命名规范快捷键命名规范类名首字母大写单词和单词之间的首字母大写函数名变量名首字母小写单词和单词之间首字母大写快捷键注释 ctrl 运行 CTRL R 编译 ctrl b 查找 ctrl f 整行移动 CTRL sh
投影矩阵的推导(OpenGl)

概述计算机显示器是一个2D平面 OpenGL渲染的3D场景必须以2D图像方式投影到计算机屏幕上 GL PROJECTION矩阵用于该投影变换首先它将所有定点数据从观察坐标转换到裁减坐标接着这些裁减坐标通过除以w分量的方式转换到归一
一个 Nginx 如何实现部署多个不同的项目

文章目录 nginx conf 配置文件创建静态文件目录效果在 linux 中实现一个 nginx 部署2个不同的端口号访问不同的项目 nginx conf 配置文件我们可以通过配置两个 server 来实现在一个 nginx 服务
2020年十二月ccf-csp认证总结（内附个人题解）

吐槽一下这个在线评测功能平均四十分钟才能看到提交结果本次成绩为100 100 0 30 20 最后两道题都是骗的分提醒自己附代码的神奇图片希望寒假有时间把没做出来的题目也再做一遍 csp官网更新出题目后有路过的可以提醒我把题目加上
IMX6学习记录(15)-ffmpeg移植

上面是我的微信和QQ群欢迎新朋友的加入 1 获取源码下载ffmpeg http ffmpeg org 下载libx264 http www videolan org developers x264 html 有git链接用git拉算了
linux下mariadb的服务启动异常,centos7 – CentOS 7 MariaDB错误“无法启动mariadb.service：找不到单位.”...

我对 Linux有点新手在Windows上的Virtualbox中测试各种LAMP设置目前我有一台Centos 7 VM 我正在尝试安装MariaDB 我在这里遵循指示 http www tecmint com install lamp
OpenTsdb官方文档----日期和时间

查询数据时 OpenTSDB支持许多日期和时间格式在通过GUI CliQuery工具或HTTP API提交的查询中支持以下格式每个查询都需要一个开始时间和一个可选结束时间如果未指定结束时间则将使用运行TSD的系统上的当前时间相对的
战舰世界选服务器删除什么文件夹,《战舰世界》常见问题解决方案合集

虚拟内存导致的无前提闪退表现为 1 无弹出窗口 2 闪退后桌面分辨率会突然变大然后变正常问题常出现于 win7 win8 1 win10 x86框架下的32位系统解决方法修改虚拟内存为系统实际物理内存的1 5倍例如我是win10
[Win11] PowerShell无法激活Conda虚拟环境

目录一问题背景二解决方案一问题背景按照教程1安装Typora时需使用PowerShell执行Python命令然而 Win11 PowerShell无法激活Conda虚拟环境报错如下图所示二解决方案根据报错发现无法
Vue.js实战读书笔记--计算属性

计算属性 3 1 什么是计算属性在双方绑定过程中如果有过长的数据表达式或者复杂逻辑业务时应将所有的计算属性都以函数的形式写在Vue实例的computed选项内最终返回计算后的结果举例改写前 div text split reve
ESP32-C3系列模组简介

ESP32 C3是一款安全稳定低功耗低成本的物联网芯片搭载RISC V 32位单核处理器为物联网产品提供行业领先的射频性能完善的安全机制和丰富的内存资源嵌入式智能终端无线WIFI技术以及Internet的广泛应用必将使家居控制
[Python系列-15]：人工智能 - 数学基础 -5- 向量内积（点乘）和外积（叉乘）概念及几何意义

作者主页文火冰糖的硅基工坊 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 119322764 TBD ht
听我一句劝，千万别去外包，两年外包生涯做完，感觉自己废了一半....

先说一下自己的情况大专生 18年通过校招进入湖南某软件公司干了接近5年的点点点今年年上旬感觉自己不能够在这样下去了长时间呆在一个舒适的环境会让一个人堕落而我已经在一个企业干了五年的功能测试已经让我变得不思进取谈了2年的女朋友
基础爬虫记~豆瓣+东方财富网爬虫

基础小白大佬轻点喷一基础豆瓣爬虫 1 首先在某站上听讲解简单建立起了对爬虫的基础框架具体包括五个板块当然有些东西看个人可写成函数也可以直接写但重复用到的东西建议写函数用到了下面五个库 from bs4 import B

基础爬虫记~豆瓣+东方财富网爬虫

基础爬虫记~豆瓣+东方财富网爬虫 的相关文章

随机推荐

热门标签

基础爬虫记~豆瓣+东方财富网爬虫的相关文章