python爬虫——爬取数据导入excel表

2023-05-16

1、导入第三方库

requests库、re、html、xlwt

from bs4 import BeautifulSoup #解析网页
import re #正则表达式，进行文字匹配
import urllib.request,urllib.error  #制定url，获取网页数据
import xlwt  #进行excel操作
import sqlite3  #进行SQLite数据库操作

2、申请访问网页

def askURL(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36"
    } #伪装成网页的形式，请求网页信息
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

url：想要爬取的网址

User-Agent获取方法：
在这里插入图片描述

3、获取数据（正则表达式）

#电影链接
findLink = re.compile(r'<a href="(.*?)">')
#封面图片
findImgSrc = re.compile(r'<img.*src="(.*?)".*>',re.S)
#电影名称
findTitle = re.compile(r'<span class="title">(.*)</span>')
#评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#电影详细内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

通过查看网页源代码，找出要获取数据的“格式”，用正则表达式来获取数据
（.*?）是要获取的数据，不加括号则无法获取

4、创建excel表

book = xlwt.Workbook(encoding="utf-8",style_compression=0)
sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
book.save('豆瓣电影Top250.xls')

创建完成后，将数据导入到excel表中

【完整代码】

from bs4 import BeautifulSoup #解析网页
import re #正则表达式，进行文字匹配
import urllib.request,urllib.error  #制定url，获取网页数据
import xlwt  #进行excel操作
import sqlite3  #进行SQLite数据库操作

def main():
    baseurl = "https://movie.douban.com/top250?start="
    #爬取网页
    datalist = getData(baseurl)
    #保存数据
    savepath = "豆瓣电影Top250.xls"
    saveData(datalist,savepath)
#电影链接
findLink = re.compile(r'<a href="(.*?)">')
#封面图片
findImgSrc = re.compile(r'<img.*src="(.*?)".*>',re.S)
#电影名称
findTitle = re.compile(r'<span class="title">(.*)</span>')
#评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#电影详细内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

#爬取网页
def getData(baseurl):
    datalist = []
    for i in range(0,10):
        url = baseurl + str(i*25)
        html = askURL(url)


        #逐一解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            #print(item)
            data = []
            item = str(item)

            Link = re.findall(findLink,item)[0]
            data.append(Link)

            ImgSrc = re.findall(findImgSrc,item)[0]
            data.append(ImgSrc)

            Title = re.findall(findTitle,item)
            if len(Title)==2:
                ctitle = Title[0]
                data.append(ctitle)
                otitle = Title[1].replace("/","")
                data.append(otitle)
            else:
                data.append(Title[0])
                data.append(' ')

            Rating = re.findall(findRating,item)[0]
            data.append(Rating)

            Judge = re.findall(findJudge,item)[0]
            data.append(Judge)

            Inq = re.findall(findInq,item)
            if len(Inq) !=0:
                Inq = Inq[0].replace("。","")
                data.append(Inq)
            else:
                data.append(" ")

            Bd = re.findall(findBd,item)[0]
            Bd = re.sub('<br(\s+)?/>(\s+)?'," ",Bd)
            data.append(Bd.strip())

            datalist.append(data)    #把处理好的一个电影信息存储到datalist中
    #解析网页
    return datalist

#获取指定一个网页内容
def askURL(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36"
    } #伪装成网页的形式，请求网页信息
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html
#保存数据
def saveData(datalist,savepath):
    print("save....")
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
    col = ("电影详情链接","封面链接","影片中文名","影片外国名","评分","评价数","概况","相关信息","")
    for i in range(0,8):
        sheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])
    book.save('豆瓣电影Top250.xls')


main()
print("爬取完毕")

【运行结果】

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫——爬取数据导入excel表的相关文章

C++ STL中各容器内存、优劣的分析

STL有三大核心部分 xff1a 容器 xff08 Container xff09 算法 xff08 Algorithms xff09 迭代器 xff08 Iterator xff09 以下介绍容器相关内容 xff1a 各种容器的元素在内存
给自己时间沉淀下来

像很多学长学姐当初一样 xff0c 我也到了繁忙的大四这个尴尬的时间 xff0c 要选择 xff0c 要放弃开始实习 xff0c 去窥探一下外面的世界经过一个月的测试工作 xff0c 开始发现自己与别人的差距还是很大再继续试水 xf
docker安装使用系列二之容器、镜像、仓库使用实例分析

可能大家对docker了解不深 xff0c 这里再简单赘述一下docker这款利器 1 什么是docker Doker是基于GO语言实现的云开源项目 xff0c 通过对应用组件的封装分发部署运行等生命周期的管理 xff0c 达到应用组
图像处理之opencv库使用小结

OpenCV是一个基于BSD许可 xff08 开源 xff09 发行的跨平台计算机视觉库 xff0c 可以运行在Linux Windows Android和Mac OS操作系统上它轻量级而且高效由一系列 C 函数和少量 C 43 43
react 启动项目遇到的问题

当启动react 项目时遇到 xff1a 39 react scripts 39 不是内部或外部命令 xff0c 也不是可运行的程序 npm install npm install 下载依赖遇到安装失败 xff0c 则依赖包删除不干净 xf
Android LED电子表时钟字体digital font

字体效果如下图所示 xff1a 这种类型的字体样式会被一些UI设计用于Android APP中时钟显示 xff0c 比如交通灯倒计时实现这种字体样式 xff0c 先导入一个字体包 xff1a digital ttf 这个digital t
Android音视频处理之MediaCodec

MediaCodec是Android中媒体编解码器 xff0c 可以对媒体进行编解码 MediaCodec采用同步异步方式处理数据 xff0c 并且使用了一组输入输出缓存 xff08 ByteBuffer xff09 通过请求一个空的输
计算相机投影矩阵（含代码）（Python）

计算相机投影矩阵 xff08 含代码 xff09 xff08 Python xff09 前几天处理点云时 xff0c 需要使用到像片与3D点云的对应关系在这边找了一圈没有发现直接可用的代码 xff0c 于是去GitHub试了一下 xff0
H264 SPS中得到宽高的代码(java)

数据需要去掉头 xff0c SPS测试数据 byte buffer 61 new byte 103 66 64 12 38 5 7 56 7 124 2 得到结果宽320高240 public class H264SpsParser pri
git 调换提交顺序

前两个commit交换顺序 1 查看提交历史 git log oneline 2 把要调整顺序的commit显示在vim中 git rebase i a33d521 a33d521用来确定commit范围 xff0c 表示从此提交开始到当前
android hmacSha256 加密

public class HMACSHA256 public static String hmacSha256 String KEY String VALUE return hmacSha KEY VALUE 34 HmacSHA256 3
Java生成固定长度的随机字符串(以大小写字母和数字)

public class RandomStringUtil public static ArrayList lt String gt strList 61 new ArrayList lt String gt public static R
Android reckon 控制项目打包版本

reckon 用法 github地址 xff1a https github com ajoberstar reckon 根项目 gradle配置 buildscript apply from 39 versions gradle 39 re
ArrayList源码解析

构造函数 Constructs an empty list with an initial capacity of ten 使用10个初始容量构造一个空的集合 public ArrayList super 用一个空的数组进行初始化 this
2023年有效的rtsp,rtmp,hls流媒体测试地址整理汇总

rtsp rtsp wowzaec2demo streamlock net vod mp4 BigBuckBunny 115k mov 已停用 rtsp wowzaec2demo streamlock net vod mp4 BigBuck
http请求

HTTP请求报文一个HTTP请求报文由请求行 xff08 request line xff09 请求头部 xff08 header xff09 空行和请求数据4个部分组成 1 请求行请求行分为三个部分 xff1a 请求方法请求地址和协
http响应报文

HTTP响应报文主要由状态行响应头部空行以及响应数据组成 1 状态行由3部分组成 xff0c 分别为 xff1a 协议版本 xff0c 状态码 xff0c 状态码描述其中协议版本与请求报文一致 xff0c 状态码描述是对状态码的简单
centos7+jdk8+安装Elasticsearch6.0

一 xff1a 为Elasticsearch准备用户 1 添加用户 Elasticsearch6 0需要使用非root用户启动 root 64 66 adduser ela root 64 66 passwd ela 2 授权用户查看文件
Retrofit2 源码解析

0 基本使用 1 Retrofit 将我们的 HTTP API 转换成一个接口形式所以我们第一步定义一个 interface public interface GitHubService 64 GET 34 user user repo
Android Studio插件的源文件位置——mac端

有些时候安装插件后 xff0c 整个android studio都卡住了 xff0c 无法通过Android Studio gt preferences gt plugins来卸载 xff0c 这时候就需要找到安装位置 xff0c 进行删除

随机推荐

H.264编码基础知识详解

一编码基础概念 1 为什么要进行视频编码 xff1f 视频是由一帧帧图像组成 xff0c 就如常见的gif图片 xff0c 如果打开一张gif图片 xff0c 可以发现里面是由很多张图片组成一般视频为了不让观众感觉到卡顿 xff0c 一
Android事件分发

基本知识什么是触摸事件触摸事件 xff0c 是Android用来描述你的手对屏幕做的事情的最小单元关键词有两个 xff1a 手势 xff08 你的手对屏幕做的事情 xff09 最小单元所谓手势 xff0c 就是比如按下移动抬起
HashMap这一篇就够了

介绍下 HashMap 的底层数据结构现在用的都是 JDK 1 8 xff0c 底层是由数组 43 链表 43 红黑树组成 xff0c 如下图 xff0c 而在 JDK 1 8 之前是由数组 43 链表组成为什么要改成数组 4
Activity的结构分析

1 结构介绍大伙儿应该都知道 xff0c Activity的结构分为三层 xff0c 分别是 xff1a Activity Window和View xff0c 不同层承担着不同的责任上面的图简单的描述了Activity整个结构的构建流程
LinkedBlockingQueue

一类签名从类名可知 xff0c LinkedBlockingQueue是基于链表实现的阻塞队列 public class LinkedBlockingQueue lt E gt extends AbstractQueue lt E gt
UDP Socket

UDP的Java支持 UDP协议提供的服务不同于TCP协议的端到端服务 xff0c 它是面向非连接的 xff0c 属不可靠协议 xff0c UDP套接字在使用前不需要进行连接实际上 xff0c UDP协议只实现了两个功能 xff1a 1
volatile

把代码块声明为 synchronized xff0c 有两个重要后果 xff0c 通常是指该代码具有原子性 xff08 atomicity xff09 和可见性 xff08 visibility xff09 原子性意味着个时刻 xff0
Android 相机预览方向和拍照方向

我们知道手机 Camera 的图像数据都是来自于摄像头硬件的图像传感器 xff08 Image Sensor xff09 xff0c 这个 Sensor 被固定到手机之后是有一个默认的取景方向的 xff0c 这个方向如下图所示 xff0c
Python无参装饰器

一什么是装饰器定义一个函数 xff0c 该函数可为其他函数添加额外的功能二何时用装饰器需要在不修改被装饰对象源代码及其调用方式时 xff0c 为被装饰对象添加额外的功能三如何写一个装饰器现在我们有如下一个函数help xff
typedef的用法

typedef中声明的类型在变量名的位置出现什么意思呢 xff0c 我们回头来看我们是怎么声明int类型变量的 xff1f int Typename 像上面这样 xff0c 对不对 xff1f 那么用typedef之后呢 xff1f 把
Activity启动流程(一)

Launcher进程请求AMSAMS发送创建应用进程请求Zygote进程接受请求并孵化应用进程应用进程启动ActivityThread 一 Launcher进程请求AMS 上面我们提到根Activity的启动流程其实就是桌面上点击一个应用图
Activity启动流程(二)

应用进程绑定到AMSAMS发送启动Activity的请求ActivityThread的Handler处理启动Activity的请求一应用进程绑定到AMS 1 时序图 2 详细过程在前面一篇我们知道当Zygote进程孵化出应用进程后会执
AudioRecord

数字音频数字音频通常分为三步 xff1a 采样量化编码采样 xff1a 就是将获取的信号给数字化 xff0c 其中有个概念就是采样频率 xff0c 而人耳能听到的频率范围只有20Hz 20kHz xff0c 所以一般设置的都是44
GCC编译C/C++程序（一步完成）

使用 GCC 编译器编译 C 或者 C 43 43 程序 xff0c 也必须要经历这 4 个过程但考虑在实际使用中 xff0c 用户可能并不关心程序的执行结果 xff0c 只想快速得到最终的可执行程序 xff0c 因此 gcc 和 g 4
GCC -E选项：对源程序做预处理操作

存储在 demo c 文件中 include lt stdio h gt int main puts 34 hello world 34 return 0 通过为 gcc 指令添加 E 选项 xff0c 即可控制 GCC 编译器仅对源代码做
GCC -S选项：编译非汇编文件

root 64 bogon demo cat demo c include lt stdio h gt int main puts 34 Hello World 34 return 0 root 64 bogon demo gcc E de
GCC -c选项：生成目标文件

root 64 bogon demo ls demo c root 64 bogon demo cat demo c include lt stdio h gt int main puts 34 Hello World 34 return
GCC -l选项：手动添加链接库

标准库的大部分函数通常放在文件 libc a 中 xff08 文件名后缀 a代表 achieve xff0c 译为获取 xff09 xff0c 或者放在用于共享的动态链接文件 libc so 中 xff08 文件名后缀 so代表 shar
GCC 编译使用动态链接库和静态链接库

1 库的分类根据链接时期的不同 xff0c 库又有静态库和动态库之分静态库是在链接阶段被链接的 xff08 好像是废话 xff0c 但事实就是这样 xff09 xff0c 所以生成的可执行文件就不受库的影响了 xff0c 即使库被删除了
python爬虫——爬取数据导入excel表

1 导入第三方库 requests库 re html xlwt span class token keyword from span bs4 span class token keyword import span BeautifulSou