爬虫之爬取百度贴吧

2023-05-16

爬虫之爬取百度贴吧

直接示例代码：

import requests
# from lxml import html
# etree = html.etree
from lxml import etree
class Tieba(object):
    def __init__(self, name):
        self.url = f'https://tieba.baidu.com/f?kw={name}'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
            # 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) '     #  低端浏览器没有被<!--  -->注释掉
        }

    def get_data(self, url):
        response = requests.get(url, headers=self.headers)
        #  把浏览器响应的内容保存到本地，以便查看响应的源码
        # with open('tieba.html', 'wb') as f:
        #     f.write(response.content)
        return response.content

    def parse_data(self, data):
        #  创建element对象
        data = data.decode().replace("<!--", "").replace("-->", "")   #  高端浏览器会把一些内容给注释掉的
        el_html = etree.HTML(data)
        el_list = el_html.xpath('//*[@id="thread_list"]/li/div/div[2]/div[1]/div[1]/a')  #  此处输出的是对象
        print(len(el_list))
        data_list = []
        for el in el_list:
            tmp = {}
            tmp['title'] = el.xpath('./text()')[0]    #  此处xpath取出的数据是列表，所以加上索引[0]
            tmp['href'] = 'http://tieba.com' + el.xpath('./@href')[0]      #  此处取出的索引是相对路径，所以前面还要拼接字符串
            data_list.append(tmp)
        print(data_list)
        try:
            # next_url = 'https' + el_html.xpath('//a[@class="next pagination-item "]/@href')
            next_url = 'https:' + el_html.xpath('//a[contains(text(),"下一页")]/@href')[0]
        except:
            next_url = None
        return data_list, next_url

    def save_data(self, data_list):
        for data in data_list:
            print(data)

    def run(self):
        #  url
        #  headers
        next_url = self.url
        while True:
            #  发送请求，获取响应
            data = self.get_data(next_url)
            #  从响应中提取数据（数据和翻页用的url）
            data_list, next_url = self.parse_data(data)
            self.save_data(data_list)
            #  判断是否终结
            if next_url == None:
                break


if __name__ == '__main__':
    tieba = Tieba('上海大学')
    tieba.run()

运行效果：

难点部分分析截图：

将在百度贴吧爬取的数据爬取下来并写进csv文件中。

示例代码：

import requests
# from lxml import html
# etree = html.etree
import csv
from lxml import etree


class Tieba(object):

    def __init__(self, name):
        self.url = f'https://tieba.baidu.com/f?kw={name}'
        self.headers = {
            # 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
            'User-Agent': '/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
            # 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) '     #  低端浏览器没有被<!--  -->注释掉
        }
        self.f = open('上海理工大学吧.csv', 'w', encoding='utf-8-sig', newline="")
        self.csv_write = csv.writer(self.f)

    def get_data(self, url):
        response = requests.get(url, headers=self.headers)
        #  把浏览器响应的内容保存到本地，以便查看响应的源码
        # with open('tieba.html', 'wb') as f:
        #     f.write(response.content)
        return response.content

    def parse_data(self, data):
        #  创建element对象
        data = data.decode().replace("<!--", "").replace("-->", "")  # 高端浏览器会把一些内容给注释掉的
        el_html = etree.HTML(data)
        # el_list = el_html.xpath('//*[@id="thread_list"]/li/div/div[2]/div[1]/div[1]/a')  #  此处输出的是对象
        el_list = el_html.xpath('//*[@id="thread_list"]/li/div')  # 此处输出的是对象
        print(len(el_list))
        # exit()
        data_list = []
        for el in el_list:
            tmp = {}
            tmp['title'] = el.xpath('./div[2]/div[1]/div[1]/a/text()')[0]  # 此处xpath取出的数据是列表，所以加上索引[0]
            tmp['href'] = 'http://tieba.com' + el.xpath('./div[2]/div[1]/div[1]/a/@href')[0]  # 此处取出的索引是相对路径，所以前面还要拼接字符串
            try:
                tmp['author'] = el.xpath('./div[2]/div[1]/div[2]/span[1]/span[1]/a/text()')[0]
            except:
                tmp['author'] = el.xpath('./div[2]/div[1]/div[2]/span[1]/span[1]/a/text()')
            try:
                tmp['reviewer'] = el.xpath('./div[2]/div[2]/div[2]/span[1]/a/text()')[0]
            except:
                tmp['reviewer'] = el.xpath('./div[2]/div[2]/div[2]/span[1]/a/text()')
            try:
                tmp['last_comment_time'] = el.xpath('./div[2]/div[2]/div[2]/span[2]/text()')[0]
            except:
                tmp['last_comment_time'] = el.xpath('./div[2]/div[2]/div[2]/span[2]/text()')
            try:
                tmp['comment'] = el.xpath('./div[2]/div[2]/div[1]/div/text()')[0]
            except:
                tmp['comment'] = el.xpath('./div[2]/div[2]/div[1]/div/text()')
            data_list.append(tmp)
        # print(data_list)

        #  获取csv他属性值
        a = []
        dict = data_list[0]
        for headers in sorted(dict.keys()):  # 把字典的键取出来
            a.append(headers)
        header = a  # 把列名给提取出来，用列表形式呈现
        print(a)
        self.csv_write.writerow(['title', 'href', 'author', 'reviewer', 'last_comment_time', 'comment'])
        # self.csv_write.writerow(a)

        try:
            # next_url = 'https' + el_html.xpath('//a[@class="next pagination-item "]/@href')
            next_url = 'https:' + el_html.xpath('//a[contains(text(),"下一页")]/@href')[0]
        except:
            next_url = None
        return data_list, next_url, header

    def save_data(self, data_list, header):

        for data in data_list:
            print(data)
            try:
                data['last_comment_time'] = data['last_comment_time'].replace('\r', '').replace('\n', '').strip()
                data['comment'] = data['comment'].strip().replace('\r', '').replace('\n', '')
            except:
                print('list')
            self.csv_write.writerow(
                [data['title'], data['href'], data['author'], data['reviewer'], data['last_comment_time'],
                 data['comment']])

    def run(self):
        #  url
        #  headers
        next_url = self.url
        while True:
            #  发送请求，获取响应
            data = self.get_data(next_url)
            #  从响应中提取数据（数据和翻页用的url）
            data_list, next_url, a = self.parse_data(data)
            self.save_data(data_list, a)
            #  判断是否终结
            if next_url == None:
                break


if __name__ == '__main__':
    tieba = Tieba('上海理工大学')
    tieba.run()

运行效果：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫之爬取百度贴吧的相关文章

S.BUS协议

内容本篇文章主要是S BUS协议原理介绍 xff0c 并实现了arduino输出S BUS数据 S BUS简介 SBUS是一个接收机串行总线输出 xff0c 通过这根总线 xff0c 可以获得遥控器上所有通道的数据目前很多模型及无人机电
window10+TensorRT-8.2.5.1+yolov5 v6.2 c++部署

一准备工具 1 1 visual studio下载安装参考 xff1a vs2019社区版下载教程 xff08 详细 xff09 Redamancy 06的博客 CSDN博客 vs2019社区版 1 2 显卡驱动 43 cuda 43
openstack创造实例报：找不到有效有效主机，没有足够主机，而且点击实例还报500

第一次接触openstack时候 xff0c 再创建实例时候右上方就弹出创建失败实例 xxx 执行所请求操作失败 xff0c 实例处于错误状态请稍后再试错误找不到有效主机 xff0c 原因是没有足够的主机可用这个问题是因为你的o
Kubernetes v1.21 发布,新版本主要特性

美国时间 4 月 8 日 xff0c Kubernetes v1 21 正式发布 xff0c 这是 Kubernetes 在 2021 年发布的第一个版本此版本包含 51 项增强功能 xff1a 13 项增强功能已进入稳定阶段 xff0c
基于51单片机的火焰报警器

基于51单片机的火焰报警器一模块描述 1 可以检测火焰或者波长在760纳米心1100纳米范围内的光源 2 探测角度60度左右 xff0c 对火焰光谱特别灵敏3灵敏度可调图中蓝色数字电位器调节 3 对火焰的探测距离跟灵敏度和火焰强度有
STM32的大小端模式——什么是大小端模式?

目录 1 什么是大小端模式2 为什么会有大小端模式之分3 什么情况需要考虑大小端模式4 常见的设备的大小端模式5 测试大小端模式例程6 大小端转化例程 1 什么是大小端模式大端模式Big Endian xff1a 高字节存于内存低地址 x
MDK KEIL 烧录STM32下载错误：Flash Timeout.Reset the Target and try it again.解决办法（芯片解锁解除读报护）

使用keil开发STM32点下载时出现下面的报错 xff1a 点确定后 xff1a 出现如上情况很可能是该芯片锁死 xff0c 即设置了读写保护解决方法是想办法解锁芯片 xff0c 可以使用ST Link配合stlink utility软
Visual Studio 如何创建C/C++项目

这里不说Visual Studio安装过程 xff0c 默认已经安装好软件对Visual Studio安装有疑问的可以参考 xff1a Visual Studio安装教程 1 打开软件Visual Studio xff0c 点击创建新项目
Visual Studio安装教程

本文章主要记录Visual Studio2019的安装过程 xff0c 由于只用于开发C C 43 43 xff0c 因此关于其它语言支持将不安装 xff0c 仅供参考一下载 1 下载地址在微软官网 xff1a 微软官网 2 选择菜单栏
CAN波形解析实例(1)

这里的CAN数据波形抓取的是两个STM32F103设备通过CAN通信一方发送另一方接收 xff0c CAN收发器使用的是TJA1051 xff08 扩展帧发送数据ID 61 0x18DAF110 Data 61 0x06 0x08 xff0
GPIO推挽输出和开漏输出模式区别详解

以STM32参考手册中的GPIO输出配置图为例 xff1a 看到输出驱动器虚线框中的内容 xff0c 输出驱动器中的P MOS和N MOS两个MOS管就是实现推挽输出和开漏输出的关键推挽输出模式下 xff0c P MOS和N MOS都正常
树莓派新手入门教程

截至目前 20210405 xff0c 树莓派最新版本为4B xff0c 如下图所示 xff1a 树莓派3B 43 的主要的部件位置 xff1a 下载最新Raspbian系统镜像 1 首先进入树莓派官网 xff1a https www ra
公司研发工具链体系化建设,帮助公司从混乱走向正规

一软件发布平台没办法对外提供二进制库下载便捷方式不方便部署 xff0c 不同版本之间预览和说明性欠缺问题可以参考的解决方案 xff1a https www cnblogs com djlsunshine p 11164770 html
关于写代码的几个看法

最近在新公司负责bug的修复 xff0c 发现很多的代码逻辑理解起来有些困难现在将其中观察到的现象列出来 xff0c 谈谈自己的看法 1 类过大对于代码来说 xff0c 我们在编写的时候最好做到SRP Single Responsibi
树莓派VNC server设置开机自启动

目前已测试OK的几个方法 xff1a 方法1 xff08 作为服务自启动 xff09 xff1a 在 etc init d 中创建一个文件例如tightvncserver xff1a span class token function s
一个结构体 = 另一个结构体（同类型结构体之间可直接赋值操作）

两个同类型结构体变量可以直接赋值 xff0c 不同类型结构体不能直接赋值 span class token macro property span class token directive hash span span class tok
FreeRTOS任务切换过程深层解析

FreeRTOS 系统的任务切换最终都是在 PendSV 中断服务函数中完成的 xff0c uCOS 也是在 PendSV 中断中完成任务切换的为什么用PendSV异常来做任务切换 PendSV 可以像普通中断一样被 Pending xf
QT C++入门学习(1) QT Creator安装和使用

Qt官方下载 Qt 官网有一个专门的资源下载网站 xff0c 所有的开发环境和相关工具都可以从这里下载 xff0c 具体地址是 xff1a http download qt io 进入链接后 xff0c 是一个文件目录 xff0c 依次进入
QT初体验：手把手带你写一个自己的串口助手

前言本文记录一下用QT Creator 写一个基本功能齐全的串口助手的过程 xff0c 整个工程只有几百行代码 xff0c 跟着做下来对新手来说可以更快了解整个QT项目的开发过程和一些常用控件的使用方法对新手学习QT能增强信心 xff0
QT如何打包生成独立可执行.exe文件

一将QT程序使用Release编译二新建一个文件夹 xff0c 将Release编译生成的exe文件复制到新建文件夹中先找到Release编译生成的exe文件夹位置 xff0c 与项目创建的文件夹有关 xff1a 临时文件夹 rel

随机推荐

利用OpenCV识别不规则图形轮廓并找其中心点和角度

关于寻找图形的轮廓 xff0c 想来大家都不陌生但平常寻找并进行识别的轮廓都是较为标准的图形 xff0c 如圆形 xff0c 矩形等但在一些特殊情况下 xff0c 我们所检测的图形并不是理想的标准图形比如说我们检测元件的引脚 xff0
神经网络学习小记录21——InceptionV3模型的复现详解

神经网络学习小记录21 InceptionV3模型的复现详解学习前言什么是InceptionV3模型InceptionV3网络部分实现代码图片预测学习前言 Inception系列的结构和其它的前向神经网络的结构不太一样 xff0c 每一
Ubuntu的快乐学习3——ros的launch用法

Ubuntu的快乐学习3 ros的launch用法学习前言launch是什么launch的使用方法一简单使用二常用标签1 launch标签2 node标签3 include标签4 remap标签5 param标签6 rosparam标
三周年创作纪念日

机缘不知不觉已经开始分享三周年了 xff0c 最开始什么都不懂 xff0c 作为自动化的学生 xff0c 以为学点算法就可以变得厉害一些 xff0c 于是学了点C 43 43 相关就开始分享后来立志于研究深度学习算法 xff0c 感觉强
win10+vs2017+opencv4.0.1+opencv_contrib-4.0.1详细教程

最近想好好认真学习一下opencv4 0 xff0c 需要用到contrib扩展库 xff0c 配置完记录下先写一下版本信息 xff1a opencv4 0 1 xff0c vs2017和 win10 其他opencv版本安装和配置原理一
OpenHD---低成本开源高清数字图传

转载注明出处文章目录一前言二 OpenHD简单介绍三图传材料准备1 树莓派2 摄像头排线 SD卡读卡器4 网卡四硬件连接五镜像刷写六通电测试七系统参数设置八连接飞控九关于二次开发十最后一前言这篇文章是对树莓
PS2手柄通讯协议解析---附资料和源码

文章目录一 PS2介绍二 PS2通讯协议介绍 xff08 1 xff09 PS2端口介绍 xff08 2 xff09 PS2通讯过程三基于STM32的PS2通信源码四文档与源码下载链接一 PS2介绍今天就带大家来认识一下PS2的
Stm32延时与计时方法（HAL库）

文章目录一延时的3种方法1 循环延时2 定时器中断延时与非中断延时三定时器中断式计时与延时二定时器非中断式延时四代码例程五同系列博客一延时的3种方法首先 xff0c 先了解一下什么延时顾名思义 xff0c 延时即是延长
CAN通信知识梳理及在Stm32上的应用（HAL库）

文章目录一 CAN通信简介二硬件连接三 CAN总线上的电平信号四 CAN帧的种类 xff08 1 xff09 遥控帧 xff08 2 xff09 数据帧五 CAN的仲裁方法六 CAN在Stm32上的应用 xff08 1 xff09 C
C语言标准库函数大全（ctype、time 、stdio、stdlib、math、string）

文章目录 C语言函数库一 lt ctype h gt 二 lt math h gt 三 lt stdio h gt 四 lt stdlib h gt 五 lt time h gt 六 lt string h gt 文档资料 C语言函数库
作品分享:基于STM32的温度报警器含源码、原理图、PCB文件、作品报告

文章目录一前言二材料准备三硬件部分四软件部分1 底层封装库2 中间层3 应用层五外壳设计六资料链接一前言该作品是我在华工电工开放实习的作品 xff0c 本作品由七部分组成中央为Stm32F405RG芯片 xff0c
基于时延法的麦克风阵列声源定位分析

文章目录一关于麦克风阵列二关于声源定位三基于广义互相关 GCC 计算时延四基于时延差的声源定位法1 近场模型2 远场模型五三维空间阵列的声源定位系统实现1 推导过程六六元圆形麦克风阵列声源定位七相关链接一关于麦克风阵
STM32实现PWM输出与PWM输入捕获（HAL库）

文章目录一前言二 STM32 定时器2 1 基本定时器2 1 1 功能与框图2 1 2 CubeMX配置 2 2 通用定时器2 2 1 功能与框图2 2 2 CubeMX配置 2 3 高级定时器2 3 1 功能与框图2 3 2 Cube
宇树A1电池拆解分享

文章目录一关于A1电池二拆解过程2 1 结构设计2 2 电路方案2 3 电芯设计三相关链接一关于A1电池今天的主角是宇树的A1电池该电池主要用在宇树的A1机器狗上 xff0c A1主打的是运动性能 xff0c 最大持续奔跑
大疆Mini1充电管家拆解分享

文章目录一关于充电管家二拆解过程一关于充电管家御Mini充电管家外观简洁优雅 xff0c 最多可容纳三块电池进行充电 xff0c 在一块电池充满电后会自动进行下一块电池的充电 xff0c 支持电池的电量显示除此之外 xff0c
磁盘高级管理工具VDO (redhat8版本以上或者centos8以上)

1 vdo简述 Virtual Data Optimizer 通过数据去重压缩的方式来优化存储空间 VDO层放置在现有块存储设备上 xff0c 例如Raid设备本地磁盘设备 LVM 或文件系统放置在VDO层之上 xff0c 也可以将V
bootloader学习笔记---第一篇以stm32为例

目录一 bootloader的任务二 bootloader开发的基础知识段的概念重定位的概念散列文件的概念异常向量 xff08 待补充 xff09 三最简单的bootloader程序四使用汇编跳转五备注一 bootl
场景文本识别模型综述

一数据集的分析一训练数据集大多数自然场景文字识别算法使用合成数据进行训练两个常用的合成数据集是 MJSynth MJ 和 SynthText ST xff0c 分别包含890万和550万张训练样本图1 不同比例的训练数据集 xf
数据挖掘实验一使用matplotlib进行绘图

曲线图 span class token keyword import span numpy span class token keyword as span np span class token keyword import span
爬虫之爬取百度贴吧

爬虫之爬取百度贴吧直接示例代码 xff1a import requests from lxml import html etree 61 html etree from lxml import etree class Tieba obje

爬虫之爬取百度贴吧

爬虫之爬取百度贴吧

难点部分分析截图：

爬虫之爬取百度贴吧 的相关文章

随机推荐

热门标签

爬虫之爬取百度贴吧的相关文章