微博爬取多页评论

2023-11-13

最近在学习爬虫。爬取了第一页后，信心满满。但是翻不了页，就卡住了。搜了好多资料，b站都翻烂了，还是没找到合适的代码。最后在知乎找到了【2023微博评论爬虫】用python爬上千条微博评论，突破15页限制！ - 知乎 (zhihu.com)

这篇文章干货满满，虽然我只爬出来了15页，但也是进步了，收获满满。

遇到的问题：

1、代码打完之后运行没有结果。（主函数缩进错误，有一段代码不小心写到for循环里了）

2、返回不出来json页面(重新复制了一下url)

3、时间返回不出来（大小写有错）

总结：

1、hotflow 是移动端的评论数据，commentbuild是pc端的评论数据

2、大小写不要随便就按照pycharm给出的提出改代码

3、运行不出结果不报错时，一步一步print,很重要！

import pprint
import re
from time import sleep
import requests
import json
import pandas as pd
import os
import datetime
from time import sleep
import random
from fake_useragent import UserAgent


# 转换时间

def trans_time(v_str):
    GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
    timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)
    ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
    return ret_time


# 转换性别
def tran_gender(gender_tag):
    if gender_tag == 'm':
        return '男'
    elif gender_tag == 'f':
        return '女'
    else:
        return


def get_comments(v_weibo_ids, v_comment_file, v_max_page):
    """

    :param v_weibo_ids: 微博id组成的列表
    :param v_comment_file: 保存文件名
    :param v_max_page: 最大页数
    :return: None
    """
    #print(1111111111, v_weibo_ids)
    for weibo_id in v_weibo_ids:
        # 初始化max_id
        max_id = '0'
        # 爬取n页，可任意修改
        for page in range(1, v_max_page + 1):
            wait_second = random.uniform(0, 1)  # 等待时长秒
            print('开始等待{}秒'.format(wait_second))
            sleep(wait_second)  # 随机等待
            print("开始爬取{}页".format(page))
            if page == 1:  # 第一页，没有max_id参数
                url = 'https://m.weibo.cn/comments/hotflow?id={}&mid={}&max_id_type=0'.format(weibo_id, weibo_id)
                #https://m.weibo.cn/comments/hotflow?id=4934570812901749&mid=4934570812901749&max_id_type=0
            else:

                if max_id == '0':
                    print('max_id is 0,break now')
                    break
                url = 'https://m.weibo.cn/comments/hotflow?id={}&mid={}&max_id_type=0&max_id={}'.format(weibo_id,weibo_id, max_id)
                #print(222222222,url)
                #https://m.weibo.cn/comments/hotflow?id=4934570812901749&mid=4934570812901749&max_id=162921594700254&max_id_type=0


                #print(1111111111111111111111111111111111111111, url)

                # 发送请求
            ua = UserAgent()

            headers = {
                "user-agent": ua.random,
                'cookie':'Cookie:_T_WM=53471771365; XSRF-TOKEN=918f2d; WEIBOCN_FROM=1110006030; MLOGIN=1; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWvAHGueA85rUwXGGxqn9hF5JpX5K-hUgL.FoMNSo5Ee0Mf1hn2dJLoI7XLxK.L1-eLB-B0e05c; SSOLoginState=1692011683; ALF=1694603683; SCF=Agcu37bX4pp62Fa20LbsJwL-0-g-AN1C0JSpLa1K9-zGYISA3f2KMzHPsnRcp2-RVm8heQi3oc_6Wauh0_9A0wo.; SUB=_2A25J3nzzDeRhGeFJ7VIT8ynJwzSIHXVrIQS7rDV6PUJbktANLRL_kW1Nf5DMr5x6D1W02kjPd5tQ5dcOAK_tZUZ6; mweibo_short_token=70f94b26bd; M_WEIBOCN_PARAMS=lfid%3D1076035997696411%26luicode%3D20000174%26uicode%3D20000061%26fid%3D4934600524044373%26oid%3D4934600524044373',
                'Mweibo-Pwa':'1',
                "Accept": "application/json, text/plain, */*",
                "Accept-Encoding": "gzip, deflate, br",
                'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
                'referer': 'https://weibo.com/1496814565/Neh6Vk5o7',


            }

            r = requests.get(url=url, headers=headers)  # 发送请求
            #print(111111111111111111111111, r)
            #pprint.pprint(r.json()) # 查看相应内容
            try:
                max_id = r.json()['data']['max_id']
                datas = r.json()['data']['data']
            except Exception as e:
                print('excepted: ' + str(e))
                continue
            page_list = []
            id_list = []
            text_list = []
            time_list = []
            like_count_list = []
            source_list = []
            user_name_list = []
            user_id_list = []
            user_gender_list = []
            follow_count_list = []
            follower_count_list = []

            datas = r.json()['data']['data']
            #print(2222222222, datas)
            for data in datas:
                #pprint.pprint(data)
                page_list.append(page)
                id_list.append(page)
                content = ''.join(re.findall('[\u4e00-\u9fa5]+', data['text']))
                # dr = re.compile(r'[\u4e00-\u9fa5]+', re.S)
                # text2 = dr.sub('', data['text'])
                text_list.append(content)
                time_list.append(trans_time(v_str=data['created_at']))
                like_count_list.append(data['like_count'])
                source_list.append(data['source'])
                user_name_list.append(data['user']['screen_name'])
                user_id_list.append(data['user']['id'])
                user_gender_list.append(tran_gender(data['user']['gender']))
                follow_count_list.append(data['user']['follow_count'])
                follower_count_list.append(data['user']['followers_count'])

            df = pd.DataFrame(
                {
                    '微博id': [weibo_id] * len(time_list),
                    '评论页码': page_list,
                    '评论id': id_list,
                    '评论时间': time_list,
                    '评论点赞数': like_count_list,
                    '评论者IP归属地': source_list,
                    '评论者姓名': user_name_list,
                    '评论者id': user_id_list,
                    '评论者性别': user_gender_list,
                    '评论者关注数': follow_count_list,
                    '评论者粉丝数': follower_count_list,
                    '评论内容': text_list,
                 }
            )
            print(df)
            if os.path.exists(v_comment_file):
                header = False
            else:
                header = True
            print(v_comment_file)
            df.to_csv(v_comment_file, mode='a+', index=False, header=header, encoding='utf-8')
            print('结果保存成功:{}'.format(v_comment_file))


if __name__ == '__main__':
    weibo_id_list = ['4934570812901749']#4934570812901749','139144656495751','138869780012886
    max_page = 20
    comment_file = '四川医疗腐败.csv'
    if os.path.exists(comment_file):
        print('csv文件已存在，先删除', comment_file)
        os.remove(comment_file)
    print(weibo_id_list)
    get_comments(v_weibo_ids=weibo_id_list, v_comment_file=comment_file, v_max_page=max_page)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

数据库

python

微博爬取多页评论的相关文章

Python 不考虑 distutils.cfg

我已经尝试了给出的所有内容并且所有教程都指向相同的方向即使用 mingw 作为 python 而不是 Visual C 中的编译器我确实有 Visual C 和 mingw 当我想使用 pip 安装时问题开始出现它总是给Unabl
Python：json_normalize pandas 系列给出 TypeError

我在 pandas 系列中有数万行像这样的 json 片段df json IDs lotId 1 Id 123456 date 2009 04 17 bidsCount 2 IDs lotId 2 Id 123456 date 2009 0
Scrapy 文件管道不下载文件

我的任务是构建一个可以下载所有内容的网络爬虫 pdfs 在给定站点中 Spider 在本地计算机和抓取集线器上运行由于某种原因当我运行它时它只下载一些但不是全部的 pdf 通过查看输出中的项目可以看出这一点JSON 我已经设定MEDI
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
使用 Pandas 从 csv 文件读取标题信息

我有一个包含 14 行标题的数据文件在标头中有经纬度坐标和时间的元数据我目前正在使用 pandas read csv filename delimiter header 14 读取文件但这只是获取数据我似乎无法获取元数据有人知道
如何用函数记录一个文件？

我有一个带有函数 lib py 但没有类的python 文件每个函数都有以下样式 def fnc1 a b c This fonction does something param a lalala type a str param b
Python speedtest.net，或等效的[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否有一个 Python 库可以实现 SpeedTest net 测试或等效的互联网连接速度测试 GitHub上有一个项目叫速度检查 https gi
列表推导式和 for 循环中的 Lambda 表达式[重复]

这个问题在这里已经有答案了我想要一个 lambda 列表作为一些繁重计算的缓存并注意到这一点 gt gt gt j for j in lambda i for i in range 10 9 9 9 9 9 9 9 9 9 9 Alt
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
Flymake的临时文件可以在系统临时目录下创建吗？

我目前正在使用以下代码在 emacs 中连接 Flymake 和 Pyflakes defun flymake create temp in system tempdir filename prefix make temp file or
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
哪种方式最适合Python工厂注册？

这是一个关于这些方法中哪一种被认为是最有效的问题 Pythonic 我不是在寻找个人意见而是在寻找惯用的观点我的背景不是Python 所以这会对我有帮助我正在开发一个可扩展的 Python 3 项目这个想法类似于工厂模式只不过它是
如何创建增量加载网页

我正在编写一个处理大量数据的页面它会永远持续到我的结果页面加载几乎无限因为返回的数据太大了因此我需要实现一个增量加载页面例如 url 中的页面 http docs python org http docs python org
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
为什么从 openAI 导入 Universe 模块时出现“无效语法”错误

当我导入时universe来自 openAI 的模块我收到以下错误 Traceback most recent call last File
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
检查 IP 地址是否在给定范围内

我想检查一下是否有IP180 179 77 11位于特定范围之间例如180 179 0 0 180 179 255 255 我编写了一个函数它将每个 IP 八位字节与其他八位字节进行比较 def match mask IP min ip
如何有效地比较 pandas DataFrame 中的行？

我有一个 pandas 数据框其中包含雷击记录以及时间戳和全球位置格式如下 Index Date Time Lat Lon Good fix 0 1 20160101 00 00 00 9962692 7 1961 60 7604 1
ProcessPoolExecutor 传递多个参数

ESPN播放器免费 class ESPNPlayerFree def init self player id match id match id team 团队名单1 277906 cA2i150s81HI3qbq1fzi za1Oq5CG

随机推荐

maven 全入门

使用SPRINGSOURCE TOOL SUITE创建maven web project 推荐使用springsource的sts 一款基于eclipse整合的ide sts下载地址安装好m2clipse插件后在ide菜单栏点击 win
mssql sqlserver 获取指定日期为本月第几个工作日

转自 https www cnblogs com lairui1232000 p 9286104 html 摘要下文讲述工作中需要获取指定日期在当月的工作日下文讲述常规的指定工作日所在月的天数分析实现思路 1 生成一个国家法定假日表
C#的笔记属性索引器，委托事件，泛型集合，异常捕捉

C 有一些与其他语言C Java不同的特性这里特别记一下他们大部分基本的内容是相同的 C 有属性索引器委托事件泛型集合 trycatchfinally异常捕捉属性Property 属性时一种很像字段的方法他有getset访问器使
高并发高可用（二）架构

4 大型网站架构模式模式词汇来源于建筑学定义每个模式描述一个在我们周围不断重复发生发生的问题及该问题解决方案的核心这样你就能一次又一次使用该方案而不必做重复的工作为解决大型网站所遇到的高并发访问海量数据处理高可用运行等系列问题
MySQL的预读机制

一预读机制 InnoDB在I O的优化上有个比较重要的特性为预读预读请求是一个i o请求它会异步地在缓冲池中预先回迁多个页面预计很快就会需要这些页面这些请求在一个范围内引入所有页面 InnoDB以64个page为一个extent
网上书店管理系统课程设计

数据库原理及应用综合设计报告第一章绪论随着计算机技术的发展以及计算机网络的逐渐普及因特网成为了人们查找信息的重要场所二十一世纪是信息的时代所以信息的交换和信息的流通就显得特别的重要因此网上书店的出现成为必然实体书店在正常运
pytorch 入门 DenseNet

知识点0 dense block的结构知识点1 定义dense block 知识点2 定义DenseNet的主体知识点3 add module 知识点 densenet是由多个这种结构串联而成的 import torch import
Retrofit2 使用@Multipart上传文件

1 上传单个文件 1 1定义接口 Multipart POST uploadImgs Call
Laravel5.6 实现小程序使用openid登陆、手机号验证码登陆、账户密码登陆三种登陆方式

我的个人博客逐步前行STEP 目前开发小程序按需求要实现3种登陆方式 1 微信授权登陆 2 账户密码登陆 3 手机号验证码登陆我使用laravel自带的Auth认证机制通过attempt方法进行账户验证但是默认的认证机制必须包含
YOLOv6网络结构详解

网络结构根据官方代码使用Drawio绘制的YOLOv6 s网络结构图官方资源美团技术团队对于YOLOv6的介绍文章文章文章论文地址 YOLOv6 A Single Stage Object Detection Framewor
Java基础——大杂烩

今天阿Q给大家来一节大杂烩讲一下专题性不强的java基础知识 main方法详解 public static void main String args 这里面只有args能改变 public 被jvm调用访问权限足够大 static 被
记一次结构体字节对齐引起的严重问题

头文件自定义了bool类型 4个字节 ifndef bool define bool int define true 1 define false 0 endif typedef struct bool automaticActivatio
微信小程序消息订阅的实现——后端是nodejs的koa框架

在做毕设中我遇到这么一个使用场景当顾客购买某个商家的商品后那这个商家应该要收到通知信息提示你家商品被购买了故有了以下代码微信小程序js代码 onSubmit function 用户点击确认支付用户应该点击允许同意提醒信息订阅
window 7 平台上 MXNET 源码编译

目的本文主要描述怎么在windows上编译mxnet源码得到可用的libmxnet dll和libmxnet lib文件版本 mxnet x64 release CPU版运行环境 windows 7 64bit visual stu
[风格迁移系列五: WaveCT-AIN] 医学图像的风格迁移和跨域自适应（泛化性）

不同于自然图像的风格迁移在临床应用上医学图像更加注重图像生成的纹理细节并且需要实时的推理速度因此提出一个实时且高质量的风格迁移方法非常重要这篇论文实现了这个方法 Remove Appearance Shift for Ultras
Rectangle矩形类

题目设计一个名为Rectangle的矩形类并实现Comparable接口这个类包括 1 两个名为width和height的double数据域它们分别表示矩形的宽和高 2 Rectangle的无参构造方法 width和height的默
Transactions on Multimedia 投稿经验分享

关于IEEE Transactions on Multimedia 投稿经验分享 SCI分区 JCR分区 Q1 Q1 影响因子 7 3 期刊官方网站 IEEE Transactions on Multimedia IEEE Xplore 投
聚类分析：原型K-Means/K-Means++聚类、层次聚类；密度聚类DBSCAN

聚类分析处理无标签数据 from IPython display import Image matplotlib inline 1 使用K Means方法按照相似度对对象进行分组 1 1使用sklearn实现K Means聚类 from
rdp协议解读

转自 http blog csdn net jiangtao killer article details 6940346 一前言 RDP 远程显示协议 Remote Display Protocol 简称RDP 提供了客户和服务器之间的
微博爬取多页评论

最近在学习爬虫爬取了第一页后信心满满但是翻不了页就卡住了搜了好多资料 b站都翻烂了还是没找到合适的代码最后在知乎找到了 2023微博评论爬虫用python爬上千条微博评论突破15页限制知乎 zhihu com 这篇文章干

微博爬取多页评论

微博爬取多页评论 的相关文章

随机推荐

热门标签

微博爬取多页评论的相关文章