python研究生专业_用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！

2023-11-18

写在前面

考研在即，想多了解考研er的想法，就是去找学长学姐或者去网上搜索，贴吧就是一个好地方。而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息。虽然网上有很多爬取百度贴吧的教程和例子，但是贴吧规则更新快，目的不一样，爬取的内容也不一样，所以就有了这个工具。

400

目的

爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云

一、分析

1.1 先查看贴吧的规则，果然有规律，每一页是50条帖子

400

1.2 帖子内容，也有规律，都在这个标签里面

400

1.3 判断内容就用百度AI的内容审核，情感分析也用百度AI了，省事

1.4 词云可以先用jieba分词然后再用wordcloud生成，但是后来发现网上有现成的工具

二、爬取过程

2.1 首先解决的一个小问题就是让它自己计算一下每页是50条帖子，我输入1000条它应该去爬取那几个页面，就用这种数学计算就行

2.2爬取过程代码，爬取后就调用内容审核以及情感分析，然后写入文件

def gettbtz(tbname,tznum): ####根据给出的贴吧和帖子数（50的整数倍）获得所有帖子

n = -50

tznum = int(tznum) ###z这里是要根据贴吧的规则，每页显示50条帖子

emotions = 0

while (tznum > n):

n = n + 50

print("正在爬取前" + str(n) + "条帖子")

url = "http://tieba.baidu.com/f?kw=" + tbname + "&ie=utf-8&pn=" + str(n)

soup = BeautifulSoup(requests.get(url).text,'lxml') ###爬取动作

a = soup.find_all('div',class_='threadlist_abs threadlist_abs_onlyline')

for a in a: ###接下来以此判断文本是否合规，然后判断情感正向倾向指数，然后写入文件

if BDAITEXT(a.text) == "合规":

print("爬取到合规帖子,正在写入文件：" + a.text)

with open("resaults.txt","a+",encoding='utf-8') as f:

f.write(str(a.text)) ###写入这里特意转换一下数据类型，避免后面发生文本编码错误

try:

emotions = emotions + BDAIemotion(a.text)

print("当前累计情感指数：" + str(emotions))

except:

print("情感分析出错，跳过")

else:

print("帖子不合规，跳过")

time.sleep(10) ###君子协议，10秒暂停

f.close()

三、百度人工智能API调用

3.1 百度AK获取，就是要先到百度AI开发平台注册一个开发者账号，然后创建应用，获取应用id和密钥，然后得到这样一个调用的密钥

# client_id 为官网获取的AK， client_secret 为官网获取的SK

host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【应用ID】&client_secret=【SK】'

response = requests.get(host)

if response:

print(response.json())

3.2 内容审核API调用

def BDAITEXT(text): ####百度AI文本审核，返回合规或者不合规

content = {"text": text}

r = requests.post(BDAItexturl,content).text

if r:

rback = json.loads(r)

return rback["conclusion"]

3.3 情感分析API调用

def BDAIemotion(text): ####百度AI情感分析，返回一个数值

content = {"text": text}

content = json.dumps(content)

r = requests.post(BDAIemotionurl,content).text

if r:

rback = json.loads(r)

return rback['items'][0]['positive_prob']

四、词云生成

有很多在线工具，导入大段文本，然后根据需要进行文本的过滤、分词，然后设置颜色、样式就可以生成词云。

600

五、信息分析

看词云，结果不言而喻，提早地准备、丰富的经验、专业课、数学、政治、院校选择…………

从情感上来看，大多数情感指数偏向积极，说明对待考研还是需要一个积极的态度。

600

运行截图

800

待改进

1.应该多线程，速度太慢了

2.爬取了帖子，没有爬取评论

3.情感分析有很多出错

“闲言碎语留给市井小民，你只管优雅从容心怀远方”

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python研究生专业

python研究生专业_用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！的相关文章

服务器管理口IP及账号密码(知识汇总）

HP管理口 ILO 默认用户密码 Administrator password HP以前管理口登陆MP卡通过网线连接MP卡的RJ 45口通过telnet方式登录默认用户密码 Admin Admin DELL服务器管理口 idac
生产级logback-spring.xml配置明细
win32平台中的程序转换为wince中的一些错误 . 未能为“VCCLCompilerTool”工具生成命令行

转载自 http blog csdn net shirui1125 article details 6095774 gt ToolBox error PRJ0004 未能为 VCCLCompilerTool 工具生成命令行从原有的平台复制
第一个nodejs应用

应用这个词很火哪里都在用这里的nodejs应用其实是一个站点准确的说是运行在本地的一个小小的Http站点但是nodejs开发主要还是集中在少数的几个核心功能上而不是那种动辄几千几万个文件支撑多少并发多少功能的这种大型站点所以n
jmeter接口关联-跨线程和正则表达式提取headers信息（视频详解）

首先看下常见的jmeter工作中的3个问题 1 如何提取响应头里面的cookie 2 参数md5加密后再请求接口 3 多个线程组之间参数如何关联技术知识 jmeter 跨线程关联 1 提取器正则表达式 2 md5加密函数 3 Bea
量化分析小函数——上穿函数

量化分析小函数上穿函数上穿函数用于判断上穿信号的有无输入为两条信号 obj和ref 两者数据类型为python列表主要判断obj是否上穿ref 1 参考代码 import talib as tl import pandas as p
短文简单理解遗传算法和代码审计应用思路

短文简单理解遗传算法和代码审计应用思路如何理解遗传算法假设小明爷爷DNA之中带有A字段小明爸也有小明也有说明A字段会遗传如果A是存在危险函数这就是遗传同样的在代码之中多数存在包含关系也称为调用所以危险函数是可以被遗传
深度学习——图像增强小组代码

TJU暑期的深度学习训练营这是人脸识别运用图像增强后的一段代码 import os shutil unzip tjudataset zip base dir tjudataset read data train dir os path j
vuecli打包时去掉console.log

1 安装babel plugin transform remove console插件 npm i save dev babel plugin transform remove console 2 在babel config js中配置 c
Centos7 MySQL8 主从同步提示:Fatal error: The slave I/O thread stops because master and slave have equal

报错信息在搭建Mysql主从架构过程中由于从服务器是克隆的主服务器系统导致主从Mysql uuid相同 Slave IO无法启动报错如下 Last IO Error Fatal error The slave I O thread
JavaScript中的关键字“VAR”使用详解

JavaScript的变量也是有作用域的只是它非常的笼统就分为全局变量和函数变量作为全局变量的时候有没有var 都没有关系但是在function中有var就表示是局部变量没有var就表示是全局变量 JScript的语法教程里
Window10 安装Linux子系统

为Window10 安装Linux子系统 WSL是win10 的Linux的子系统相比虚拟机有更多的优势对系统资源占用少切换系统之间较为的方便安装步骤安装WSL要求Win10系统在1607版本以上查看自己的版本是否符合要求开启
charles 抓取微信pc客户端小程序https traffics

preface 今天看了下 pc端小程序的ui 展示有一丢丢bug 以后肯定会更好的最近微信更新了 pc 客户端小程序是可以直接在 pc 端查看的这一个功能真是太棒了我们可以不连手机直接在电脑上进行某些抓包测试了 1
MySql创建存储过程（procedure）

如果存储过程中含有动态SQL语句在触发器中调用该存储过程时会报错ERROR 1336 0A000 Dynamic SQL is not allowed in stored function or trigger 该错误的含义是函数或者触
JS中的aes加密解密

javascript中的aes加密解密 aes加密一般通过制定的秘钥进行加密和解密操作页面上得引入aes的js文件然后直接调用即可文件我会贴出来 function pwd keys pwd是密码明文 keys是指定的秘钥这个func
给你两个按非递减顺序排列的整数数组 nums1 和 nums2，另有两个整数 m 和 n ，分别表示 nums1 和 nums2 中的元素数目。并排序[c实现]

void merge int nums1 int nums1Size int m int nums2 int nums2Size int n int end1 m 1 int end2 n 1 int end n m 1 while end
最新 Mac 安装python+anaconda+tensorflow

最新 Mac 安装python anaconda tensorflow pytorch 全步骤版本一正常情况三步安装二第二步第三步超时显示错误如下添加镜像三 zsh conmmand not found 四 jupyter
SQL SERVER 提取字符串中数字

对一个字符串进行提取获取其中数字部分方法如下 IF OBJECT ID DBO GET NUMBER IS NOT NULL DROP FUNCTION dbo GET NUMBER GO CREATE FUNCTION dbo GET
集装箱装柜计算机器在线,装箱大师在线计算教程

原创装箱大师在线计算教程编辑小葫芦来源 PC下载网时间 2018 01 08 10 34 38 1 对于从事装箱设计工作的小伙伴来说如何高效快速的装箱一直是个难题不过装箱大师这款软件可以帮助大家解决这个难题接下来小编就来教大家如

随机推荐

UPnP的介绍和理解

在远程服务器开了一个节点B 然后在自己电脑上启动两个节点A C 用了 bootnodes B命令 A和C都能把B节点添加到自己的列表里但是A和C不能互相发现是为什么按理来说B应该把自己知道的节点列表都告诉给他相连的节点吧答案是它们会
崇德科技深交所上市：上半年营收2.6亿募资10亿市值48亿

雷递网雷建平 9月20日湖南崇德科技股份有限公司简称崇德科技证券代码 301548 今日在深交所创业板上市崇德科技本次发行1500万股发行价66 8元募资10亿元崇德科技原计划募资5 3亿元这意味着超募了近5亿元崇德科
K9s之Kubernetes集群管理交互工具实践

文章目录 0x01 基础简介 0x02 安装实践安装流程配置示例 0x02 命令实践命令参数简单使用 0x01 基础简介 K9s Kubernetes CLI To Manage Your Clusters In Style 描述
快速排序详解（快速排序双路快排三路快排）

注内容图片来自于慕课网liuyubobobo老师的课程官方代码链接 https github com liuyubobobo Play with Algorithms 快速排序快速排序可以说是20世纪最伟大的算法之一了相信都有所耳
Stm32 一键下载电路详解

文章目录前言一键下载一键下载原理硬件原理图跳帽与启动存储映射串口下载程序由来一键下载流程通过 USB 控制机器复位握手解读前言最近在又要折腾 stm32 了所以翻出了角落里的开发板先复习下怎么一键下载来着一键下
linux中安装mysql时报错解决方案

转载于http www cnblogs com xiaolang8762400 p 6950920 html 找了很久才找到谢谢大神本人需要找的问题主要是安装时出错的解决方法本人的文件版本跟原创的版本有点不一样需要哪个版本自行选择
实战：从Mysql数据库frm文件中，提取表结构创建SQL语句

需求在某些特殊的场景下例如你的mysql数据库无法启动需要你将表的ibd文件拷贝到另一个数据库中恢复业务数据库恢复业务数据的前提是你需要在另一个数据库中创建好一模一样的表结构这时你就需要从Mysql数据库的frm文件中提取
Mysql查询日期timestamp格式的数据

在Navicat中时间戳 timestamp 格式的数据表现为查询某一天的数据 SELECT FROM my table WHERE update time LIKE 2022 10 06 或是 SELECT FROM my table
如何成功开展网络营销?

企业如要将网上营销开展成功则必须注意以下方面 1 准确客观的市场定位网上营销同传统的营销相比其前期工作也包括准确客观的市场定位网上营销与一般营销有较大的区别因此其市场定位也有其独特的特点如何准确客观地进行网上营销的市场定位必
CentOS8更换阿里源及解决yum update报错问题

CentOS更换阿里源 yum makecache提示错误为 repo base 下载元数据失败 Cannot download repomd xml Cannot download repodata repomd xml All mir
GitHub的使用

文章目录一通过实际操作学习Git 1 Git基本操作 2 分支操作 3 更改提交操作 4 推送至远程仓库 5 从远程仓库获取 6 帮助大家深入理解Git资料二工具栏 1 键盘快捷键 2 工具栏 3 控制面板 4 仓库三与GitH
vite插件介绍 - vite-plugin-meta-env

vite插件介绍 vite plugin meta env a vite plugin define dynamic env variables in import meta env npm github 可以基于本仓库去开发自己的vite
微信小程序怎么设置单个页面颜色/顶部栏颜色/tabBar颜色

微信小程序怎么设置单个页面的背景颜色这个其实很简单看看酱茄小编是怎么操作的在对应的json里面写入以下代码即可单页页面的背景颜色设置方法 navigationBarBackgroundColor FFFFFF 小程序tabBar 底
数据清洗---数据整合

数据整合可以使用Pandas库中merge 函数合并数据集 import pandas as pd 建两个数据集 df1 DataFrame lkey b b a c data1 range 4 df2 DataFrame rkey a b
写selenium常用到的js代码

selenium可以运行JavaScript代码可以用一些JavaScript来辅助编写Selelnium代码 1 scrollIntoView 向下拉滚动条使得某元素可见 IWebElement element driver Find
tensorflow NameError: name ‘layers‘ is not defined解决办法

错误代码 import tensorflow as tf net layers Dense 10 net build 4 10 net kernel NameError name layers is not defined 错误原因 ten
如何使用jquery通过id值修改指定的input的value值

如何使用jquery通过id值修改指定的input的value值定义和用法示例代码改变动态id的input值定义和用法 val 方法返回或设置被选元素的值元素的值是通过 value 属性设置的该方法大多用于 input 元素如
ant design pro v5 动态路由

ant design pro v5 动态菜单 1 添加模拟数据 2 添加request请求 3 修改app tsx文件 a 第一步修改getInitialState b 第二步修改layout 4 app tsx 完整代码 5 解决icon
qt : day 3

1 完成登录框的按钮操作并在登录成功后进行界面跳转 pro QT core gui texttospeech greaterThan QT MAJOR VERSION 4 QT widgets CONFIG c 11 The follow
python研究生专业_用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！

写在前面考研在即想多了解考研er的想法就是去找学长学姐或者去网上搜索贴吧就是一个好地方而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息虽然网上有很多爬取百度贴吧的教程和例子但是贴吧规则更新快目的不一样爬取的内

python研究生专业_用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！

python研究生专业_用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！ 的相关文章

随机推荐

热门标签

python研究生专业_用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！的相关文章