知乎爬虫经验教程

2023-10-27

为了完成课程论文研究，暑假写了关于知乎的爬虫，把用户主页/回答中能爬到的数据全都爬下来了。接下来，把我踩过的坑跟大家分享，希望大家少走一些弯路！

1.导入一些必要的python包，其中会包括我们接下来要使用的函数；

import re
import urllib3
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.support.ui import WebDriverWait
import time
import sys
import pymysql 
#与数据库连接相关的模块
import random
#便于随机选择头部
import string
#修改数据类型时，对字符串的处理
import sqlite3
#写入csv操作
import csv

2.读取每个用户的url，便于之后直接登陆用户的个人主页，对其页面进行解析

db1 = pymysql.connect("。。。","。。。","。。。","。。。" )
cursor = db1.cursor()
sql_0="SELECT id from user"
cursor.execute(sql_0)
result_id = cursor.fetchall() #获取已经爬取的user_id存放在result_id中
result=list(result_id)
db1.close

3.新建csv文件，便于存储爬取、解析下来的数据。在这里也可以直接写入数据库中，但是为了后期数据处理、分析的方便，我们直接存储在了csv文件中

with open("文件路径","w") as csvfile:
writer = csv.writer(csvfile)
# 写入表头
writer.writerow([你的字段值])
csvfile.close()

4.到目前为止，我们已经建立好了存储文件，并且也有了用户个人主页的url，接下来就需要遍历每个用户的主页，爬取网页信息并进行解析了。这是一个机械重复的工作，因此我们选择了for循环。

5.对每个用户进行分析的过程：

首先是将个人网页信息爬取下来，

    http = urllib3.PoolManager()
    time.sleep(1)
    response = http.request('GET',urls,cl_header)
    content = BeautifulSoup(response.data)

再对爬取下来的信息进行解析，这里最关键的就是要找准你需要信息的网页标签、网页元素名称。

        # 获取用户的基本信息：用户名、性别
        user_info_sex = -1    #初始化
        user_info_name = ''   # 初始化
        user_info_name =  content.find('span','ProfileHeader-name').get_text()    # 用户名
        
        # 用户的性别是用一个标签判定的，这个标签可能出现也可能不出现
        a = content.find_all('div','ProfileHeader-iconWrapper')
        if len(a) == 0:
            user_info_sex = -1
        elif a[len(a)-1].svg['class'][1] == 'Icon--male':
            user_info_sex = 1 #男性
        elif a[len(a)-1].svg['class'][1] == 'Icon--female':
            user_info_sex = 0 #女性
        else:
            user_info_sex = -1
        
        #静态页面抓取 - 用户知识共享行为数据
        user_info_answer = int(comb.join(list(filter(str.isdigit,content.find_all('span','Tabs-meta')[0].get_text()))))       #回答数
        user_info_ask = int(comb.join(list(filter(str.isdigit,content.find_all('span','Tabs-meta')[1].get_text()))))         #提问数
        user_info_article = int(comb.join(list(filter(str.isdigit,content.find_all('span','Tabs-meta')[2].get_text()))))      #文章数
        user_info_column = int(comb.join(list(filter(str.isdigit,content.find_all('span','Tabs-meta')[3].get_text()))))       #专栏数
        user_info_pins = int(comb.join(list(filter(str.isdigit,content.find_all('span','Tabs-meta')[4].get_text()))))        #想法数
        #静态页面抓取_3 - 平台对用户的粘性、社会资本等
        user_info_followee = int(comb.join(list(filter(str.isdigit,content.find_all('strong','NumberBoard-itemValue')[0].get_text()))))   #关注其他用户数
        user_info_follower = int(comb.join(list(filter(str.isdigit,content.find_all('strong','NumberBoard-itemValue')[1].get_text()))))  #粉丝数
        #用户赞助live，及举办的live、关注问题数
        #for j in range(0,len(content.find_all('span','Profile-lightItemName'))):
        # user_info_attention = content.find_all('a','Profile-lightItem')[j].get_text()
        #关注类别

最后写入到数据库中，这里我们还是写入到csv存储文件中

with open("存储文件路径及文件名","a+",newline='') as csvfile:
            writer = csv.writer(csvfile)
            # 写入数据
            writer.writerow([你要写入的字段值])
            csvfile.close()

以上就是获取用户基本信息的爬虫教程，我们再来进一步总结：

首先需要导入一些包、模块，里面会有我们爬取网页、解析网页内容需要的函数；

然后创建好数据库、存储文件，便于将数据直接写入；

前期工作准备好之后，再利用for循环对每个用户进行数据获取：先登录网页，再获取页面信息，然后从中根据页面元素解析出你需要的信息，并写入到数据库、存储文件中。

这就是网络爬取用户信息的全部步骤了。欢迎指正。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

python

知乎爬虫经验教程的相关文章

Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce

随机推荐

解决运行flutter doctor --android-licenses时报错

问题描述配置flutter环境时会使用flutter doctor命令来检查运行flutter的相关依赖是否配好能看到还差 Android license status unknown 未解决 C Users ipkiss wu gt
5 个最令人兴奋的 ES13 功能

ES13 ECMAScript 2022 已经发布很久了并且更新了许多有用的功能在这篇文章中我想与大家分享 5 种我最喜欢的技术这些技术是我已经开始在工作中实施的 1 顶级await await 是我最喜欢的功能因为它使我的代码显
python调用m文件

系统环境 windows 64bit matlab 2018b 64bit python3 6 前提 windows下需要有matlab软件和python python调用m文件需要安装matlab engine 注意matlab版本与py
类模板下运算符重载的两种用法

1 template
java编写定时器，定时执行某个方法

第一步编写测试类该类extends TimerTask 重新run 方法 run方法里面就是你要执行的逻辑代码示例如下 import java text SimpleDateFormat import java util Date i
Python如何调用js函数？

Python如何调用SDK的js函数一概述二环境准备三调用方法步骤四 Demo演示基础版五常见问题六深入了解待更新七参考资料一概述测试web前端前端SDK web渗透流程等时难免会需要调用前端js里面
【Linux】浏览器写代码！部署code-server远程vscode网页

部署code server远程vscode网页在浏览器上写代码参考文档 https developer aliyun com article 876967 slide 7 本文首发于慕雪的寒舍 1 什么是code server 注意
奔跑吧恐龙----基于JavaSwing的一个跑酷游戏

1 游戏功能随机出现障碍物人物可以通过向上跳进行避免游戏结束后出现分数对难度进行一定的控制当分数 gt 1000时难度升级当分数 gt 4000时难度再进行升级并存在音乐播放功能 2 具体实现 2 1 model 1 Din
C++基于TCP/IP简单的客户端、服务器通信程序实例

本篇文章实现了一个基于TCP 的一个非常简单的客户服务器通信程序实例该程序中通讯协议使用的是面向连接的TCP协议SOCK STREAM 服务器的ip地址为本地地址即 127 0 0 1 端口号为自定义的5099 大于1024即可服务端
springBoot入门(快速搭建一个springBoot项目)

目录一 SpringBoot介绍 1 定义 2 springBoot简化的配置 3 应用打包二 springBoot项目搭建 1 新建一个spring initializr项目 2 点击下一步 3 之后一个springBoot项目就构建
好用的插件分享

检查无用代码 Android studio gt 设置 gt Plugins gt 搜索PMD 安装QAPlug PMD 安装完成后重启Android studio
STM32--舵机（SG90）

文章目录一介绍二工作原理三舵机的控制四设计流程五代码实现六舵机工程代码七备注舵机一介绍舵机是一种位置角度伺服的驱动器适用于那些需要角度不断变化并可以保持的控制系统目前在高档遥控玩具如航模包括飞
GitHub下载速度慢？找“马云”啊，干货帖

大名鼎鼎的GitHub大家想必都知道毕竟我这个无所事事的小白都知道用多了GitHub的人应该对下面这种情况非常熟悉当然有的时候是不会下载失败的还是会有个10k 8k的注意我这里说的可不是工资但是对于一个突然醒悟要好好学习的程序
Python编码问题总结

问题一当python中间处理非ASCII编码时经常会出现如下错误 UnicodeDecodeError ascii codec can t decode byte 0x in position 1 ordinal not in rang
js对象方法Object.assign( )详解

1 基本用法 Object assign方法用于对象的合并将源对象 source 的所有可枚举属性复制到目标对象 target var target a 1 var source1 b 2 var source2 c 3 Object
neo4j--Cypher查询调优与执行计划

1 查询调优 1 1查询如何执行 Cypher执行引擎会将每个Cypher查询都转为一个执行计划在执行查询时执行计划将告知Neo4j执行什么样的操作 1 2查询性能分析查看执行计划对查询进行分析时有两个Cypher语句可用 1 2 1
关系型数据库和非关系型数据库类比

1 关系型数据库关系型数据库是指采用了关系模型来组织数据的数据库关系模型是在1970年由IBM的研究员E F Codd博士首先提出的在之后的几十年中关系模型的概念得到了充分的发展并逐渐成为主流数据库结构的主流模型简单来说关系模
win10 WMDC安装

解决方案 WMDC in Windows 10 junipersys com 参考连接 Previous WMDC fixes for Windows 10 junipersys com amd64 https junipersys com
linux中把程序启到前台,Linux程序前台后台切换

1 在Linux终端运行命令的时候在命令末尾加上符号就可以让程序在后台运行 root Ubuntu tcpserv01 2 如果程序正在前台运行可以使用 Ctrl z 选项把程序暂停然后用 bg number 命令把这个程序放到后
知乎爬虫经验教程

为了完成课程论文研究暑假写了关于知乎的爬虫把用户主页回答中能爬到的数据全都爬下来了接下来把我踩过的坑跟大家分享希望大家少走一些弯路 1 导入一些必要的python包其中会包括我们接下来要使用的函数 import re impo

知乎爬虫经验教程

知乎爬虫经验教程 的相关文章

随机推荐

热门标签

知乎爬虫经验教程的相关文章