爬取某网站的内容、得不到html页面的内容

2023-10-29

Python爬取

1.爬取内容：对某网站内容与热度进行爬取

分析：我们所需的数据是热搜榜的1—10，第一个数据pass

divs = html.xpath('//div[@class="wbpro-side-card7"]/div[position()>1]')

2.解决没有热力的问题：

别的内容都有热力，但是内容有的热搜内容没有热力，我们取值是会有问题。

解决方法：

if len(hot) == 0: 
        hot = 0
    else:
        hot = hot[0]

3.先解决代码报错：

1.UnicodeDecodeError:'utf-8’e0dec can’t decode byte 0xca in position 339: invalid continuation byte

content = response.content.decode('utf8')

这个问题很明显，就是编码错误，我们添加参数：

content = response.content.decode('utf8','ignore')

2.查看我们的content，发现有乱码：红框

在这里插入图片描述

这是编码问题，我们可以看到蓝框的编码格式为gbk,所以我们解码方式改为gbk即可。

3.虽然解决了乱码问题，但我们发现我们的content内容不是微博的html，这岂不是完完？

在这里插入图片描述
这就得cookie发挥作用了，我们在headers里面把微博的cookie加进去即可。

注意了：把cookie加进去后我们还要看微博html页面的编码方式，记得改，否则又是乱码。

4.完整代码

import requests
from lxml import etree

url = "https://weibo.com/"
headers = {
        "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36",
        "referer":"https://www.baidu.com/",
        "cookie":"XSRF-TOKEN=6RDFJg1UNTj_DEvPoqRTAUG9; login_sid_t=ef0d49f7574fc9751c749ba1de65a0b7; cross_origin_proto=SSL; _s_tentry=weibo.com; Apache=6183611172558.001.1668847725620; SINAGLOBAL=6183611172558.001.1668847725620; ULV=1668847725622:1:1:1:6183611172558.001.1668847725620:; wb_view_log=1707*10671.5; appkey=; WBtopGlobal_register_version=2022111916; SUB=_2A25OfOiaDeRhGeFN6lAV9S_EyjuIHXVtCF1SrDV8PUNbmtANLXLSkW9NQHs9kD7YvLPzwuZfd_ycV5SvA3egivkh; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WW_.LS0eBuoJRgiGqUDM.ax5JpX5o275NHD95QNe02ESh-p1h2NWs4DqcjMi--NiK.Xi-2Ri--ciKnRi-zNS0epeoBfeKnpS7tt; ALF=1669452618; SSOLoginState=1668847818; wvr=6; webim_unReadCount=%7B%22time%22%3A1668849960587%2C%22dm_pub_total%22%3A1%2C%22chat_group_client%22%3A0%2C%22chat_group_notice%22%3A0%2C%22allcountNum%22%3A5%2C%22msgbox%22%3A0%7D; WBPSESS=bSNb1S0dm5_Di4PbdV1iF-fRcZmZMnHImuU-f9Sg5ZfKmlaBX2ffAcb2wpbO6TG5EwxBdK63gFe2sBp1ieb5z9s7XxvQQYRktTJx7xZQTsSPM1jWIqVqNgz9OYf-CPeJYKyJDBzA8pCoJUez48onGA=="
        }
response = requests.get(url,headers = headers)
content = response.content.decode('utf8','ignore')
html = etree.HTML(content)
divs = html.xpath('//div[@class="wbpro-side-card7"]//div[position()>1]')
weibo = []
for div in divs:
    eg={}
    content = div.xpath('./a//div[@title]/text()')[0]
    hot = div.xpath('./a/div/div[3]/text()')
    if len(hot) == 0: 
        hot = 0
    else:
        hot = hot[0]
    print(content,hot)
    eg = {
        "content":content,
        "hot":hot
        }
    weibo.append(eg)

这样我们就爬取到某网站的内容与热度啦！！！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

网络爬虫

python

爬取某网站的内容、得不到html页面的内容的相关文章

如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

Java缓存 @上源码

用途提高响应速度减轻后台处理负担分类 1 前端客户端浏览器缓存 CDN加速代理服务器缓存 nginx 2 后端本地缓存 Guava Cache Ehcache 分布式缓存 Memcache Redis 数据库缓存按照存放介质类
奥的斯服务器故障显示m什么意思,奥迪斯电梯故障代码对照表奥的斯电梯故障解决方法...

刚从事电梯维保行业我们除了培训中系统的学习外实践中总结出来的窍门和技巧同样重要当我们所见的故障案例和维修的电梯比较多的时候经验及自然来了这就是我们经常说熟能生巧下面是diantijob小编整理的关于奥的斯电梯常见的故障代码和故障
h5移动端，通过监听路由回退事件关闭弹窗

最近在做一个商城项目项目设计是在移动端浏览器上使用目前先不内嵌在app内部在做商品详情页的时候也调研了其他的app交互其中有一个交互是在商品详情页点击当前商品包含的服务详情按钮会弹窗点击返回按钮或者手机自带的返回会关闭弹窗
前后端分离--用户注册功能的实现

爱旅行用户注册 Object Obj application getAttribute active itripUser getUserCode 不能 toString 可能obj的值为空就会出现异常 String activeCode
matlab最小分类错误全局二值化算法

转自 http download csdn net detail hupeng810 1511870 function imagBW kittlerMet imag KITTLERMET binarizes a gray scale ima
git clone 遇到问题：fatal: unable to access ‘https://github.comxxxxxxxxxxx‘: Failed to connect to xxxxxxx

git clone 遇到问题 fatal unable to access https github comxxxxxxxxxxx Failed to connect to xxxxxxxxxxxxx
ContOS7镜像下载与安装

contos7的安装文章目录 contos7的安装一镜像下载二安装一镜像下载官网下载链接 http isoredirect centos org centos 7 isos x86 64 阿里云镜像站点 http mirro
Vite跨域设置

Vite跨域设置步骤一 vite config ts配置 proxy 跨域代理 apis target http env VUE APP BASE API target http url port changeOrigin true re
一起学nRF51xx 6 - uart

前言通用异步接收器发送器提供快速全双工内置流量控制的异步串行通信 CTS RTS 在硬件方面支持高达1Mbps波特率支持奇偶校验和第9位数据生成用于每个UART接口线的GPIO可从芯片上的GPIO中任选而且可独立配置这使得芯
CentOS8基础篇3：使用vim编辑文档

一 vim编辑器 vim 编辑器共有三种工作模式分别是命令模式输入模式和末行模式例2 24 使用vim编辑器创建并编辑文件hello c 二查看文件内容命令 1 more less 浏览文件全部内容当文件内容过多时可以用more
2.2析取范式与合取范式

2 2析取范式与合取范式本节给出命题公式的两种规范表示方法这种规范的表达式能表达真值表所能提供的一切信息定义2 2命题变项及其否定统称作文宇仅由有限个文字构成的析取式称作简单析取式仅由有限个文字构成的合取式称作简单合取式 P g p
[正能量系列]失业的程序员(三)

注本文原型为作者的好友们全文不完全代表作者本人的意图本系列前两章失业的程序员一二一这段时间我去参加了一个管理培训班说实话去之前真的很痛苦我一向认为那些都是骗人的玩意儿在qq上找我学姐吐槽说现在的广告真烦搞这么多培训
Qt注册自定义类型

一自定义类型注册必要性如果要在Qt信号槽中使用自定义类型需要注意使用qRegisterMetaType对自定义类型进行注册当然在不跨线程时使用自定义类型signal slot来传递可能不会出现什么问题一旦涉及跨线程就很容易出错
SPSS（基础篇09）--拆分数据文件

拆分数据文件文章目录拆分数据文件前言 1 在原始文件中拆分 1 1 拆分文件比较组 1 2 拆分文件按组来组织输出 1 3 其它用法 2 直接存储为多层拆分结果单独存为文件前言导语拆分文件是一种很常见的操作比如一个数据
关于loss.backward()函数反向传播时叶子节点被释放

之前写代码的时候遇到的一个问题一直没有解决后来稀里糊涂的解决了我也不知道原因这里贴出来希望大家遇到这个问题的时候能有些启发图来自网上搜索由于问题是很久以前的了当时没有保存截图抱歉了这个问题的出现其实可以将 loss ba
spring-aop组件详解——TargetSource目标源

TargetSource 目标源是被代理的target 目标对象实例的来源 TargetSource被用于获取当前MethodInvocation 方法调用所需要的target 目标对象这个target通过反射的方式被调用如 me
[工业互联-19]：如何在QT中增加SOEM主站

目录第1章基本步骤第2章详细步骤 2 1 QT安装 2 2 VS安装 2 3 Win10 Debuggers 2 4 QT配置 2 5 SOEM移植 lib库生成 2 文件移植文件整理第1章基本步骤要在QT中添加SOEM主站
jsp 实现在线人数统计

首先写个类 import javax servlet import javax servlet http public class SessionCounter implements HttpSessionListener private
Xcode7.1环境下上架iOS App到AppStore 流程 (Part 三)

前言部分 part三部分主要讲解 Xcode关联绑定发布证书的配置创建App信息使用Application Loader上传 ipa文件到AppStore 一 Xcode配置发布证书信息 1 给应用绑定App ID并添加Team账号
爬取某网站的内容、得不到html页面的内容

Python爬取 1 爬取内容对某网站内容与热度进行爬取分析我们所需的数据是热搜榜的1 10 第一个数据pass divs html xpath div class wbpro side card7 div position gt 1

爬取某网站的内容、得不到html页面的内容

Python爬取

爬取某网站的内容、得不到html页面的内容 的相关文章

随机推荐

热门标签

爬取某网站的内容、得不到html页面的内容的相关文章