获取标签内部全部文本的几种方式

2023-11-06

运用scrapy框架爬取所需要的内容。

我在百度贴吧中找了一篇小说，我来只爬取楼主的文本信息。下面为初始代码。

import scrapy
import re

class XiaoshuoSpider(scrapy.Spider):
    name = 'xiaoshuo'
    allowed_domains = ['tieba.baidu.com']
    start_urls = ['https://tieba.baidu.com/p/4685013359']

    def parse(self, response):

以下几种操作方式需与初始代码相连接获取文本。

1.获取最外面的标签，遍历内部所有的子标签，获取标签文本。代码如下：

# 首先我们先获取包裹所有内容的标签，在此基础上进行操作
info = response.xpath('//div[@class="l_post l_post_bright j_l_post clearfix  "]')
        for x in info :
            louzhu = x.xpath('.//div[@class="louzhubiaoshi_wrap"]').extract()
            # print(louzhu)
            if len(louzhu) != 0 :
                content = x.xpath('.//div[@class="p_content  "]/cc/div/text()').extract()
                for z in content:
                    with open('xiaoshuo.txt', 'a', encoding='utf-8') as f:
                        f.write(z)
                        f.write('\n')

2.运用正则正则去掉所用的标签，代码如下：

  content_list = x.xpath('.//div[@class="p_content  "]/cc/div/text()').extract()
                # print(content_list)
                remove = re.compile(r'<.*?>', re.S)
                kongge = re.compile('\s')
                content = ''
                f = open('xiaoshuo.txt','a',encoding='utf-8')
                for x in content_list :
                    x = re.sub(remove,'',x)
                    x = re.sub(kongge,'',x)
                    content += x
                # print(content)
                f.write(content)
                f.write('\n')

3.运用//text()获取标签以及字标签的文本，再进行拼接。

content_list = x.xpath('.//div[@class="p_content  "]//text()').extract()
                # print(content_list)
                remove = re.compile('\s')
                douhao = re.compile(',')
                content = ''
                f = open('xiaoshuo.txt','a',encoding='utf-8')
                for x in content_list :
                    x = re.sub(remove,'',x)
                    x = re.sub(douhao,'',x)
                    content += x
                f.write(content)
                f.write('\n')

4.使用xpath('string(.)') 这种方式来获取所有的文本并且拼接

 content_list = x.xpath('.//div[@class="p_content  "]').xpath('string(.)').extract()
                # print(content_list)
                f = open('xiaoshuo.txt','a',encoding='utf-8')
                remove = re.compile('\s')
                for x in content_list :
                    x = re.sub(remove,'',x)
                    f.write(x)
                    f.write('\n')

这四种方法获取的文本信息均为以下表现形式

今后会有更多简单而且好用的方法，及时向大家分享。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

获取标签内部全部文本的几种方式的相关文章

用于将 cython 中的许多 C++ 类包装到单个共享对象的项目结构

我在文档邮件列表和这个问题在这里 https stackoverflow com questions 10300660 cython and distutils 但我想得到一个更直接的答案来解决我的具体情况我正在通过尝试一点一点地包装我
使用 psycopg2 在 python 中执行查询时出现“编程错误：语法错误位于或附近”

我正在运行 Python v 2 7 和 psycopg2 v 2 5 我有一个 postgresql 数据库函数它将 SQL 查询作为文本字段返回我使用以下代码来调用该函数并从文本字段中提取查询 cur2 execute SELECT
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
IO 密集型任务中的 Python 多线程

建议仅在 IO 密集型任务中使用 Python 多线程因为 Python 有一个全局解释器锁 GIL 只允许一个线程持有 Python 解释器的控制权然而多线程对于 IO 密集型操作有意义吗 https stackoverflow c
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

解决Mybatis-plus高版本不向后兼容的问题

mybatis plus插件后面的版本没有兼容低版本即不存在低版本中EntityWrapper这个类了而该类采用数据库表真实字段名作查询条件这样硬编码形式确实不友好比如如果后面数据库表中字段更名那么所有涉及到的业务都需要去修改且
2021年五一建模B赛题+思路

背景随着我国经济的高速发展城市空间环境复杂性急剧上升各种事故灾害频发安全风险不断增大消防救援队承担的任务也呈现多样化复杂化的趋势对于每一起出警事件消防救援队都会对其进行详细的记录某地有15个区域分别用A B C 表示各
ElasticSearch常用配置（内置账号密码修改、自定义角色自定义账号，日志定期删除等)...

自定义内置账号账户elastic为elasticsearch超级管理员拥有所有权限账户kibana用于kibana组件获取相关信息用于web展示账户logstash system用于logstash服务获取elasticsearch
EasyAR脱卡方法

首先说下大致思路当卡片离开摄像头时间 ImageTarget Image的SetActive false 所以其子物体 model 也就不显示了因此解决的办法就是在Target false 时间将模型放到一个合适的位置这样就能实现脱卡
Fabric配置fabric-sample工程目录，并生成证书

GitHub上的fabric sample工程默认只有源码缺少CA工具和加密工具它需要从其他地方下载CA工具和加密工具这里以fabric v1 4 0为例进行说明步骤如下 1 下载fabric sample v1 4 0源码官网
ABA问题

这篇文章 http oceanbase org cn p 82 的第6小节讲述了Hazard Version的实现原理它的设计思想最早由OB团队的席华锋提出本文不再赘述本文主要分享Hazard Version的实现要点以及使用它实现
【Hashmap】底层原理详解（JAVA 18）

让我们在IDEA中打开HashMap源码开始往下看 HashMap 继承自AbstractMap 实现了Map接口 HashMap类中定义了很多的默认值比如默认初始容量最大容量加载因子等 HashMap底层基于数组链表红黑树 H
【C++拷贝构造函数、深拷贝和浅拷贝】

C 拷贝构造函数深拷贝和浅拷贝的介绍与应用 1 引言在C 中拷贝构造函数和拷贝操作是用于创建对象的副本的重要概念拷贝构造函数用于在创建新对象时初始化其值而拷贝操作用于将一个对象的值复制到另一个对象深拷贝和浅拷贝是两种不同的拷贝方
针对Anaconda-navigator和spyder打不开的问题

胡乱安装pyqt和qtpy等会导致qt的依赖混乱以致于ananconda navigator和spyder会有打不开的情况发生解决的办法有 1 常规套路参考 https www cnblogs com zlslch p 8066662
EyygDlHuwc

test
oracle 联机文档下载

http www oracle com technetwork indexes downloads index html database setup2
dll破解

1 安装Reflector 并用打开需要破解的Dll 分析并找到需要调整的程序段 2 采用ildasm exe 将 dll 编译为 IL文件 3 采用UltraEdit NotePad 打开IL文件找到对应的IL 代码并将其修改 4
Spring前后端传递参数的几种方法（转）

Spring前后端传递参数的几种方法转原文链接一准备工作 1 建立HelloController类 2 在webapp下建一个hello html文件 hello html文件中写一个表单二传值方法 1 使用servlet 通过
MongoDB:常用命令

1 查询指定字段 db matrixSignals find id 607d9de3d95bfe9620234f2f 2 清空 db myCollection remove
Caused by: com...MySQLNonTransientConnectionException: Public Key Retrieval is not allowed 的解决办法

问题概述关于这个是在新开子工程中遇到的本工程使用的Mysql 8 x的拉取项目启动时遇见问题 com mysql jdbc exceptions jdbc4 MySQLNonTransientConnectionException P
MEMS麦克风已成消费市场的主流产品选择

ECM和MEMS麦克风的技术差异随着麦克风应用的增加对麦克风的灵敏度和体积的要求也越来越高目前用来构建麦克风的两种最常见的技术是MEMS和驻极体电容以下将先介绍MEMS和驻极体电容麦克风 ECM 的基础知识比较技术之间的差异并概
图像变换与平面坐标系的关系

转载自 1 http blog csdn net tangyongkang 2 https zhuanlan zhihu com p 74597564 坐标旋转变换公式围绕原点如图在二维坐标上有一点直线的长度为r 直线和轴的
如何把GITLAB设置为简体中文

如何把GITLAB设置为简体中文直接步入正题如图所示登录git首页是这样咱们需要点击个人头像下的preference 将跳转网页拉取到最下面会有language一栏将English改为简体中文然后保存设置即可
华为OD机试真题- 最多提取子串数目【2023Q1】【JAVA、Python、C++】

题目描述给定由 a z 26个英文小写字母组成的字符串A和B 其中A中可能存在重复字母 B中不会存在重复字母现从字符串A中按规则挑选一些字母可以组成字符串B 挑选规则如下 1 同一个位置的字母只能被挑选一次 2 被挑选字母的相对先后顺
获取标签内部全部文本的几种方式

运用scrapy框架爬取所需要的内容我在百度贴吧中找了一篇小说我来只爬取楼主的文本信息下面为初始代码 import scrapy import re class XiaoshuoSpider scrapy Spider name xi

获取标签内部全部文本的几种方式

获取标签内部全部文本的几种方式 的相关文章

随机推荐

热门标签

获取标签内部全部文本的几种方式的相关文章