Scrapy：为什么提取的字符串是这种格式？

2024-03-22

我正在做

item['desc'] = site.select('a/text()').extract()

但这会像这样打印

[u'\n                    A mano libera\n                  ']

我必须做什么来添加和删除奇怪的字符，例如 [u'\in 、尾随空格和 '] ？

我无法修剪（剥离）

exceptions.AttributeError: 'list' object has no attribute 'strip'

如果转换为字符串然后剥离，结果是上面的字符串，我认为它是 UTF-8

有一个很好的解决方案，使用物品装载机 http://doc.scrapy.org/en/0.16/topics/loaders.html。项目加载器是从响应中获取数据、处理数据并为您构建项目的对象。下面是一个项目加载器的示例，它将剥离字符串并返回与 XPath 匹配的第一个值（如果有）：

from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import MapCompose, TakeFirst

class MyItemLoader(XPathItemLoader):
    default_item_class = MyItem
    default_input_processor = MapCompose(lambda string: string.strip())
    default_output_processor = TakeFirst()

你这样使用它：

def parse(self, response):
    loader = MyItemLoader(response=response)
    loader.add_xpath('desc', 'a/text()')
    return loader.load_item()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

Scrapy：为什么提取的字符串是这种格式？的相关文章

Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

Hibernate二级缓存-打印结果

我使用 Cache 注释在应用程序中定义了二级缓存我正在使用 findById 查询如下所示 long id 4 Company cmp companyDAO findById id 其中 Company 是我从数据库获得的对象如何检
Spring Boot 和 Ehcache - 多 CacheException

我正在尝试向 springboot 应用程序添加缓存但遇到了启动过程中引发 org ehcache jsr107 MultiCacheException 异常的问题我正在使用以下内容全部通过 Maven pom 文件加载 Spring
Python - 什么时候可以使用 os.system() 发出常见的 Linux 命令

从另一个线程中分离出来什么时候适合使用 os system 发出 rm rf cd make xterm ls 等命令考虑到上述命令有模拟版本 make 和 xterm 除外我假设使用这些内置 python 命令而不是使用 os sy
Seaborn：ValueError：调色板='jet'否

从seaborn运行以下示例docs https seaborn pydata org generated seaborn boxplot html有论据palette jet import seaborn as sns tips sns
金字塔资源：简单的英语

我一直在阅读对新创建的金字塔应用程序实施授权和身份验证的方法我不断遇到资源这个概念我在应用程序中使用 python couchdb 根本不使用 RDBMS 因此没有 SQLAlchemy 如果我像这样创建一个 Product 对
为什么说malloc()和printf()是不可重入的？

在 UNIX 系统中我们知道malloc 是不可重入函数系统调用这是为什么相似地 printf 也被认为是不可重入的为什么我知道可重入的定义但我想知道为什么它适用于这些函数是什么阻止了它们保证可重入 malloc and pr
Cassandra 种子节点和连接到节点的客户端

我对 Cassandra 种子节点以及客户端如何连接到集群有点困惑我似乎在文档中找不到这一点信息客户端是否仅包含种子节点列表并且每个节点委托一个新主机供客户端连接种子节点是否真的仅用于节点到节点的发现而不是客户端的特殊节点每个客
如何捕获发送到模拟的参数？

有谁知道如何捕获发送到 OCMock 对象的参数 id mock OCMockObject mockForClass someClass NSObject captureThisArgument mock expect foo
如何从 onBind 函数获取尝试绑定我的服务的应用程序包名称或 UID？

我在一个应用程序中有一个服务我可以从不同的应用程序访问该服务当应用程序尝试绑定此服务时我想知道哪个应用程序正在尝试在 onBind 函数中绑定我的服务但我无法在 onBind 函数中获取该应用程序的包名称或 UID 是否可以获取尝试
使用 MPJ Express 发送对象

我是并行编程的新手我想用 java 来完成它我想知道是否可以通过 MPI 发送和接收更复杂的对象我用的是 MPJ Express 然而每当我想发送一个对象时我都会收到 ClassCastException MPI Init arg
如何使用 vscode:// 链接打开文件

我想像phpstorm一样使用vscode ide链接我知道我们可以phpstorm open file filepath line line 如何使用vscode达到同样的效果多谢这个链接 vscode file file line
SwiftUI 在 NavigationLink 视图中隐藏 TabView 栏

我为每个选项卡项目都有一个 TabView 和单独的 NavigationView 堆栈它工作得很好但是当我打开任何 NavigationLink 时 TabView 栏仍然显示我希望每当我单击任何导航链接时它就会消失 struct
使用 iPhone 将图片发布到 Twitter

我对在 ios4 上使用 Twitter API 完全陌生我正在寻找将 uiimage 发布到用户页面的最简单方法如何 use http dev twitpic com http dev twitpic com 在此处发布您的 http
jQuery 中元素的总宽度（包括内边距和边框）

正如主题所示如何使用 jQuery 获取元素的总宽度包括其边框和填充我已经有了 jQuery 尺寸插件并且正在运行 width on my 760px wide 10px paddingDIV 回报760 也许我做错了什么但如果我
有什么方法可以初始化 unique_ptr 向量吗？

例如 struct A vector
React - 作为 npm 包发布的组件之间的通信和路由

我正在尝试为该项目设置微前端架构该项目包含多个react应用以下是项目结构容器标头 npm 包仪表板 npm 包 app1 npm 包 app2 npm 包 app3 npm 包在这里容器充当其他应用程序的包装器仪表板应用程
带 where 子句的 T-SQL Group by

Masterid CC CLA DES NLCLA NLDES 53006141 CN 0 0 1 1 53006141 US 1 1 1 1 53006141 UK 1 1 0 0 53006142 US 1 1 0 0 53006142
在危险的SetInnerHTML中传递反应组件

服务器返回类似以下内容内容 p Hello world smile strong NICE strong p 这是因为我们支持降价现在我有一个解析器可以解析所有内容 text 变成表情符号我在用emoji mart对于这个这就是内容
自动从外部文件替换表

我正在尝试使用外部 XML 文件替换大型 300 MB XML 文件中的多个表大约有 30 000 个表并且有 23 000 个 XML 文件因为某些表未更改例如如果我有
Scrapy：为什么提取的字符串是这种格式？

我正在做 item desc site select a text extract 但这会像这样打印 u n A mano libera n 我必须做什么来添加和删除奇怪的字符例如 u in 尾随空格和我无法修剪剥离 exceptio

Scrapy：为什么提取的字符串是这种格式？

Scrapy：为什么提取的字符串是这种格式？ 的相关文章

随机推荐

热门标签

Scrapy：为什么提取的字符串是这种格式？的相关文章