我正在做
item['desc'] = site.select('a/text()').extract()
但这会像这样打印
[u'\n A mano libera\n ']
我必须做什么来添加和删除奇怪的字符,例如 [u'\in 、尾随空格和 '] ?
我无法修剪(剥离)
exceptions.AttributeError: 'list' object has no attribute 'strip'
如果转换为字符串然后剥离,结果是上面的字符串,我认为它是 UTF-8
有一个很好的解决方案,使用物品装载机 http://doc.scrapy.org/en/0.16/topics/loaders.html。项目加载器是从响应中获取数据、处理数据并为您构建项目的对象。下面是一个项目加载器的示例,它将剥离字符串并返回与 XPath 匹配的第一个值(如果有):
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import MapCompose, TakeFirst
class MyItemLoader(XPathItemLoader):
default_item_class = MyItem
default_input_processor = MapCompose(lambda string: string.strip())
default_output_processor = TakeFirst()
你这样使用它:
def parse(self, response):
loader = MyItemLoader(response=response)
loader.add_xpath('desc', 'a/text()')
return loader.load_item()
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)