如何从 Scrapy 获取 UTF-8 编码的 unicode 输出？

2023-12-12

耐心听我说。我之所以写下每一个细节，是因为工具链的很多部分都不能很好地处理 Unicode，并且不清楚是什么原因导致的。

PRELUDE

我们首先设置并使用最近的 Scrapy。

source ~/.scrapy_1.1.2/bin/activate

由于终端默认是ascii，而不是unicode，我们设置：

export LC_ALL=en_US.UTF-8
export LANG=en_US.UTF-8

另外，由于默认情况下 Python 使用 ascii，我们修改编码：

export PYTHONIOENCODING="utf_8"

现在我们准备开始一个 Scrapy 项目。

scrapy startproject myproject
cd myproject
scrapy genspider dorf PLACEHOLDER

我们被告知现在有一只蜘蛛。

Created spider 'dorf' using template 'basic' in module:
  myproject.spiders.dorf

我们修改myproject/items.py to be:

# -*- coding: utf-8 -*-
import scrapy

class MyprojectItem(scrapy.Item):
    title = scrapy.Field()

尝试1

现在我们写spider，依靠urllib.unquote

# -*- coding: utf-8 -*-
import scrapy
import urllib
from myproject.items import MyprojectItem

class DorfSpider(scrapy.Spider):
    name = "dorf"
    allowed_domains = [u'http://en.sistercity.info/']
    start_urls = (
        u'http://en.sistercity.info/sister-cities/Düsseldorf.html',
    )

    def parse(self, response):
        item = MyprojectItem()
        item['title'] = urllib.unquote(
            response.xpath('//title').extract_first().encode('ascii')
        ).decode('utf8')
        return item

最后我们使用一个定制项目出口商（从2011年10月开始）

# -*- coding: utf-8 -*-
import json
from scrapy.exporters import BaseItemExporter

class UnicodeJsonLinesItemExporter(BaseItemExporter):

    def __init__(self, file, **kwargs):
        self._configure(kwargs)
        self.file = file
        self.encoder = json.JSONEncoder(ensure_ascii=False, **kwargs)

    def export_item(self, item):
        itemdict = dict(self._get_serialized_fields(item))
        self.file.write(self.encoder.encode(itemdict) + '\n')

and add

FEED_EXPORTERS = {
    'json': 'myproject.exporters.UnicodeJsonLinesItemExporter',
}

to myproject/settings.py.

现在我们运行

~/myproject> scrapy crawl dorf -o dorf.json -t json

we get

UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 25: ordinal not in range(128)

尝试2

另一种解决方案（Scrapy 1.2的候选解决方案？）是使用spider

# -*- coding: utf-8 -*-
import scrapy
from myproject.items import MyprojectItem

class DorfSpider(scrapy.Spider):
    name = "dorf"
    allowed_domains = [u'http://en.sistercity.info/']
    start_urls = (
        u'http://en.sistercity.info/sister-cities/Düsseldorf.html',
    )

    def parse(self, response):
        item = MyprojectItem()
        item['title'] = response.xpath('//title')[0].extract()
        return item

and the 定制项目出口商

# -*- coding: utf-8 -*-
from scrapy.exporters import JsonItemExporter

class Utf8JsonItemExporter(JsonItemExporter):

    def __init__(self, file, **kwargs):
        super(Utf8JsonItemExporter, self).__init__(
            file, ensure_ascii=False, **kwargs)

with

FEED_EXPORTERS = {
    'json': 'myproject.exporters.Utf8JsonItemExporter',
}

in myproject/settings.py.

我们得到以下 JSON 文件。

[
{"title": "<title>Sister cities of D\u00fcsseldorf \u2014 sistercity.info</title>"}
]

Unicode 不是 UTF-8 编码。虽然这对于几个字符来说是一个微不足道的问题，但如果整个输出都是外语，那么它就会成为一个严重的问题。

如何获得 UTF-8 unicode 格式的输出？

在Scrapy 1.2+中有一个FEED_EXPORT_ENCODING选项。什么时候FEED_EXPORT_ENCODING = "utf-8"JSON 输出中非 ASCII 符号的转义已关闭。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy

如何从 Scrapy 获取 UTF-8 编码的 unicode 输出？的相关文章

从 Django 调用 Scrapy Spider

我有一个项目在同一工作区中包含 django 和 scrapy 文件夹 my project django project django project settings py app1 app2 manage py scrapy pro
Scrapy 使用带有规则的 start_requests

我找不到任何使用 start requests 与规则的解决方案我也没有在互联网上看到任何关于这两个的示例我的目的很简单我想重新定义 start request 函数以获得捕获请求期间所有异常的能力并在请求中使用元这是我的蜘蛛的代
Scrapy蜘蛛抓取页面和抓取项目之间的区别

我正在编写一个 Scrapy CrawlSpider 它读取第一页上的 AD 列表获取一些信息例如列表和 AD url 的缩略图然后向每个 AD url 发出请求以获取其详细信息它在测试环境中工作和分页显然很好但今天试图进行完整的
为什么我的 Scrapy 中的输入/输出处理器不工作？

我正在努力追随本教程 http doc scrapy org en 1 1 intro tutorial html 我想要我的desc字段是标准化为单个空格且大写的单个字符串 dmoz spider py import scrapy fro
Scrapy Python Craigslist Scraper

我正在尝试使用 Craigslist 分类广告Scrapy提取待售物品我能够提取日期帖子标题和帖子 URL但提取时遇到问题price 由于某种原因当前代码提取all的价格但是当我删除在价格范围之前查找价格字段返回为空有人可以查看
使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？

我一直在尝试自动登录 stackoverflow 来学习网络抓取首先我尝试了 scrapy 但使用下面的代码我并没有那么幸运 import scrapy from scrapy utils response import open in
Scrapy文件下载如何使用自定义文件名

For my scrapy http doc scrapy org index html我目前正在使用的项目文件管道 https doc scrapy org en latest topics media pipeline html scr
如何基于Scrapy构建一个永远运行的网络爬虫？

我想基于Scrapy构建一个网络爬虫从多个新闻门户网站抓取新闻图片我希望这个爬虫是永远奔跑意味着它将定期重新访问一些门户页面以获取更新安排优先事项为不同类型的 URL 赋予不同的优先级多线程获取我已经阅读了Scrapy文档
Scrapy：在调用之间保存cookie

有没有办法在 scrapy 爬虫的调用之间保留 cookie 目的网站需要登录然后通过 cookie 维持会话我宁愿重复使用会话也不愿每次都重新登录请参阅有关 cookie 的文档常见问题解答入口 http doc scrapy
如何从网站中抓取动态内容？

所以我使用 scrapy 从亚马逊图书部分抓取数据但不知何故我知道它有一些动态数据我想知道如何从网站中提取动态数据到目前为止我已经尝试过以下方法 import scrapy from items import AmazonsItem
Scrapy仅抓取网站的一部分

您好我有以下代码来扫描给定站点中的所有链接 from scrapy item import Field Item from scrapy contrib spiders import CrawlSpider Rule from scrap
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
如何更改 scrapy view 命令使用的浏览器？

如何更改 scrapy shell 中 view response 命令使用的浏览器我的机器上默认使用 safari 但我希望它使用 chrome 因为 chrome 中的开发工具更好 As eLRuLL https stackoverf
如何从当前项目向 scrapyd 添加新服务

我试图同时运行多个蜘蛛并在 scrapy 中制作了自己的自定义命令现在我尝试通过 srapyd 运行该命令我尝试将其作为新服务添加到我的 scrapd conf 中但它抛出一个错误指出没有这样的模块 Failed to load
从 Splash 请求中读取 cookie

我在使用 Splash 发出请求后尝试访问 cookie 以下是我构建请求的方式 script function main splash splash init cookies splash args cookies assert spla
Scrapy 在抓取一长串 url 时陷入困境

我正在抓取一个大的 url 列表 1000 左右并且在设定的时间后爬虫程序会以 0 页分钟的速度爬行爬行时问题总是出现在同一个位置 url 列表是从 MySQL 数据库检索的我对 python 和 scrapy 相当陌生所以我不
Scrapy - 持续从数据库中获取要爬取的url

我想不断地从数据库中获取要爬行的网址到目前为止我成功地从基地获取了 url 但我希望我的蜘蛛继续从该基地读取因为该表将由另一个线程填充我有一个管道一旦爬行工作就会从表中删除 url 换句话说我想使用我的数据库作为队列我尝试
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
Python Scrapy：“runspider”和“crawl”命令有什么区别？

有人可以解释一下两者之间的区别吗运行蜘蛛 and crawl命令应该在什么情况下使用它们在命令中 scrapy crawl options

随机推荐

Bash Shell：无法使用变量 $ 作为运行 tar 的路径

这是一个非常简短的问题但是放置变量是否存在语法错误 example作为 bash 文件中 tar 的参数我将文件写为 only portion that really matters bin bash tar cvpzf filenam
ItemCommand 在 Repeater 或 GridView 中第一次单击时不会触发

这两天已经让我发疯了希望有人以前见过这个我遇到这样的问题第一次单击中继器或网格视图中的控件无法触发 ItemCommand 事件但所有后续单击都有效控件被加载到 Base aspx 上的占位符中如下所示 private void
Cordova Web视图在android中清除缓存

我正在尝试清除存储在使用 cordova webview 的 android 应用程序中的缓存我尝试过cordovaWebView clearCache true 还尝试过 public void deleteCache Context
uintptr_t 数据类型是什么？

What is uintptr t它可以用来做什么首先在提出问题时 uintptr t不是用C 写的它在 C99 中在
如何在 Android 中将颜色 LUT 应用于位图图像以获得滤镜效果？

这里我有一个关于 android 中的 LUT 的问题我的问题是我有 4X4 LUT 使用这些 LUT 对 Android 中的位图图像应用滤镜效果下面是我的示例 LUT 文件链接 Lut 链接示例在安卓上可以实现吗如果可以的话请
如何在 Eclipse Juno/Kepler/Luna CDT 中启用 C++11？

编辑事实证明这确实不是 Eclipse Kepler 特有的我必须对 Eclipse Juno 使用相同的过程问题是在回答同一问题的其他帖子中似乎缺少步骤我正在使用 Eclipse Kepler for C 并尝试使用 C 11
在 Linux 中混合使用 32 位和 64 位库 (gcc)

我有一个为 Linux 使用 gcc 构建的 32 位纯二进制 C so 由供应商提供我需要链接到 64 位 C C 应用程序我正在开发有什么方法可以从我的应用程序访问这个库吗我知道需要小心处理 so 内部函数的参数和指针而且我知
如何将向量转换为Json对象？ C++

我有一个 RoomData 对象向量这是该对象 typedef struct RoomData unsigned int id std string name std string maxPlayers unsigned int ques
setTimeout 循环。如何获得正确的订单

我试图在循环中调用一个函数以实现不同的超时或延迟 for var i 0 i lt 10 i callDelayedFunction i function callDelayedFunction i setTimeout function
将多个对象从 Angular 控制器发布到 Web API 2

我能够从我的角度控制器发送一个原始 json 对象该对象在我的 web api 方法中反序列化为已知类型这很棒但我现在需要能够在同一请求中发送其他参数这些参数可以是 json 对象或简单类型如 string 或 int 我看过类似
同一域上的 CloudFront 静态网站和 EC2 API

我的静态网站托管在 CloudFront 上有没有办法让我使用相同的域名但不同的端口来调用 EC2 实例的 API Eg example com 3000应重定向到 EC2 实例而example com aka example com
通过隔行扫描加载图像 - 从低分辨率到全分辨率 - HTML

我正在创建一个使用图像作为背景的网站我讨厌从上到下加载图像因为它只会使页面在加载时看起来很糟糕我见过一些网站加载非常低分辨率的图像然后逐渐提升到全分辨率照片我希望我的网站也能这样做但我不知道如何实现这是否需要多个图像文件和更多
从麦克风获取音频并将其写入 iOS 上的套接字

这就是我想做的从麦克风获取音频采用 AAC G 711 或 G 726 编码将编码帧写入套接字我找到了很多例子但它们都写入文件您能否将我链接到任何具有输出缓冲区或回调的教程文档示例库我通过修改 Apple 的 Speak
什么是 JAXB？为什么要使用它？ [关闭]

Closed 这个问题是基于意见的目前不接受答案这里有人发誓 JAXB 是自切片面包以来最伟大的东西我很好奇 Stack Overflow 用户认为 JAXB 的用例是什么以及是什么使它成为该用例的好或坏解决方案我是用于操作 XM
JavaFX 和 Spring Boot - NPE

我仍在与我的问题作斗争我想使用 Spring Framework 来注入依赖项并且必须使用 Spring boot 来集成两者不幸的是在第一个视图中自动装配运行正确但如果我进入下一个阶段我仍然只能Null Pointer Ex
是否可以检查对象是否已附加到实体框架中的数据上下文？

当尝试附加已附加到给定上下文的对象时我收到以下错误context AttachTo ObjectStateManager 中已存在具有相同键的对象 ObjectStateManager 无法跟踪具有相同键的多个对象有没有一种方法可以实现
Xcode 4.4.1：git 不再显示修改

不幸的是突然间我无法确定 Xcode 停止显示 git 信息的发生时刻也无法从 Xcode 内部通过 git 提交恢复等如果我检查组织者的存储库我的项目仍会列出其上次提交使用命令行 git status 我可以看到所有未暂存
PHP 中的 Session 和 Cookie 有什么区别？

两者有什么区别Sessions and Cookies in PHP Cookie 是浏览器存储的一点数据并随每个请求发送到服务器会话是存储在服务器上并与给定用户关联的数据集合通常通过包含 ID 代码的 cookie
谷歌+登录，安卓登录时反复出现唱机提示

我是安卓开发新手我正在将 google plus 登录集成到我的应用程序中我有点困惑谷歌的歌唱提示重复出现我不明白为什么我有什么问题吗我正在关注谷歌开发者网站做这个东西我使用多个谷歌帐户测试了该应用程序但其中 2 个工作正常
如何从 Scrapy 获取 UTF-8 编码的 unicode 输出？

耐心听我说我之所以写下每一个细节是因为工具链的很多部分都不能很好地处理 Unicode 并且不清楚是什么原因导致的 PRELUDE 我们首先设置并使用最近的 Scrapy source scrapy 1 1 2 bin activate

如何从 Scrapy 获取 UTF-8 编码的 unicode 输出？

如何从 Scrapy 获取 UTF-8 编码的 unicode 输出？ 的相关文章

随机推荐

热门标签

如何从 Scrapy 获取 UTF-8 编码的 unicode 输出？的相关文章