如何以正确的格式将抓取的数据导出到 csv 文件？

2023-12-11

I made an improvement to my code according to this suggestion from @paultrmbrth. what i need is to scrape data from pages that are similar to this and this one and i want the csv output to be like the picture below.

But my code's csv output is little messy, like this:

我有两个问题，csv 输出是否可以像第一张图片一样？我的第二个问题是，我也希望删除电影标题，请给我一个提示或提供给我一个代码，我可以用它来删除电影标题和内容。

UPDATE
这个问题已经被Tarun Lalwani完美解决了。但现在，csv 文件的标头仅包含第一个抓取的 url 类别。例如当我尝试刮擦时这个网页其中有References, Referenced in, Features, Featured in and Spoofed in类别和这个网页其中有Follows, Followed by, Edited from, Edited into, Spin-off, References, Referenced in, Features, Featured in, Spoofs and Spoofed in类别，那么 csv 输出文件标题将仅包含第一个网页的类别，即References, Referenced in, Features, Featured in and Spoofed in所以第二个网页中的一些类别，例如Follows, Followed by, Edited from, Edited into and Spoofs不会出现在输出 csv 文件标题上，其内容也是如此。
这是我使用的代码：

import scrapy


class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ["imdb.com"]
    start_urls = (
        'http://www.imdb.com/title/tt0093777/trivia?tab=mc&ref_=tt_trv_cnn',
        'http://www.imdb.com/title/tt0096874/trivia?tab=mc&ref_=tt_trv_cnn',
    )

    def parse(self, response):
        item = {}
        for cnt, h4 in enumerate(response.css('div.list > h4.li_group'), start=1):
            item['Title'] = response.css("h3[itemprop='name'] a::text").extract_first()
            key = h4.xpath('normalize-space()').get().strip()
            if key in ['Follows', 'Followed by', 'Edited into', 'Spun-off from', 'Spin-off', 'Referenced in',
                       'Featured in', 'Spoofed in', 'References', 'Spoofs', 'Version of', 'Remade as', 'Edited from',
                       'Features']:
                values = h4.xpath('following-sibling::div[count(preceding-sibling::h4)=$cnt]', cnt=cnt).xpath(
                    'string(.//a)').getall(),
                item[key] = values
        yield item

这是exporters.py file:

try:
    from itertools import zip_longest as zip_longest
except:
    from itertools import izip_longest as zip_longest
from scrapy.exporters import CsvItemExporter
from scrapy.conf import settings


class NewLineRowCsvItemExporter(CsvItemExporter):

    def __init__(self, file, include_headers_line=True, join_multivalued=',', **kwargs):
        super(NewLineRowCsvItemExporter, self).__init__(file, include_headers_line, join_multivalued, **kwargs)

    def export_item(self, item):
        if self._headers_not_written:
            self._headers_not_written = False
            self._write_headers_and_set_fields_to_export(item)

        fields = self._get_serialized_fields(item, default_value='',
                                             include_empty=True)
        values = list(self._build_row(x for _, x in fields))

        values = [
            (val[0] if len(val) == 1 and type(val[0]) in (list, tuple) else val)
            if type(val) in (list, tuple)
            else (val, )
            for val in values]

        multi_row = zip_longest(*values, fillvalue='')

        for row in multi_row:
            self.csv_writer.writerow([unicode(s).encode("utf-8") for s in row])

我想要实现的是我希望所有这些类别都位于 csv 输出标题上。

'Follows', 'Followed by', 'Edited into', 'Spun-off from', 'Spin-off', 'Referenced in',
'Featured in', 'Spoofed in', 'References', 'Spoofs', 'Version of', 'Remade as', 'Edited from', 'Features'

任何帮助，将不胜感激。

您可以使用下面的方法提取标题

item = {}
item['Title'] = response.css("h3[itemprop='name'] a::text").extract_first()

对于 CSV 部分，您需要创建一个 FeedExports，它可以将每一行拆分为多行

from itertools import zip_longest
from scrapy.contrib.exporter import CsvItemExporter


class NewLineRowCsvItemExporter(CsvItemExporter):

    def __init__(self, file, include_headers_line=True, join_multivalued=',', **kwargs):
        super(NewLineRowCsvItemExporter, self).__init__(file, include_headers_line, join_multivalued, **kwargs)

    def export_item(self, item):
        if self._headers_not_written:
            self._headers_not_written = False
            self._write_headers_and_set_fields_to_export(item)

        fields = self._get_serialized_fields(item, default_value='',
                                             include_empty=True)
        values = list(self._build_row(x for _, x in fields))

        values = [
            (val[0] if len(val) == 1 and type(val[0]) in (list, tuple) else val)
            if type(val) in (list, tuple)
            else (val, )
            for val in values]

        multi_row = zip_longest(*values, fillvalue='')

        for row in multi_row:
            self.csv_writer.writerow(row)

然后您需要在设置中分配 feed 导出器

FEED_EXPORTERS = {
    'csv': '<yourproject>.exporters.NewLineRowCsvItemExporter',
}

假设您将代码放入exporters.py文件。输出将如所期望的

Edit-1

要设置字段及其顺序，您需要定义FEED_EXPORT_FIELDS在你的settings.py

FEED_EXPORT_FIELDS = ['Title', 'Follows', 'Followed by', 'Edited into', 'Spun-off from', 'Spin-off', 'Referenced in',
                       'Featured in', 'Spoofed in', 'References', 'Spoofs', 'Version of', 'Remade as', 'Edited from',
                       'Features']

https://doc.scrapy.org/en/latest/topics/feed-exports.html#std:setting-FEED_EXPORT_FIELDS

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何以正确的格式将抓取的数据导出到 csv 文件？的相关文章

Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c
XSLT 将动态 XML 转换为 CSV 并且 XML 节点不完全重复 II

我正在尝试创建 XSLT 将 XML 转换为 CSV 这里放置了我的 XML 和预期输出任何人都知道如何获得以下输出请优先分享我我的 XML 是

随机推荐

如何使用 JQuery 在输入类型文件中验证文件扩展名？

HTML
对子集使用表可获取整个 DF 而不是子集的频率

我正在使用子集从列值集中提取我有一个包含几列的 DF 其中一列是状态我需要获取状态的频率但只是针对某些状态集所以我有这个 tmp lt subset DF DF STATE in SOMESTATES a lt as data fr
C# 从网络服务下载文件

我有一个网络服务比如这个例子用于从服务器下载 zip 文件当我通过网络浏览器打开 URL 时我可以正确下载 zip 文件问题是当我尝试通过桌面应用程序下载 zip 文件时我使用以下代码进行下载 WebClient webClien
_mm_extract_epi8(...) 采用非文字整数作为参数的内在函数

我最近一直在使用 SSE 内在函数int mm extract epi8 m128i src const int ndx 根据参考文献从按索引选择的打包整数数组元素中提取整数字节这正是我想要的但是我通过以下方式确定索引 mm cmp
在 Isabelle 等中定义不同类型的不相交并集

我问了一系列问题直到我可以在 Isabelle 中定义以下简单模型但我仍然坚持得到我想要的东西我尝试用一个例子来非常简短地描述这个问题 Example 假设我有两节课Person and Car Person owns汽车还有dri
单个组件中的多个 Redux 状态 - Typescript、React、Redux

在身份验证期间我返回一些需要在整个用户生命周期中携带到其他组件中的内部 ID 这些值保存在authentication状态所有其他相关组件逻辑都保存在resources state 当我在组件中以多个状态运行时身份验证状态似乎会以某种
LINQ 中的Where 子句调用异步方法

我在一个类中有一个方法定义为 public static async Task
如何创建异步缓存 http 客户端？

使用org apache httpcomponents httpasyncclient cache 4 1 3图书馆我正在尝试弄清楚如何创建一个asynchronous cachinghttp 客户端我可以使用各自的构建器单独创建每个
如何使用 Flexbox 将第二个子项包裹在第一个子项周围

我们尝试使用 Flexbox 获得以下结果但似乎无法让右侧的线绕回Mr Bond 期望的输出 flex parent display flex flex direction row align items stretch flex chi
LinqToSQL - 不支持 SQL 转换

今天早上我一直在困惑 LinqToSQL 的一个问题我将尝试用下面的简短示例进行总结来解释我的观点我有数据库两个表 table Parent ParentId table Child ChildId ParentId FK Name A
Ionic 自定义模态动画

Ionic modal 带有标准动画slide in up 我们是否可以将动画更改为fade in 为了添加 Ionic Modal 的自定义过渡我们将使用 Ionic Modal 选项enterAnimation and leaveAn
Tcl 相当于 UNIX“cp -pL”命令

UNIX cp pL 命令的 Tcl 等效项是什么我找不到它文件命令描述对于单个文件 a 获取文件的真实路径 b 复制它 c 设置属性修改时间和访问时间不幸的是似乎没有任何方法可以设置更改时间 Windows 上的创建时间 set
Django：将实例保存到外键字段时出现 ValueError

我正在尝试保存模型的实例但收到 ValueError ValueError Cannot assign
反应-为什么只有我的第一组选定的行在移走之前变成灰色（其余的在单击“应用”按钮后就消失了）？

当我点击下面的按钮时Show列例如Potato Soup它以灰色选择所有行当我单击Apply按钮然后该行被隐藏好吧这就是我想要的但是当我尝试用同样的技巧做之后Pea Soup 该行不会变成灰色而是直接隐藏但我希望灰线也出现在
Dateformatter 从字符串获取日期

我的绳子是这样的2012 12 08 17 00 00 0 现在我尝试使用 NSDate 格式化程序从此字符串中检索日期我的代码是 NSDateFormatter df NSDateFormatter alloc init df setD
“javac”不被识别为内部或外部命令

我必须将 Matlab 算法转换为 Java 为此我使用 matlab builder ja 工具箱在执行所有必要的步骤后构建失败并显示此错误 javac 不被识别为内部或外部命令可操作程序或批处理文件错误调用 javac 时发
编写一个满足以下测试的函数 f

我有一个问题一直困扰着我需要帮助解决下面是一个需要解决的测试我已经成功地整合了一个解决方案该解决方案适用于 85 的覆盖范围但它是我坚持的最后 15 describe f function it should work funct
如何在每次迭代时仅从一个类中对批次进行采样

我想在一个 ImageNet 数据集每个类有 1000 个类每个类大约有 1300 张图像上训练一个分类器由于某种原因我需要每个批次包含来自同一类别的 64 个图像以及来自不同类别的连续批次使用最新的 TensorFlow 是
为什么 Angular 2+ innerHTML 在一条语句中多次调用方法，如何解决这个问题

我有这样的模板视图 p p 并且 ts 文件就像 import Component from angular core Component selector my app templateUrl app component html sty
如何以正确的格式将抓取的数据导出到 csv 文件？

I made an improvement to my code according to this suggestion from paultrmbrth what i need is to scrape data from pages

如何以正确的格式将抓取的数据导出到 csv 文件？

如何以正确的格式将抓取的数据导出到 csv 文件？ 的相关文章

随机推荐

热门标签

如何以正确的格式将抓取的数据导出到 csv 文件？的相关文章