Scrapy 是否可以从原始 HTML 数据中获取纯文本？

2024-04-09

例如：

scrapy shell http://scrapy.org/
content = hxs.select('//*[@id="content"]').extract()[0]
print content

然后，我得到以下原始 HTML 代码：

<div id="content">


  <h2>Welcome to Scrapy</h2>

  <h3>What is Scrapy?</h3>

  <p>Scrapy is a fast high-level screen scraping and web crawling
    framework, used to crawl websites and extract structured data from their
    pages. It can be used for a wide range of purposes, from data mining to
    monitoring and automated testing.</p>

  <h3>Features</h3>

  <dl>

    <dt>Simple</dt>
    <dt>
    </dt>
    <dd>Scrapy was designed with simplicity in mind, by providing the features
      you need without getting in your way
    </dd>

    <dt>Productive</dt>
    <dd>Just write the rules to extract the data from web pages and let Scrapy
      crawl the entire web site for you
    </dd>

    <dt>Fast</dt>
    <dd>Scrapy is used in production crawlers to completely scrape more than
      500 retailer sites daily, all in one server
    </dd>

    <dt>Extensible</dt>
    <dd>Scrapy was designed with extensibility in mind and so it provides
      several mechanisms to plug new code without having to touch the framework
      core

    </dd>
    <dt>Portable, open-source, 100% Python</dt>
    <dd>Scrapy is completely written in Python and runs on Linux, Windows, Mac and BSD</dd>

    <dt>Batteries included</dt>
    <dd>Scrapy comes with lots of functionality built in. Check <a
        href="http://doc.scrapy.org/en/latest/intro/overview.html#what-else">this
      section</a> of the documentation for a list of them.
    </dd>

    <dt>Well-documented &amp; well-tested</dt>
    <dd>Scrapy is <a href="/doc/">extensively documented</a> and has an comprehensive test suite
      with <a href="http://static.scrapy.org/coverage-report/">very good code
        coverage</a></dd>

    <dt><a href="/community">Healthy community</a></dt>
    <dd>
      1,500 watchers, 350 forks on Github (<a href="https://github.com/scrapy/scrapy">link</a>)<br>
      700 followers on Twitter (<a href="http://twitter.com/ScrapyProject">link</a>)<br>
      850 questions on StackOverflow (<a href="http://stackoverflow.com/tags/scrapy/info">link</a>)<br>
      200 messages per month on mailing list (<a
        href="https://groups.google.com/forum/?fromgroups#!aboutgroup/scrapy-users">link</a>)<br>
      40-50 users always connected to IRC channel (<a href="http://webchat.freenode.net/?channels=scrapy">link</a>)
    </dd>

    <dt><a href="/support">Commercial support</a></dt>
    <dd>A few companies provide Scrapy consulting and support</dd>

    <p>Still not sure if Scrapy is what you're looking for?. Check out <a
        href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a
      glance</a>.

    </p>
    <h3>Companies using Scrapy</h3>

    <p>Scrapy is being used in large production environments, to crawl
      thousands of sites daily. Here is a list of <a href="/companies/">Companies
        using Scrapy</a>.</p>

    <h3>Where to start?</h3>

    <p>Start by reading <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a glance</a>,
      then <a href="/download/">download Scrapy</a> and follow the <a
          href="http://doc.scrapy.org/en/latest/intro/tutorial.html">Tutorial</a>.


    </p></dl>
</div>

但我想得到纯文本直接来自 scrapy。

我不想使用任何 xPath 选择器来提取p, h2, h3...标签，因为我正在抓取一个网站，其主要内容嵌入到table, tbody;递归地。查找 xPath 可能是一项乏味的任务。

这可以通过Scrapy中的内置函数来实现吗？或者我需要外部工具来转换它吗？我已经阅读了 Scrapy 的所有文档，但一无所获。

这是一个可以将原始 HTML 转换为纯文本的示例站点：http://beaker.mailchimp.com/html-to-text http://beaker.mailchimp.com/html-to-text

Scrapy 没有内置这样的功能。html2text https://github.com/aaronsw/html2text就是您正在寻找的。

这是一个会刮擦的蜘蛛样本维基百科的 python 页面 http://en.wikipedia.org/wiki/Python_%28programming_language%29，使用 xpath 获取第一段并使用将 html 转换为纯文本html2text:

from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider
import html2text


class WikiSpider(BaseSpider):
    name = "wiki_spider"
    allowed_domains = ["www.wikipedia.org"]
    start_urls = ["http://en.wikipedia.org/wiki/Python_(programming_language)"]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sample = hxs.select("//div[@id='mw-content-text']/p[1]").extract()[0]

        converter = html2text.HTML2Text()
        converter.ignore_links = True
        print(converter.handle(sample)) #Python 3 print syntax

prints:

**Python** 是一种广泛使用的通用高级编程语言。[11][12][13]其设计理念强调代码可读性，其语法允许程序员用以下方式表达概念与诸如此类的语言相比，代码行数更少 C.[14][15]该语言提供了旨在实现清晰的结构小型和大型项目。[16]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy 是否可以从原始 HTML 数据中获取纯文本？的相关文章

Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
jquery从变量中删除html元素

我将 html 保存在变量中 var itinerary events today html 我有很多 html 和一个按钮我想删除它的 ID 为 myButton 如何从变量中保存的 html 中删除它我建议这种方法 var itin
表单计算器脚本基本价格未加载 OnLoad

我的表单中有一个计算器来计算我的下拉选项选择 function select calculate on change calc input type checkbox calculate on click calc function cal
HTML 中部分着色的阿拉伯语单词

我不会说阿拉伯语但我需要我们网站上对阿拉伯语的具体支持我需要将部分阿拉伯语单词放在 span 与单词其他部分的风格不同当我输入两个字符时 and 它们被组合成word 但是当我使用 HTML 标记时 span span 这些字母在输出
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
为什么我不能在 AngularJS 中使用 data-* 作为指令的属性名称？

On the t他的笨蛋 http plnkr co edit l3KoY3 p preview您可以注意到属性名称模式的奇怪行为data 在指令中电话 Test of data named attribute br
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
为什么 jquery 没有检测到单选按钮未被选中的情况？ [复制]

这个问题在这里已经有答案了可能的重复 JQuery radioButton change 在取消选择期间不会触发 https stackoverflow com questions 5176803 jquery radiobutton c
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
FireFox 中的“contenteditable = true”高度问题

当有空的时候div with contenteditable true CSS contenteditable true border 1px dashed dedede padding 3px HTML div div 在 IE 和 Ch

随机推荐

尝试使用 uint*& 作为 const 单元*& 失败：从类型“uint8_t*”的表达式对类型“const uint8_t*&”的引用进行无效初始化

以下代码无法为我编译 gcc 4 6 3 Ubuntu 12 04 include
计算不同的子文档字段并输出为命名键

在 MongoDB 中如果我有一个如下所示的集合 auctionId 22 startDt 2017 08 28T06 00 00 000Z endDt 2017 09 04T06 00 00 000Z status Open picku
Robolectric+Eclipse 找不到资源？

我刚刚为我的 Android 应用程序配置了一个测试项目以使用 Robolectric 我跟着Eclipse 快速入门 http pivotal github com robolectric eclipse quick start html
检查一个数据框列中的值是否存在于第二个数据框中

我有两个数据框 A 和 B 都有一个列 C 我想检查数据框 A 中 C 列中的值是否存在于数据框 B 中 A data frame C c 1 2 3 4 B data frame C c 1 3 4 7 Use in 如下 A C in
向零舍入到最接近的 0x50 的简短按位方法？

我正在尝试修补一个旧的 8 位汇编程序例程它恰好是 M6800 但这并不是真正特定于机器的以获取 16 位值并向下舍入到最接近的 0x50 dec 80 倍数当前代码截断为最接近的32只需做一件事AND 0xE0到低字节这当然会将低
如何在没有副本的情况下向后流式传输集合？

我想知道如何向后流式传输集合无副本在法罗吱吱声中例如要流式传输 1 2 3 so stream next回报3 then 2 then 1 我知道我可以使用collection reversed readStream but reve
oracle 9i 中还有其他 wm_concat 命令吗？

我有一个包含部门 ID 员工姓名和加入日期的表我想要获取在给定日期加入给定部门的所有员工的列表 wm concat不管用根据this http www oracle base com articles misc string aggre
如何使用个人访问令牌从 CircleCI 构建将提交推送到 Github

执行 git 存储库构建时giantswarm docs content在 CircleCI 中我想将提交推送到另一个存储库giantswarm docs 我有这个在deployment的部分circle yml git config c
如何让 jenkins-cli.jar 使用我的 ssh 代理/钥匙串？

我正在使用 jenkins 服务器中的 jenkins cli jar 文件每次运行时它都会提示我输入 ssh 密钥密码我希望它使用我的 ssh 钥匙串这样我就不必在每次调用时输入它如果重要的话我在 OSX 上使用默认的钥匙串设置
不再有离线语音识别了吗？

今天我注意到离线语音识别不再起作用了它之前有效因为我能够将它用于我的应用程序并且我完全确定我处于离线状态并且当时一切正常我今天想测试我的应用程序但无论我说得多大声它都无法理解我所说的内容然后我打开了无线网络它工作得很好我
在 Windows 窗体上显示 HTML 内容的最佳方式是什么？

我想在我的应用程序中显示 HTML 格式的内容最好是在 Web 浏览器控件内我可以先创建一个 HTML 文档然后将其加载到 Web 浏览器控件中但这太笨拙了有什么方法可以将包含 HTML 代码的字符串直接加载到 Web 浏览器中吗
带有图像背景的 SVG 三角形分隔符

好吧我正在尝试创建一个 SVG 部分分隔符它的工作原理是这样的 section section
Clojure 调用一系列函数并存储它们的返回值

我正在构建一个数据模式并且在我的脚下有以下内容clj定义和处理模式和初始数据的文件每次调用下面调用的函数d transact defn recreate database To recreate db after running del
我可以拥有多个 Spring Cloud 配置服务器吗？

我知道我可以使用 1 个以上的存储库来跨多个存储库可能针对每个应用程序分发我的配置但是我可以为这些存储库运行 1 个以上的配置服务器吗这样我们就可以避免配置服务器出现单点故障如果我们可以运行多个配置服务器我如何从访问任何一
如何在Golang中创建kafka消费者组？

可用的库是sarama https github com Shopify sarama 或其扩展萨拉玛簇 https github com bsm sarama cluster 但是没有提供消费者组示例不在sarama https god
提交具有自定义功能的加载项

In this doc https learn microsoft com en us office dev add ins excel custom functions overview 其中提到开发者预览版尚不支持以下功能将加载项发
virtualenv 激活不起作用

我正在尝试创建一个虚拟环境来测试 api 我可以使用以下方式创建环境virtualenv test 然后我可以 cd 进入它当我尝试跑步时activate 我收到此错误 PS C Users Bright Bridge Desktop a
Log4j TimeBased 触发策略中 modulate = 'true' 表示什么

在下面的示例中每天都会创建一个日志文件考虑到这个例子您能否提供一个场景来展示 modulate true 的用法并将间隔设置为 1
VC/C++ 裸属性有什么作用？

来自msdn http msdn microsoft com en us library h5w10wxs aspx 对于用裸函数声明的函数属性编译器生成代码没有序言和结尾代码你可以使用这个功能来编写自己的 prolog epil
Scrapy 是否可以从原始 HTML 数据中获取纯文本？

例如 scrapy shell http scrapy org content hxs select id content extract 0 print content 然后我得到以下原始 HTML 代码 div h2 Welcome

Scrapy 是否可以从原始 HTML 数据中获取纯文本？

Scrapy 是否可以从原始 HTML 数据中获取纯文本？ 的相关文章

随机推荐

热门标签

Scrapy 是否可以从原始 HTML 数据中获取纯文本？的相关文章