抓取时如何避免连接节点中的所有文本

2024-03-14

当我从 HTML 或 XML 中抓取多个相关节点来提取文本时，所有文本都会连接成一个长字符串，从而无法恢复单个文本字符串。

例如：

require 'nokogiri'

doc = Nokogiri::HTML(<<EOT)
<html>
  <body>
    <p>foo</p>
    <p>bar</p>
    <p>baz</p>
  </body>
</html>
EOT

doc.search('p').text # => "foobarbaz"

但我想要的是：

["foo", "bar", "baz"]

抓取 XML 时也会发生同样的情况：

doc = Nokogiri::XML(<<EOT)
<root>
  <block>
    <entries>foo</entries>
    <entries>bar</entries>
    <entries>baz</entries>
  </block>
</root>
EOT

doc.search('entries').text # => "foobarbaz"

为什么会发生这种情况以及如何避免这种情况？

这是一个很容易解决的问题，是由于没有阅读有关如何解决的文档而导致的text用于 NodeSet 与 Node（或 Element）时的行为。

The 节点集文档 http://www.rubydoc.info/github/sparklemotion/nokogiri/Nokogiri/XML/NodeSet:text says text will:

获取所有包含的 Node 对象的内部文本

这就是我们所看到的情况：

doc = Nokogiri::HTML(<<EOT)
<html>
  <body>
    <p>foo</p>
    <p>bar</p>
    <p>baz</p>
  </body>
</html>
EOT

doc.search('p').text # => "foobarbaz"

because:

doc.search('p').class # => Nokogiri::XML::NodeSet

相反，我们想要获取每个节点并提取其文本：

doc.search('p').first.class # => Nokogiri::XML::Element
doc.search('p').first.text # => "foo"

可以使用以下方法完成map:

doc.search('p').map { |node| node.text } # => ["foo", "bar", "baz"]

Ruby 允许我们使用以下方式更简洁地编写：

doc.search('p').map(&:text) # => ["foo", "bar", "baz"]

无论我们使用 HTML 还是 XML，同样的事情都适用，因为 HTML 是 XML 的更轻松的版本。

节点有几个别名方法来获取其嵌入的文本。从文档 http://www.rubydoc.info/github/sparklemotion/nokogiri/Nokogiri/XML/Node#content-instance_method:

#content ⇒ Object

也称为：text, inner_text

返回此节点的内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html

ruby

xml

Parsing

nokogiri

抓取时如何避免连接节点中的所有文本的相关文章

从顶部开始在同一水平线上显示同一行中的两个 div

这是我的代码 floating box display inline block width 150px margin 10px border 3px solid 73AD21 after box border 3px solid red
使用其innerHTML查找元素

请看一下这个 DOM 树 div div span Home1 span div span Home2 span span Home3 span div 现在假设我有一个场景我以某种方式获得了第一个跨度的innerHTMLHome1 是否
如何解析无效（错误/格式不正确）的 XML？

目前我正在开发一项功能该功能涉及解析从其他产品收到的 XML 我决定针对一些实际的客户数据运行一些测试看起来其他产品允许用户输入应被视为无效的输入无论如何我仍然必须尝试找出解析它的方法我们正在使用javax xml parser
古老的“字幕”标签的替代品？

marquee 标签的标准等效项是什么我正在寻找 HTML C asp NET 或 ASPX jquery java 脚本的解决方案 marquee 标签未包含在标准中因为它是视觉标签而不是语义标签因此您想要的任何语言都没
未排序模式的 boost::Spirit 语法

我有一个需要解析的模型模式的一部分可以说它看起来像下面这样 type Standard hostname x y z port 123 属性是元素可能看起来无序属于架构一部分的所有元素都必须出现而不是其他元素所有元素的综合属性都进
Android 子菜单布局

我读到 Android 中的子菜单不支持图标我想知道这是否已经改变或者是否有类似的方法来生成支持图标的子菜单 Currently This is My Submenu 这是它的 XML 文件 menu menu
如何编写一个在安装 RubyGem 时调用的钩子？

我想编写一个 Ruby 片段当我的 Gem 首次安装时运行 sudo gem install mygem 能做到吗看起来并没有真正支持我发现了一个 post install message 属性您应该能够在 gem 规范中设置该属性
在 Android 上禁用标注（上下文菜单）

在网络应用程序中我需要禁用移动浏览器在触摸并按住长按触摸目标例如 img 或链接我已经在使用了 webkit touch callout none 它在 iPhone 和 iPad 上运行良好但似乎不适用于 Android 在
Ruby mp3 Id3 解析

目前我正在从事一个音乐项目处理用户 mp3 上传问题是我找不到适用于所有文件的 id3 库我努力了id3 ruby and Mp3Info库但它们都没有给我一致正确的结果例如最常见的问题错误的流参数比特率和采样率有时是持续
jQuery mobile 中的文本区域高度和宽度？

我修复了 jQuery mobile 中文本区域元素的高度并且在纵向中得到了完美的高度和宽度但在横向中宽度没有放大谁能帮我提前致谢 HTML
什么是 - 获取的是一个目录 - 错误消息

我收到这个奇怪的错误 Users gideon Documents ca ruby rubytactoe lib player rb 13 in gets Is a directory spec Errno EISDIR 玩家规格 rb r
html 电子邮件内的背景图像 css - Gmail 不支持

我想向我的用户发送如下所示的带有背景图像 css 的 html 正文电子邮件 div style width 500px height 1000px background color black background image none
为什么 rand() 总是返回相同的数字？

我在用兰特 200 在我的 Rails 应用程序中当我在控制台中运行它时它总是返回随机数但如果我在应用程序行中使用它 index rand 200 索引总是相同的号码为什么会这样以及如何克服这个问题简单的伪随机数生成器实际上生成
文件存在时，FileMode.Open 和 FileMode.OpenOrCreate 有何区别？ c# 错误？

我已经写了该代码 public void Save using FileStream fs new FileStream Properties Settings Default settings file path FileMode Ope
Ruby 的字符串并置功能的官方文档在哪里？

我最近意识到如果你并置一系列 Ruby 字符串文字例如 a b c 它相当于这些字符串文字的串联但是我在任何地方都找不到这种语言功能的记录我使用术语并置和串联进行搜索但只在几个 StackOverflow 响应中找到了对
删除 IE9 边缘周围的 2px 灰色边框

我正在尝试对这个网站进行编码尝试关键字并且我正在尝试找出如何删除这个阴影2px灰色边框延伸到 IE9 窗口的内部至少顶部左侧和底部我的边距设置为零因此所有页面元素都到达页面的最边缘但使用 IE9 它们会停在这个灰色边框处我没
按钮 - 单击时更改背景颜色

我的活动中有 8 个按钮我正在寻找的是按钮具有默认背景单击按钮时背景颜色应更改为其他颜色这部分非常简单但是当我单击任何其他按钮时第一个按钮的背景颜色应该变回默认颜色我知道这将使用选择器状态来完成但我不太确定如何实现它
AWK：递归下降 CSV 解析器

响应一个BASH 中的递归下降 CSV 解析器 https codereview stackexchange com questions 11727 need some advice or help with translation and
Antlr 解析器运算符优先级

考虑以下语法我对运算符优先级有疑问例如 res 2 a b有一个类似的解析树res 2 a b 我知道问题出在哪里但我没有想到没有相互左递归的漂亮解决方案你能帮我一点忙吗该语法与自定义访问者一起使用 grammar Math
禁用允许文本选择的？

残疾人可以吗

随机推荐

ggplot2 +facet_：某些方面的反转轴？

我想将三个子图组合成一个图而分面将是一种自然的方法然而使用反转的 x 轴这些子图之一会更容易更自然地阅读而我想不理会其他子图有没有办法使用facet grid 或facet wrap 来完成此任务我考虑过的另一种选择是 gr
如何在flutter webview中打开应用程序链接？

在 Flutter 中我使用 flutter网页视图插件 https pub dartlang org packages flutter webview plugin启动一个 url 例如 flutterWebviewPlugin lau
Sizzle 和 document.querySelectorAll 有什么区别

据我所知嘶嘶声和querySelector querySelectorAll是 CSS 选择器那么加载 Sizzle 和执行以下操作有什么区别 Sizzle my CSS query and document querySelecto
我如何在 Capybara 中测试页面是否*未*重新加载（JavaScript onClick 拦截已起作用）？

我用的是水豚黄瓜和恶作剧我正在测试附加到表单提交按钮的 JavaScript 函数该函数旨在捕获提交事件并阻止它在后台执行 AJAX 请求使用和不使用 AJAX 页面最终看起来都是一样的但 AJAX 方法要快得多并且不会中断浏
开始一项新活动

我正在使用 Xamarin 我想启动一个名为 AutoLinkActivity 的新活动这是我的代码 using System using Android App using Android Content using Android R
Java 示例代码示例 youtube data api v3 和授权方法作为 api 密钥

我是 google api 的新手为 YouTube 频道创建项目我已经为该项目创建了 api 并生成了 api 密钥在项目上启用 Youtube api 我到处都能获得 OAUTH 授权的代码示例但无法找到任何用于使用 api K
平衡设计原则：单元测试

我正在编写 Bananagrams 的模拟目前我有一个GameMaster维护公共片段集合的类这deal Player 方法向该玩家分发一定数量的棋子我想为此编写单元测试然而此时我没有吸气剂因此无法检查对象的状态为什么不添加
“lxd”与 lxc/docker 有何不同？

问题 lxd 如何在容器内提供完整的操作系统功能而不仅仅是单个进程它与 lxc docker 包装器有什么不同是不是类似于用docker supervisor wrapper脚本启动一个容器在一个容器中包含多个进程换句话说我可以
使用加密密码连接到 gmail（使用 imap 和 javamail）

我正在尝试使用一个简单的java程序连接到gmail 像这个 https harikrishnan83 wordpress com 2009 01 24 access gmail with imap using java mail api
如何使用带有角度的离子框架制作apk文件

我在本地目录中创建了简单的应用程序该应用程序名称是 Ionic Chat master 我怎样才能把它变成apk文件我已经使用 git 尝试了以下命令但对我不起作用 npm install g cordova cordova buil
为什么 C# 构造函数行为与 Java 不同，反之亦然？

给定这个 Java 代码输出0 and 4 class A A print void print System out println A class B extends A int i Math round 3 5f public st
为什么只有一个核心承担全部负载，如何让其他29个核心承担负载？

我正在尝试将 Spark 处理的数据推送到 C 的 3 节点集群我正在向 Cassandra 推送 2 亿条记录但它失败了错误如下下面是我的 Spark 集群配置 Nodes 12 vCores Total 112 Total me
如何使用 CSS 或 JS 使图像变暗而不影响透明度？

到处建议的调暗图像的正常方法是更改其不透明度属性并在其下方显示黑色的东西但是我的图像具有透明度并且位于白色背景上所以我想将背景保持在图像白色的透明部分下只使有颜色的像素变暗这可以在 CSS 最好或 JS 中完成吗编辑示例图
在单元测试期间我应该模拟哪些功能

我一直在阅读 Stack Overflow 上的一些文章和帖子了解何时应该模拟函数何时不应该模拟函数但我遇到了一个情况我不确定该怎么做我有一个 UserService 类它使用依赖项注入概念通过其构造函数接收依赖项 class
我应该使用 ScriptSharp

我正在开发我的第一个 ASP NET MVC 应用程序我相信 Script 可以帮助我很多但它找不到支持我发展所需的资源我找不到 Codeplex 网站只有一本手册很好但还不够我能找到的教程很少我知道 Script 用于开发
移动设备上的自动对焦文本字段，但没有键盘？

作为我的登录和注册表单的一部分如果出现错误它将自动聚焦相关字段其实事情并不像我想象的那么简单让我尝试解释一下基本上在这个项目中页面是通过 AJAX 加载的表格可能包括autofocus属性这很好用但在移动设备上它只显示
禁止直接访问图像

我正在制作一个小家庭相册打算稍后向其他人开放以存储图像我将图像上传到 images 然后调整它们大小 3 次普通视图缩略图和小版本并将它们移动到 images thumbs images normal images tiny 然后
mysql 加载数据内文件更新

我目前正在使用 mySQL LOAD DATA INFILE 将 csv 文件插入到我的数据库中该 csv 文件每天都会下载到服务器以保持产品数据最新我想知道的是如何使用新的 csv 更新表并保留没有不同的现有数据这是我目前的声明
scala 中的插入排序实现

我正在尝试 Scala 我想看看如何在 scala 中实现插入排序并满足以下要求嵌套 for 循环输入数组 Int 如果可能的话通过引用方式修改函数内容的方法否则返回 Array Int 如果这不是实现插入排序的 Scala 方法
抓取时如何避免连接节点中的所有文本

当我从 HTML 或 XML 中抓取多个相关节点来提取文本时所有文本都会连接成一个长字符串从而无法恢复单个文本字符串例如 require nokogiri doc Nokogiri HTML lt

抓取时如何避免连接节点中的所有文本

抓取时如何避免连接节点中的所有文本 的相关文章

随机推荐

热门标签

抓取时如何避免连接节点中的所有文本的相关文章