XPath 获取两个标题之间的标记

2023-12-11

我正在尝试编写一个小应用程序来从维基百科页面中提取内容。当我第一次想到是否可以时，我认为我可以只使用 XPath 来定位包含内容的 div，但在研究了 Wikipedia 如何构建他们的文章后，我很快发现这并不是那么容易。当我获取页面时分离内容的最佳方法是选择两组之间的内容h2 tags.

例子：<h2>Title</h2> <div>Some Content</div> <h2>Title</h2>

在这里我想得到div标题集之间。我尝试用 XPath 来做这件事，但一点运气都没有。我将更多地研究 XPath，因为我认为这是我需要用来实现我想要的东西，但在我深入研究它之前，我想听听你们对此的看法。 XPath 是正确的方法还是有其他更简单的选择？如果这有什么区别的话，我用 C# 编写应用程序。

是的，您使用 XPath 的方向是正确的——它非常适合选择 XML 文档的某些部分。

例如，对于此 XML，

<r>
   <h2>Title A</h2>
   <div>Some Content</div>
   <div>More Content</div>
   <h2>Title B</h2>
</r>

这个 XPath，

//div[preceding-sibling::h2 = 'Title A' and following-sibling::h2 = 'Title B']

将选择此内容，

<div>Some Content</div>
<div>More Content</div>

两者之间h2标题，按要求。

更新以解决OP的自我回答：

对于这个新的 XML 示例，

<div>
    <h2><span>Summary</span></h2>
    <p>Paragraph</p>
    <ul>
        <li>List1</li>
        <li>List2</li>
        <li>List3</li>
    </ul>
    <p>Paragraph</p>

    <h2><span>Location</span></h2>
    <p>Paragraph</p>
</div>

我上面提供的 XPath 可以很容易地进行调整，

//*[preceding-sibling::h2 = 'Summary' and following-sibling::h2 = 'Location']

选择此 XML，

<p>Paragraph</p>  
<ul>
   <li>List1</li>
   <li>List2</li>
   <li>List3</li>
</ul>    
<p>Paragraph</p>

按照要求。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

XPath 获取两个标题之间的标记的相关文章

如何在表格的 tbody/thead 部分周围创建边框？

我正在尝试创建一个包含表格数据的页面该页面必须显示为多个表格然而我有两个相互冲突的要求需要解决每个表格周围都必须有边框每个表格的列宽必须能够根据内容重新调整大小但是所有表中的列宽必须一致即列的大小基于所有表中该列中最大的单元
水平平滑滚动 100px

Heyjo problem 一周以来我一直在寻找 javascript 或 jQuery 代码以便在我的网站上实现滚动按钮我失败的那一刻是按钮应该多次工作的时候他的任务不是滚动到专用元素而是应该向左滚动例如 100px 此外滚动
自定义 WP 主题时，我应该将导航栏放在“”标签之前还是之后？

我正在通过制作子主题来自定义 WP 主题我将 Bootstrap 中的导航栏放入子主题目录中的 header php 文件中但是我不确定在哪里放置导航栏代码我可以把它都放在前面and之后标记成功例如无论我选择哪一个导航栏都显示
通过 XSL 查看 XML 到 XHTML 转换中的源代码

我正在尝试使用 XSL 文件将 XML 文件转换为 XHTML 文件如何查看转换后输出的XHTML源代码我目前正在通过 Firefox 查看结果但我看到的只是 XHTML 文件的渲染版本我想查看源代码但是当我转到查看 gt 页面
将 div 文本分配给变量然后显示它

我有一个简单的任务我试图完成学习 JavaScript 但一直无法找到明确的答案这是代码 div Testing div 基本上我希望将方框 div 中的文本存储到变量中然后我想在页面的不同部分显示该变量的文本使用上面的代码我得到
从顶部开始在同一水平线上显示同一行中的两个 div

这是我的代码 floating box display inline block width 150px margin 10px border 3px solid 73AD21 after box border 3px solid red
在以下情况下强制 EditText 失去焦点：按下某些键盘按键以及当用户单击活动中的其他内容时

我知道这个问题之前已经以多种不同的方式提出过但即使我已经查看了许多有关 EditText 焦点的其他相关问题我还没有找到我的解决方案这是我想要实现的目标当用户完成编辑 EditText 后我希望它失去焦点当用户点击 EditT
每 2 行后使 html 表格的边框变厚

我创建了一个包含一些内容的表其中有 12 行和 2 列我想显示边框但每 4 行之后我想将水平边框设置为比正常情况更粗怎么做请在这里帮忙试试这个选择器 table tr nth of type 4n td border bott
Android 子菜单布局

我读到 Android 中的子菜单不支持图标我想知道这是否已经改变或者是否有类似的方法来生成支持图标的子菜单 Currently This is My Submenu 这是它的 XML 文件 menu menu
使用本地存储在从另一个表保存的 HTML TABLE 中打印 JSON，以便我在另一个页面上打印我的表

在我的作业中我必须使用用户输入中的数据并将数据保存在本地存储中我必须以水平表格式将这些数据从本地存储打印到其他页面为此我编写了用于用户输入并将数据保存在本地存储中的代码 div p p div
如何强制 Eclipse 将 xml 布局和样式显示为文本？

我最近升级到带有 ADT 20 0 3 的 Eclipse 4 2 Juno 如果我查看旧项目中的布局或样式 Eclipse 只会向我显示其适当的基于控件的编辑器我想编辑语法突出显示的 xml 文本我没有找到将插件的编辑器切换到此模式的
防止垃圾邮件按钮呼叫功能

如何防止调用函数时出现垃圾邮件按钮就像用户只能在按钮上每 1 秒调用一次该函数有办法做到吗因为我尝试了 setTimeout 但没有成功它仍然在发送垃圾邮件顺便说一句我使用 Jquery 这是我的代码
如何将 XML 文档嵌入到 XHTML 文档中？

例如我如何嵌入
按下回车键时不刷新页面

我遇到了一些问题只要表单中有输入回车键就会触发页面刷新下面的代码如果按下回车并且文本区域 input 中没有输入任何文本则不会刷新页面但是如果按下回车并且 input中有输入或者光标位于文本区域我不确定是什么触发了它因为 s
删除 IE9 边缘周围的 2px 灰色边框

我正在尝试对这个网站进行编码尝试关键字并且我正在尝试找出如何删除这个阴影2px灰色边框延伸到 IE9 窗口的内部至少顶部左侧和底部我的边距设置为零因此所有页面元素都到达页面的最边缘但使用 IE9 它们会停在这个灰色边框处我没
当responseText包含有效的Xml时，IXMLHttpRequest.responseXml为空，没有解析错误

我正在从中获取一些 XML政府网站 http www bankofcanada ca stats assets rates rss noon en all xml http www bankofcanada ca stats assets
如何使用角度材料在具有可扩展行的表格中创建嵌套垫表

我有以下数据 id c9d5ab1a subdomain wing domain aircraft part id c9d5ab1a info mimetype application json info dependent parent
按钮 - 单击时更改背景颜色

我的活动中有 8 个按钮我正在寻找的是按钮具有默认背景单击按钮时背景颜色应更改为其他颜色这部分非常简单但是当我单击任何其他按钮时第一个按钮的背景颜色应该变回默认颜色我知道这将使用选择器状态来完成但我不太确定如何实现它
XSD 嵌套元素
如何使用 XPath 正则表达式匹配 URL

需要 XPath 方面的帮助我有这样一个XML

随机推荐

MySQL 5.6 中 json_extract 不可用时，如何从 JSON 字段中进行选择？

如果我的行有一个varchar具有以下值 1 2 3 如果我需要该值包含其中一个数字 2 或 3 我该如何选择整行正如你所说你使用的是 MySQL 5 6 所以JSON EXTRACT 功能不可用我推荐的唯一选择是升级到 MySQL
如何查看包含 git 暂存更改的文件

git diff staged 允许您查看 HEAD 和暂存更改之间的更改如果我要提交暂存的更改如何查看 HEAD 中存在的完整文件如何查看其中的特定行子集您可以使用以下命令查看文件的暂存版本 git cat file p FILE
当我重写 equals() 方法时，为什么要重写 hashCode() ？

好的我从很多地方和来源听说每当我重写 equals 方法时我也需要重写 hashCode 方法但考虑下面的代码 package test public class MyCustomObject int intVal1 int int
如何在 matplotlib pandas 中将两个文件的两个条形图合并到一个图表中

我有两个具有相同列但内容不同的数据框我已经策划了dffinal data frame 现在我想绘制另一个数据框dffinal no在同一张图上进行比较例如其中的一个条形图blue colour 以及具有另一种颜色的相同条形图differ
Viewpager、光标和片段

我是 viewpager 的新手想知道是否有人可以向我指出使用带有片段和数据库的 viewpager 的项目的教程或源代码我看过 PagerAdapter 的示例但我只是不明白它们是如何一起工作的光标片段和 PagerAdapte
为什么 next 会引发 'StopIteration'，但 'for' 会正常返回？

在这段代码中为什么使用for结果没有StopIteration或者是for循环捕获所有异常然后默默退出在这种情况下为什么我们会有无关的return 或者是raise StopIteration造成的 return None usr b
>>> 运算符是什么？ [复制]

这个问题在这里已经有答案了 In filter我在 Mozilla 网站上看到了文档页面 gt gt gt 操作员 var t Object this len t length gt gt gt 0 here res thisp i val
0x8($rsp) 的含义

我第一次学习汇编语言这是 gdb 反汇编的一部分 mov 0x131 eax cmp 0x8 rsp eax Question here what is the value of 0x8 rsp gdb i r rax 0x131 305
Play框架-简单表达式的非法开始

我正在尝试实现一个过滤功能该功能将按业务类型显示业务这是搜索表单用户可以在其中选择他们想要显示的业务类型 businessList List Business formSearch Form Business import help
SQL Server 关系隐藏在存储过程而不是模式中

目前我们几乎没有引用完整性并且拥有许多自连接的表实际上最好将其表示为单独的表或连接的视图这些表如何相互关联的知识隐含在存储过程的逻辑中而不是显式地存在于架构中我们正在考虑改变这一点第一步是真正理解隐含的关系并记录它们所以我
在递增号码上添加静态前缀

我在表单上创建了一个名为trackingcode每次插入新数据时它都会增加现在我考虑添加前缀然后添加数字所以我所做的是 Newtracking mysqli fetch assoc trackingQuery REQ maxtrack
闪亮的 UI：保存输入中的更改

我有一个很大的问题我正在尝试运行一个具有很多不同设置的程序这些设置可以在用户界面中设置就我而言用户可能需要多次使用相同的设置运行程序我的问题是如果刷新或重新启动用户界面所有内容都会设置为默认值例如 numericInput
如何实现二维向量数组？

我是第一次使用STL库中的向量类我应该如何添加到向量数组的特定行 struct x vector
修改终端中的文本

是否可以在不清除屏幕的情况下修改我打印到终端的文本例如如果我以百分比显示某项进度我可以修改该百分比而无需清除屏幕并再次打印吗我正在寻找一种跨平台的方式如果有的话谈论C thanks 有多种方法可以做到这一点并且根据您想要投入多
创建 Func 以返回引用类型和值类型

我有一个方法返回一个Func由如下表达式构建 var expr Expression Property Expressions Expression Constant new Foo Name Hans Age 3 typeof Foo A
C++ __COUNTER__ 定义

我的计算机上安装了两个版本的 C 编译器其中一位认识到 COUNTER 宏而另一个则没有在做了一些研究以使程序在两者中编译之后我还没有遇到宏定义 COUNTER 这是编译器完成的一些特殊宏还是我可以复制其定义 COUNTER 进入我的
访问 JavaScript 对象变量属性 [重复]

这个问题在这里已经有答案了可能的重复如何从 JavaScript 中的变量值创建对象属性如何访问像这样存储在变量中的属性名称 var obj obj foo bar var propName foo I want something
在等待结果时禁用 HTML 按钮

当我单击 HTML 表单上的提交按钮时将调用与该按钮相关的函数并执行其工作完成工作后会发送邮件通知这会耗费太多时间之后确认消息将显示在同一 HTML 页面上不使用 Ajax 即刷新页面我想避免让用户在发送邮件的等待期间混乱地多
部署到 Google 计算引擎失败：检索 App Engine 服务帐户时出错

After 我删除了一些值不记得是哪个在我的项目配置中在开发者控制台我无法将应用程序部署到计算引擎实例我已经使用相同的配置成功部署了相同的代码数十次但在删除开发人员控制台中的一些值或进行了一些我认为较小的其他调整后使用 Mav
XPath 获取两个标题之间的标记

我正在尝试编写一个小应用程序来从维基百科页面中提取内容当我第一次想到是否可以时我认为我可以只使用 XPath 来定位包含内容的 div 但在研究了 Wikipedia 如何构建他们的文章后我很快发现这并不是那么容易当我获取页面时分离

XPath 获取两个标题之间的标记

XPath 获取两个标题之间的标记 的相关文章

随机推荐

热门标签

XPath 获取两个标题之间的标记的相关文章