使用 XPath 从具有不必要名称空间的文档中提取 XOM 元素

2023-12-14

我正在尝试使用 XOM 解析外部系统返回的一些 HTML。 HTML 看起来像这样：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<body>
  <div>
    Help I am trapped in a fortune cookie factory
  </div>
</body>
</html>

（实际上它更加混乱，但它有这个 DOCTYPE 声明以及这些命名空间和语言声明，并且上面的 HTML 表现出与真正的 HTML 相同的问题。）

我想做的是提取内容<div>，但是命名空间声明似乎使 XPath 感到困惑。如果我（从文件中手动）删除名称空间声明，以下代码会找到<div>，没问题：

Document document = ...
Nodes divs = document.query("//div");

但是有了命名空间，返回的Nodes大小为 0。

好吧，如果我以编程方式剥离命名空间怎么样？

Element rootElement = document.getRootElement();
rootElement.removeNamespaceDeclaration(rootElement.getNamespacePrefix());

...看起来应该有效，但什么也没做。来自javadoc:

此方法仅删除添加的附加命名空间addNamespaceDeclaration.

好吧，我想，我将为查询提供名称空间：

XPathContext context = 
    XPathContext.makeNamespaceContext(document.getRootElement());
Nodes divs = document.query("//div", context);

大小仍然为零。

手动构建命名空间上下文怎么样？

XPathContext context = context = new XPathContext(
     rootElement.getNamespacePrefix(), rootElement.getNamespaceURI());
Nodes divs = document.query("//div", context);

The XPathContext构造函数爆炸：

nu.xom.NamespaceConflictException: 
    XPath expressions do not use the default namespace

所以，我正在寻找：

一种使该查询工作的方法，或者
一种以编程方式剥离命名空间声明的方法，或者
假设这两种方法都是错误的，则解释正确的方法。

Update:基于列夫·列维茨基的回答和贾克森常见问题解答我想出了以下技巧：

XPathContext context = new XPathContext(
    "foo", 
    document.getRootElement().getNamespaceURI());
Nodes divs = document.query("//foo:div");

我觉得这仍然有点疯狂，但我想这就是贾克森希望你做事的方式。

更新#2：如下所述和整个互联网，这不是贾克森的错； XPath 就是 XPath。

因此，虽然这个 hack 有效，但我仍然想要一种删除名称空间声明的方法。最好不要使用 XSLT。

你可以写：

Nodes divs = document.query("//*[local-name()='div' and namespace-uri()='http://www.w3.org/1999/xhtml']");

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xpath

xmlnamespaces

xom

使用 XPath 从具有不必要名称空间的文档中提取 XOM 元素的相关文章

在 javascript 中使用 xPath 解析具有默认命名空间的 XML

我需要创建一个 XML xPath 解析器所有解析都必须在客户端进行使用 JavaScript 我创建了一个 javascript 来执行此操作在默认名称空间发挥作用之前一切看起来都正常我根本无法查询具有默认命名空间的 XML 我
如何更新 PHP 中 xpath 的版本？ [复制]

这个问题在这里已经有答案了可能的重复 XPath 2 0 和或 XSLT 2 0 是否会在 PHP 中实现 https stackoverflow com questions 2085632 will xpath 2 0 and or
如何在 xslt 2.0 中获取与此场景相关的特定 XML 元素索引？

我想使用 XSLT2 0 将一个 xml 转换为另一个 xml 在这样做时我想找到一些与我在此处解释的场景相关的 XML 元素索引这是 XML 文档
HTMLUNIT getformbyname 网站中未指定表单名称

我正在尝试使用 HTMLUNIT 单击网站上的按钮我按照本教程进行操作http htmlunit sourceforge net gettingStarted html http htmlunit sourceforge net gett
如何确定 Android UI 元素的 XPATH。硒 + Appium

我目前正在使用 Appium 和 Selenium 自动化 Android 应用程序并且在通过 ID 定位元素时遇到了一些问题我想使用 XPATH 但不知道如何获取 android UI 元素的 XPATH 有谁知道如何确定元素的 XP
从 XML 获取 viewCount [重复]

这个问题在这里已经有答案了我目前正在使用YouTube API https developers google com youtube 来自 Google 我正在尝试获取 viewCount 数组我已经尝试过这个但一点运气都没有 He
如何忽略xpath中的第一个元素

如何忽略第一个元素并获取其余元素 ul li a href some link a li li a href some link 2 a li li a href link i want to find a li ul Thanks 如果您
如何使用XPath统计具有特定属性的节点数量

我似乎无法获得适用于我的场景的 XPath 表达式我想找到所有类型为 EndDevice 的 Device 节点我能够计算所有 Device 节点的数量并且还能够找到具有 EndDevice 属性的所有 Device 节点但是我似
Scrapy在页面上找不到表单

我正在尝试编写一个自动登录的蜘蛛这个网站 https www athletic net account login ReturnUrl 2Fdefault aspx 但是当我尝试使用scrapy FormRequest from resp
XML-XSLT：如何比较字符串中的两个日期

我知道这个问题可能会重复而且我也浏览过类似的文章和问题但我还没有找到确切的解决方案现在问题我在用XSLT or XPATH来转换 xml XML 中有两个字符串变量一个是OldDate第二个是CurrentDate Ex oldD
Java中如何保存DOM文档？

我在用DOM解析器和XPATH解析我的XML文件我改变了一个节点的值Document Object 然而当我打开我的XML文件它没有向我显示任何反射我的DOM解析器代码如下 private void setPortNumber int
使用 PHP 从 XML 文件重新调整多个动态结果的 XPATH 方法

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有一个用户输入或选择一个值的表单
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
如何使用 XPath 正则表达式匹配 URL

需要 XPath 方面的帮助我有这样一个XML
使用 XPATH（和 PHP）从样式属性中选择背景 url

我只想从此背景图像样式属性中选择 url 这可以通过 XPATH 实现吗 a href http www test com style background image none test a 我有类似的东西 url xpath gt qu
不使用 local-name() 或 name() 函数的 XPath

我必须解析oprResult code使用 XPath 从下面的 XML 中获取 XPath 表达式 local name oprResult code 正在按预期工作但是我无法使用name or local name功能为在我的解析
使用 xpath 和 vtd-xml 以字符串形式获取元素的子节点和文本

这是我的 XML 的一部分
使用 XPath 获取属性

给定一个像这样的 XML 结构
在 System.Xml.XPath 中启用 XPath2 查询（XPathException：无效令牌）

Microsoft 的 System Xml XPath nuget package 可用于 NET 4 6 声称支持 XPath 1 0 和 2 0 德文档 https msdn microsoft com en us library s
(Kiss)XML xpath 和默认命名空间

我正在开发一个 iPhone 项目需要解析一些 xml xml 可能包含也可能不包含默认名称空间我需要知道如何解析 xml 以防它使用默认命名空间由于我需要读取和写入 xml 因此我倾向于使用 KissXML 但我愿意接受建议这是我

随机推荐

Internet Explorer 中的 Google 地图 JavaScript API 错误

我为 Google Maps JavaScript API v3 编写了一个非常简单的 jQuery 插件它可以在 Firefox Chrome 等中运行但不能在 Internet Explorer 8 中运行我收到的错误是以下行中
从网站按钮运行 Chrome 应用程序

我需要启动一个镀铬应用从网页按钮点击我找到了以下资源从 url 运行 Google Chrome 应用程序从网页激活 Chrome 应用程序如何通过 JavaScript 启动 Chrome 打包应用程序这建议使用可外部连接 an
使用 Pkcs10CertificationRequest 获取主题备用名称

我目前能够解码 CSR 的值请求的扩展除外特别是X509v3 Subject Alternative Name 这是相关部分我的 DecodeCSR 字符串 csr public void DecodeCsr string csrSt
保存的文本字段值在使用 PDFBOX 生成的 PDF 中无法正确显示

import java io IOException import javax swing text BadLocationException import org apache pdfbox cos COSArray import org
减慢pygame中的移动圈

我想通过给它更小的 y 和 x 变化来减慢圆的运动如下所示 if event key pygame K DOWN circleYchange 0 circleXchange 0 circleYchange 0 5 if event key
列表视图中选定索引的问题

我有一个数组列表其中包含我自己的类的对象我想从数组列表中获取对象该对象的索引 listview的selectedindex 我试过这个 TrackInformation t TrackInformation SongList list
如何在 C++ 中可视化/绘制图表？

我刚刚了解了图表我想在随机创建它们时绘制它们我该怎么做呢 EDIT 我说的是图它是顶点之间的边的集合而不是 y f x 的图什么样的图表有向图与散点图不同 3D 和或 2D 图表你关心它是c还是c 吗您想要自己编写还是正在
C/C++ 中的指针/数组语法 (char **p, *p[n])

对于指针我对何时使用 char 或 char 或 array n 等的声明和函数参数感到困惑就像如果一个函数采用 array n 参数我是否通过它是类型吗我尝试使用从右到左的规则知道 p 将是一个指向 char 的指针 char
如何使用Fiddler监控WCF服务

我有一个 WCF 服务它接受复杂类型并返回一些数据我想使用 Fiddler 来查看对服务的传入请求是什么样的客户端是 net 控制台应用程序它使用服务引用代理 Fiddler 可以做到这一点吗我是这个工具的新手过去只使用它通过请
python模块的动态加载[重复]

这个问题在这里已经有答案了在 python 中如何在程序运行时动态地将模块添加到包中我希望能够从外部进程将模块添加到包目录并能够在我的程序中使用这些新模块 import package def doSomething name pk
Qt 和共享文件夹中的文件

我可以使用 Qt 来选择打开共享文件夹上的文件吗我尝试使用 QFileDialog 但似乎没有网络类别如标准 Windows 资源管理器中那样您需要指定您使用的 Qt 版本 4 7 版本支持本机文件对话框并默认使用它们请参阅此
如何调整 JavaFX 图像的大小？

我有一个javafx scene image Image 我想调整它的大小例如按给定因子缩放如何做到这一点无需转换为BufferedImage 有关质量和性能的选项有哪些例如插值类型有几个看起来相似的问题但我找不到问同样问题的人
锁屏时捕获返回按钮按下事件

我正在尝试编写一个小应用程序来捕获KeyEvent按下后退按钮的次数当屏幕锁定时我发现你可以轻松覆盖onKeyDown or onBackPressed为了捕获此事件但这仅在活动正在运行时才有效据我了解在某些 Android 手机
Powershell eq 运算符表示哈希值不同，而 Write-Host 显示相反

我有一个脚本它定期生成目录中所有文件的列表然后将结果的文本文件写入不同的目录我想更改此设置以便它检查输出目录中的最新文本文件并且仅在存在差异时才创建一个新文件这看起来很简单这是我尝试过的首先我获取目录中的最新文件获取哈希
如何将 XML 查询结果保存到文件中

我有一个 SQL 查询并且正在使用 For XML Path 将结果生成为 XML 谁能帮我将 XML 输出转换为 a xml 文件并保存在计算机的特定文件夹中也想知道除了BCP为了达成这个你可以尝试使用xp cmdshell Rea
C++ 中的 Windows 服务

我想用 C 创建一个将定期运行的应用程序很像Windows服务是否可以用 C 创建 Windows 服务如果是的话怎么办有这方面的教程吗编辑如何为 Windows 服务创建安装程序正如另一个答案所示您需要创建一个普通的 C
Jersey ExceptionMapper 未被调用

我试图调用此异常映射器以返回 404 未找到响应但它始终返回 500 内部错误泽西岛版本是2 22 1 下面的代码片段感谢所有帮助 Thanks 异常映射器类 package org learn rest messengerdemo
引用类时出现 NHibernate 映射问题（延迟加载问题？）

我正在使用 NHibernate Fluent 来处理我的数据库并且在查询引用其他数据的数据时遇到问题我的简单问题是我是否需要在映射中定义一些 BelongsTo 等或者在一侧定义引用是否足够请参阅下面的映射示例如果是这样怎么
背景图片在 IE11 中不显示

由于某种原因背景图像在 IE11 Windows 7 Pro 中根本不显示 home position relative height 620px background image url images bg home3 jpg back
使用 XPath 从具有不必要名称空间的文档中提取 XOM 元素

我正在尝试使用 XOM 解析外部系统返回的一些 HTML HTML 看起来像这样 div Help I am trapped in a fortune cookie factory div 实际上它更加混乱但它有这个 DOCTYPE 声明

使用 XPath 从具有不必要名称空间的文档中提取 XOM 元素

使用 XPath 从具有不必要名称空间的文档中提取 XOM 元素 的相关文章

随机推荐

热门标签

使用 XPath 从具有不必要名称空间的文档中提取 XOM 元素的相关文章