Jsoup遍历DOM树时节点哈希码冲突

2024-05-04

我正在使用 java jsoup 构建 HTML DOM 树，其中Node.hashCode()用来。但我发现在遍历DOM树时存在很多哈希码冲突，使用以下代码：

doc.traverse(new NodeVisitor(){

    @Override
    public void head(Node node, int depth) {

        System.out.println("node hash: "+ node.hashCode());

        /* some other operations */
    }

    @Override
    public void tail(Node node, int depth) {
        // TODO Auto-generated method stub

        /* some codes */
    }
}

因此，当运行时，即使在前几个输出中，我也看到许多相同的哈希代码。

哈希码非常大，我不希望出现如此奇怪的行为。我使用jsoup-1.8.1。任何意见将不胜感激，谢谢。

Note:这个错误已在 jSoup 1.8.2 中修复，因此我的答案不再相关。

这可能是 jSoup 源代码中的一个错误。来自source https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/nodes/Node.java:

@Override
public int hashCode() {
   int result = parentNode != null ? parentNode.hashCode() : 0;
   // not children, or will block stack as they go back up to parent)
   result = 31 * result + (attributes != null ? attributes.hashCode() : 0);
   return result;
}

我不是 Java 专家，但这看起来它可以为不同的节点返回相同的值，如果它们具有相同的属性。（和同一个家长，感谢@alkis 的评论）

Edit:我可以重现这个。使用以下 HTML：

<html>
    <head>
    </head>
    <body>
        <div style="blah">TODO: write content</div>
        <div style="blah">Nothing here</div>
        <p style="test">Empty</p>
        <p style="nothing">Empty</p>
    </body>
</html>

以及以下代码：

String html = //HTML posted above

Document doc = Jsoup.parse(html);

Elements elements = doc.select("[style]");
for (Element e : elements) {
   System.out.println(e.hashCode());
}

它给：

-148184373
-148184373
-1050420242
2013043377

在计算哈希值时似乎完全忽略了内容文本，只有属性很重要。

您可能应该实施自己的解决方法。

已报告错误here https://github.com/jhy/jsoup/issues/537.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

html

DOM

Hash

Jsoup

Jsoup遍历DOM树时节点哈希码冲突的相关文章

我怎样才能让这个脚本在 WordPress 上运行？

我有这个脚本 document ready function text1 click function this hide 代码html div class div1 p class text1 text to appear when th
设置双指缩放时精确的滚动位置

我正在创建一个地图应用程序它将标记图像放置在画布上并滚动到它我正在使用浏览器的捏缩放和滚动来放大缩小地图然而我注意到有一些奇怪的行为我想知道如何解决它这有点难以解释但我们开始吧假设您处于网页的标准缩放级别无法进一步缩小
Java 正则表达式 - 字母数字，最多一个连字符，句点或下划线，七个字符长

我是 Java 正则表达式工具的新手尽管它们潜力巨大但我很难完成这项任务我想编写一个正则表达式来验证遵循以下语法的输入字符串小写字母和数字的任意组合仅一个下划线一个破折号或一个句号无其他特殊字符最小长度为 5 我想出了以下解
RMI 中的引用传递问题？ [复制]

这个问题在这里已经有答案了有人可以告诉我我错在哪里为什么这个 RMI 聊天应用程序不起作用目标是通过远程对象或序列化对象实现客户端服务器和逻辑之间的解耦 import javax swing import java awt even
java.lang.LinkageError：尝试重复的类定义

为什么会发生错误以及如何修复它 02 13 02 pool 4 thread 2 WARN Exception in thread pool 4 thread 2 02 13 02 pool 4 thread 2 WARN java lan
Java Microsoft Excel API [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
从 @JsonProperty 值获取枚举常量

我有一个标有 JsonProperty 的枚举用于使用 Jackson 进行 JSON 序列化反序列化并且希望获取给定字符串 JsonProperty 的枚举值 public enum TimeBucket JsonProperty
Jenkins 的代码覆盖率 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
带有 OpenId 提供程序的 Java Spring 安全性

我有一个 spring MVC 应用程序另一个客户端应用程序想要使用 open id connect 访问我的 spring 应用程序如何在服务器端实现开放ID提供商请帮忙 MITREid 连接 OpenID Connect Java
Hibernate HQL：将对值作为 IN 子句中的参数传递

我面临一个问题如何使用 IN 子句将查询中的成对值的参数传递给 HQL 例如 select id name from ABC where id reg date in x y 并且参数是不同的数据类型string id 和reg date
将特定字形与网络字体一起使用

使用网络字体我想使用字体功能设置 CSS 中的选项以及跨度类HTML 中以便使用字体集中的特定替代字形我需要以正确的语法使用哪些值 GID Unicode 才能定位特定的目标glyph内glyph备择方案这些功能使用 OpenTyp
JavaFX - 为什么多次将节点添加到窗格或不同的窗格会导致错误？

我现在正在学习基本的 JavaFX 我不明白我正在阅读的书中的这一说法不诸如文本字段之类的节点只能添加到一个窗格中一次将节点添加到多次窗格或不同的窗格将导致运行时错误我可以从书中提供的UML图看出它是一个组合但我不明白为什么库类
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
使用 secp256r1 曲线和 SHA256 算法生成 ECDSA 签名 - BouncyCastle

我正在尝试使用带有 secp256r1 曲线 P256 的 ECDSA 和用于消息哈希的 SHA256 算法生成签名我也在使用 Bouncy Castle 库下面的代码 public class MyTest param args pu
Java：由 HTTP 连接创建的等待连接线程存活时间很长

我有一个服务器端代码用于检查 SOAP 服务是否已启动代码如下 String response while response length 0 try final URL url new URL DummySoapServiceURL
无法使用 wget 在 CentOS 机器上安装 oracle jdk

我想在CentOS上安装oracle java jdk 8 我无法安装 java jdk 因为当我尝试使用命令安装 java jdk 时 root ADARSH PROD1 wget no cookies no check certific
Java：使用 Graph API 在线更新 Sharepoint 上的 docx 文件

我在使用 Java 在线更新 Sharepoint 上的 docx 文件时遇到问题首先我检查了构建 PUT 请求的 URL 此处并使用此请求 PUT drives drive id items item id content 我首先使
为什么范围为“provided”的依赖项会隐藏 Maven 中的传递依赖项？

我的 Maven 项目中有三个模块这稍微简化了 model包含JPA注释的实体类坚持实例化一个实体管理器并调用它的方法应用创建类的实例model 设置一些值并将它们传递给坚持 model and 坚持显然取决于javax persis
ng-include 和 ng-view 不同时加载

下面是我的应用程序的结构很简单页眉和页脚是非常小的文件而主页上的 ng view 要大得多当我进入该页面时我注意到了这一点首先加载两个 ng include 然后 ng view 出现页脚被推到底部页脚闪烁大约 0 1 秒
Java、Spring、Hibernate找不到org.springframework.orm.hibernate3.LocalSessionFactoryBean

我正在尝试制作 spring hibernate ant 项目目前我收到此错误 HTTP Status 500 type Exception report message description The server encountere

随机推荐

使用自签名证书签署 PowerShell 脚本（并且不使用 makecert.exe）

我正在尝试签署一份 ps1使用自签名证书用例是我自己在私人开发站上编写的脚本因此无需使用或付费真正的 CA 但是无论我阅读多少关于证书生成和数字签名主题的指南我似乎都无法使其正常工作这是我到目前为止所取得的成就 Create
在iOS中启动应用程序时如何复制sqlite数据库？

每次启动应用程序时我想将带有最新更新的 sqlite 数据库从数据库位置复制到我的 iOS 应用程序有什么办法可以做到吗您可以将以下方法添加到您的应用程序委托中 void copyDatabaseIfNeeded Using NSFi
使用 spring data mongodb 存储库添加可选查询参数

我想使用 spring data mongodb 添加可选查询参数控制器代码 RestController private final ActionService actionService RequestMapping value ac
使用 dplyr 按行用以前的值填充缺失值

我正在使用 R 中的一个数据框该数据框跨行有一些缺失值数据框是下一个 dput添加到最后 df id V1 V2 V3 V4 1 01 1 1 1 NA 2 02 2 1 NA NA 3 03 3 1 NA NA 4 04 4 1 2
@mysql_connect 和 mysql_connect

我使用 PHP 连接到数据库没有问题但是在我测试过的一些脚本中我发现连接命令存在细微差别有什么区别 mysql connect and mysql connect 我从未使用过编写我自己的脚本时使用的符号所以只是想知道它是否有用
尝试从 C# 调用简单的 Python 脚本，但由于“无法获取 Python 编解码器”致命错误而失败。我怎样才能解决这个问题？

相关的C 代码片段如下 static string CallPython string fileName Process p new Process p StartInfo new ProcessStartInfo C Python310
创建新视图时如何初始化视图模型中的属性？

我有一个应用程序可以打开一个视图允许您搜索数据然而为了进行搜索用户必须选择他想要在什么类别下进行搜索目前我正在尝试弄清楚如何将所选类别从主视图模型作为 int 传递到新搜索视图的视图模型目前我正在尝试在主视图中使用类似的东
Knockout.js——理解 foreach 和 with

我一直在阅读 learn knockout js 教程并进行实验有人可以解释为什么这有效吗教程单页应用程序步骤 2 使用with chosenFolderData and foreach mails table class mail
Spring 4 web - java.lang.IllegalArgumentException：[0]没有匹配的常量

我在升级 spring 版本 3 2 6 到 4 2 1 时遇到一些问题尝试获取与登录页面相关的 css 和 js 文件时出现 500 内部服务器错误在服务器端我看到异常 java lang IllegalArgumentExcept
Javascript `new` 运算符和原型

假设我们创建一个名为 Shape 的函数并在其原型上添加属性 name 和方法 toString var Shape function Shape prototype name Shape Shape prototype toString
仅为 UITableView 中的某个部分启用编辑模式

我有一个tableView其中有一个可编辑的部分如果我启用整个编辑tableView 其他单元格在编辑模式下不是selectable 所以我需要仅在特定部分启用编辑模式以便其他单元格selectable 该部分是可编辑的我需要设置编辑
Git - 忽略对配置文件的特定修改

我的项目中有一个配置文件其中包含数据库的连接字符串以及多个应用程序设置例如
如何在 IntelliJ IDEA 中的当前文件上运行外部工具

我需要通过 scp 将当前编辑的 JSP 上传到服务器我的 Windows 计算机上的路径上有 pscp 如何设置 intellij idea 以一键单击当前打开的文件来执行此操作我可以在 eclipse 中设置它通过运行工具和参
在 Android 中读取蓝牙 RSSI 以获取 BLE 邻近配置文件

我目前正在为 Android 开发低功耗蓝牙接近配置文件并且偶然发现了有关 RSSI 的问题为了使邻近配置文件起作用我必须每隔很短的时间就通过已连接的设备接收 RSSI 数据正如我所做的一些研究我了解到在设备发现过程中可以获得蓝牙
只允许在 datagridview 单元格中键入一些字符

有没有办法只将某些字符添加到 datagridview 单元格中像 1234567890 据我所知您可以使用两种方法来实现此目的第一个我认为最好的是使用 CellValidating 事件DataGridView并检查输入的文本是
如何在Python中打印带下划线的内容？

print hello 输出应该是单词 hello 但有下划线您可以通过使用转义字符来做到这一点 print 033 4mhello 033 0m
从 Active Directory 同步数据库

我想将我的用户数据库与活动目录中的用户和组同步我的应用程序从 AD 读取对象并将它们复制到数据库但随着 AD 更改而变得过时有没有办法让活动目录在对象更改时通知我 C 示例代码会很棒 F bio 附我正在使用 Oracle 数据库
为什么要在项目中使用#include_next？

引用iOS有关包装器标头的文档 http developer apple com library ios documentation DeveloperTools gcc 4 0 1 cpp Wrapper Headers html inc
如何在外部 .js 文件中分离 .vue 组件的方法？

我的组件留下了许多行代码因此我决定将这些方法放在一个名为functions js 的单独文件中我无法调用这些方法我试过这个函数 js function sendList function getLists function dele
Jsoup遍历DOM树时节点哈希码冲突

我正在使用 java jsoup 构建 HTML DOM 树其中Node hashCode 用来但我发现在遍历DOM树时存在很多哈希码冲突使用以下代码 doc traverse new NodeVisitor Override pub

Jsoup遍历DOM树时节点哈希码冲突

Jsoup遍历DOM树时节点哈希码冲突 的相关文章

随机推荐

热门标签

Jsoup遍历DOM树时节点哈希码冲突的相关文章