我需要删除包含多个段落的文本中的重复段落。
我使用类中的函数java.security.MessageDigest
计算每个段落的MD5哈希值,然后将这些哈希值添加到Set
.
If add()
'ed 成功,这意味着最新的段落是重复的。
这种方式有风险吗?
Except String.equals()
,还有其他办法吗?
在散列之前,您可以对段落进行规范化,例如删除标点符号、转换为小写并删除额外的空格。
标准化后,仅存在差异的段落将获得相同的哈希值。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)