是否有任何工具或实用程序或 perl/python 脚本可以在大型文本文件中找到最长的重复子字符串并打印这些模式以及每个模式出现的次数?
http://en.wikipedia.org/wiki/Longest_repeated_substring_problem http://en.wikipedia.org/wiki/Longest_repeated_substring_problem:
最长重复子串问题是找到一个字符串中至少出现两次的最长子串。这个问题可以在线性时间和空间上解决,方法是为字符串构建后缀树,并找到树中最深的内部节点
python 中的后缀树(虽然有点过时了..):http://hkn.eecs.berkeley.edu/~dyoo/python/suffix_trees/ http://hkn.eecs.berkeley.edu/~dyoo/python/suffix_trees/
Javascript 实现及进一步解释:http://www.allisons.org/ll/AlgDS/Tree/Suffix/ http://www.allisons.org/ll/AlgDS/Tree/Suffix/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)