我从一组 URL 中提取了单词,并计算了每个 URL 内容之间的余弦相似度。而且我还标准化了 0-1 之间的值(使用最小-最大)。现在我需要根据余弦相似度值对 URL 进行聚类以查找找出类似的 URL。哪种聚类算法最合适?。请建议我一种动态聚类方法,因为它会很有用,因为我可以按需增加 URL 的数量,而且它会更自然。如果您觉得我这样,请纠正我我以错误的方式取得了进展。谢谢您的期待。
K-means聚类可以用于在线学习,你只需要先验选择聚类的数量。另外,我认为你不应该标准化你的数据,因为余弦已经提供了 [0:1] 范围内的值。您的最小-最大标准化可能会导致信息丢失。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)