sklearn凝聚聚类:动态更新聚类数量

2023-12-11

sklearn.cluster.AgglomerativeClustering 的文档提到,

当改变集群数量并使用缓存时, 计算完整的树可能是有利的。

这似乎意味着可以首先计算完整的树,然后根据需要快速更新所需集群的数量,而无需重新计算树(使用缓存)。

然而,改变集群数量的过程似乎没有记录。我想这样做,但不确定如何继续。

更新:为了澄清,拟合方法不将簇数作为输入:http://scikit-learn.org/stable/modules/ generated/sklearn.cluster.AgglomerativeClustering.html#sklearn.cluster.AgglomerativeClustering.fit


您可以使用参数设置缓存目录memory = 'mycachedir'然后如果你设置compute_full_tree=True,当你重新运行时fit具有不同的值n_clusters,它将使用缓存的树而不是每次都重新计算。给您一个如何使用 sklearn 的 gridsearch API 执行此操作的示例:

from sklearn.cluster import AgglomerativeClustering
from sklearn.grid_search import GridSearchCV

ac = AgglomerativeClustering(memory='mycachedir', 
                             compute_full_tree=True)
classifier = GridSearchCV(ac, 
                          {n_clusters: range(2,6)}, 
                          scoring = 'adjusted_rand_score', 
                          n_jobs=-1, verbose=2)
classifier.fit(X,y)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn凝聚聚类:动态更新聚类数量 的相关文章

随机推荐