对相似的时间序列进行聚类?

2024-02-21

我有 10-20k 个不同的时间序列(24 维数据——一天中每个小时的一列),并且我对表现出大致相同活动模式的时间序列进行聚类感兴趣。

我最初开始实施动态时间扭曲(DTW)是因为:

  1. 并非我所有的时间序列都完全一致
  2. 出于我的目的,两个稍微偏移的时间序列应该被认为是相似的
  3. 形状相同但尺度不同的两个时间序列应被视为相似

我在 DTW 中遇到的唯一问题是它的扩展性似乎不太好——fastdtw在 500x500 距离矩阵上大约需要 30 分钟。

还有哪些其他方法可以帮助我满足条件 2 和 3?


如果将时间序列分解为趋势、季节性和残差,ARIMA 就可以完成这项工作。之后,使用 K 最近邻算法。然而,计算成本可能会很昂贵,这主要是由于 ARIMA。

在 ARIMA 中:

from statsmodels.tsa.arima_model import ARIMA

model0 = ARIMA(X, dates=None,order=(2,1,0))
model1 = model0.fit(disp=1)

decomposition = seasonal_decompose(np.array(X).reshape(len(X),),freq=100)
### insert your data seasonality in 'freq'

trend = decomposition.trend
seasonal = decomposition.seasonal
residual = decomposition.resid

作为对 @Sushant 评论的补充,您可以分解时间序列,并可以检查 4 个图中的一个或全部的相似性:数据、季节性、趋势和残差。

然后是数据示例:

import numpy as np
import matplotlib.pyplot as plt
sin1=[np.sin(x)+x/7 for x in np.linspace(0,30*3,14*2,1)]
sin2=[np.sin(0.8*x)+x/5 for x in np.linspace(0,30*3,14*2,1)]
sin3=[np.sin(1.3*x)+x/5 for x in np.linspace(0,30*3,14*2,1)]
plt.plot(sin1,label='sin1')
plt.plot(sin2,label='sin2')
plt.plot(sin3,label='sin3')
plt.legend(loc=2)
plt.show()
X=np.array([sin1,sin2,sin3])

from sklearn.neighbors import NearestNeighbors
nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
distances, indices = nbrs.kneighbors(X)
distances

你会得到相似度:

array([[ 0.        , 16.39833107],
       [ 0.        ,  5.2312092 ],
       [ 0.        ,  5.2312092 ]])
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

对相似的时间序列进行聚类? 的相关文章

随机推荐