我想做的是尝试检测天气数据集是否是时间序列?我想自动化这个过程。
假设我有以下数据集:
df1:
Heading 1 |
Heading 2 |
Heading 1 |
Heading 2 |
1/1/2023 |
34 |
12 |
34 |
2/1/2023 |
42 |
99 |
42 |
3/1/2023 |
42 |
99 |
42 |
4/1/2023 |
42 |
99 |
42 |
df2:
Heading 1 |
Heading 2 |
Heading 1 |
Heading 2 |
1/1/2023 |
34 |
12 |
34 |
3/1/2023 |
42 |
99 |
42 |
4/1/2023 |
42 |
99 |
42 |
7/1/2023 |
42 |
99 |
42 |
df3:
Heading 1 |
Heading 2 |
Heading 1 |
Heading 2 |
Jan 2023 |
34 |
12 |
34 |
Feb 2023 |
42 |
99 |
42 |
Mar 2023 |
42 |
99 |
42 |
df4:
Heading 1 |
Heading 2 |
Heading 1 |
Heading 2 |
2020 |
34 |
12 |
34 |
2021 |
42 |
99 |
42 |
2022 |
42 |
99 |
42 |
df1
有时间列是均匀分布的, df2
有时间栏,但它是间隔不均匀 and df3
and df4
有一个时间列是不采用以下格式datetime
从以上内容中df
, 哪个是时间序列数据,哪个不是?到底是什么将数据集视为时间序列的标准?
Thanks!
正如@GalodoLeste 所示,您的数据帧是时间序列:
df1['Heading 1'] = pd.to_datetime(df1['Heading 1'], dayfirst=True)
df2['Heading 1'] = pd.to_datetime(df2['Heading 1'], dayfirst=True)
df3['Heading 1'] = pd.to_datetime(df3['Heading 1'])
df4['Heading 1'] = pd.to_datetime(df4['Heading 1'], format='%Y')
但第三个有频率,而第三个没有:
>>> df1['Heading 1'].dt.freq
'D'
>>> df2['Heading 1'].dt.freq
None
>>> df3['Heading 1'].dt.freq
'MS'
>>> df4['Heading 1'].dt.freq
'AS-JAN'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)