我正在 Bigquery 中使用 Python,并且有一个大型数据帧 df (大约 700 万行)。我还有一个列表 lst 包含一些日期(例如给定月份的所有日期)。
我正在尝试在 df 中创建一个附加列“random_day”,并使用每行中 lst 的随机值。
我尝试运行一个循环并应用函数,但作为一个相当大的数据集,它被证明具有挑战性。
我的尝试通过了循环解决方案:
df["rand_day"] = ""
for i in a["row_nr"]:
rand_day = sample(day_list,1)[0]
df.loc[i,"rand_day"] = rand_day
以及应用解决方案,首先定义我的函数,然后调用它:
def random_day():
rand_day = sample(day_list,1)[0]
return day
df["rand_day"] = df.apply(lambda row: random_day())
这方面有什么建议吗?
谢谢
Use numpy.random.choice如有必要,将日期转换为to_datetime:
df = pd.DataFrame({
'A':list('abcdef'),
'B':[4,5,4,5,5,4],
})
day_list = pd.to_datetime(['2015-01-02','2016-05-05','2015-08-09'])
#alternative
#day_list = pd.DatetimeIndex(['2015-01-02','2016-05-05','2015-08-09'])
df["rand_day"] = np.random.choice(day_list, size=len(df))
print (df)
A B rand_day
0 a 4 2016-05-05
1 b 5 2016-05-05
2 c 4 2015-08-09
3 d 5 2015-01-02
4 e 5 2015-08-09
5 f 4 2015-08-09
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)