我正在尝试对“整数”类型的现有列执行 := by group 操作,其中新值的类型为“double”,但失败了。
我的场景是根据其他列中的值将表示时间的列转变为 POSIXct。我可以修改 data.table 的创建作为解决方法,但我仍然对如何实际更改列的类型感兴趣,正如错误消息中所建议的那样。
这是我的问题的一个简单的玩具示例:
db = data.table(id=rep(1:2, each=5), x=1:10, y=runif(10))
db
id x y
1: 1 1 0.47154470
2: 1 2 0.03325867
3: 1 3 0.56784494
4: 1 4 0.47936031
5: 1 5 0.96318208
6: 2 6 0.83257416
7: 2 7 0.10659533
8: 2 8 0.23103810
9: 2 9 0.02900567
10: 2 10 0.38346531
db[, x:=mean(y), by=id]
Error in `[.data.table`(db, , `:=`(x, mean(y)), by = id) :
Type of RHS ('double') must match LHS ('integer'). To check and coerce would impact performance too much for the fastest cases. Either change the type of the target column, or coerce the RHS of := yourself (e.g. by using 1L instead of 1)
我们可以在将“mean(y)”分配给“x”之前将“x”列的类别转换为“数字”,因为“x”的类别是“整数”。如果我们将 'x' 替换为mean
任何其他数值变量(包括“x”)。
db[, x:= as.numeric(x)][, x:= mean(y), by=id][]
或者分配到一个新列,然后更改列名称
setnames(db[, x1:= mean(y),by=id][,x:=NULL],'x1', 'x')
或者我们可以将“x”分配给“NULL”,然后创建“x”作为mean
'y'(@David Arenburg 的建议)
db[, x:=NULL][, x:= mean(y), by= id][]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)