我有一些data.table
金额列如下:
n = 1e5
set.seed(1)
dt <- data.table(id = 1:n, amount = pmax(0,rnorm(n, mean = 5e3, sd = 1e4)))
给出的中断向量如下:
breaks <- as.vector( c(0, t(sapply(c(1, 2.5, 5, 7.5), function(x) x * 10^(1:4))) ) )
对于这些中断定义的每个间隔,我想使用data.table
语法为:
- 得到计数
amount
包含
- 得到计数
amount
等于或大于左边界(基本上n * (1-cdf(amount))
对于 1,这大部分有效,但不会返回空间隔的行:
dt[, .N, keyby = breaks[findInterval(amount,breaks)] ] #would prefer to get 0 for empty intvl
对于2,我尝试过:
dt[, sum(amount >= thresh[.GRP]), keyby = breaks[findInterval(amount,breaks)] ]
但这没有用,因为sum
仅限于组内,不限组外。因此想出了一个解决方法,它也返回空间隔:
dt[, cbind(breaks, sapply(breaks, function(x) sum(amount >= x)))] # desired result
那么,什么是data.table
如何修复我的 2. 并获得两者的空间隔?