我有一个包含 4 列日期的数据框。应该是 col1 首先出现,col2 其次出现,col3 第三出现,col4 最后出现。我想确定哪些行的日期不按顺序排列
这是一个玩具数据框
col1 <- c(as.Date("2004-1-1"), as.Date("2005-1-1"), as.Date("2006-1-1"))
col2 <- c(as.Date("2004-1-2"), as.Date("2005-1-3"), as.Date("2006-1-2"))
col3 <- c(as.Date("2004-1-5"), as.Date("2005-1-9"), as.Date("2006-1-19"))
col4 <- c(as.Date("2004-1-9"), as.Date("2005-1-15"), as.Date("2006-1-10"))
dates <- data.frame(col1, col2, col3, col4)
dates
col1 col2 col3 col4
1 2004-01-01 2004-01-02 2004-01-05 2004-01-09
2 2005-01-01 2005-01-03 2005-01-09 2005-01-15
3 2006-01-01 2006-01-02 2006-01-19 2006-01-10
我想要的输出是,
col1 col2 col3 col4 Seq?
1 2004-01-01 2004-01-02 2004-01-05 2004-01-09 T
2 2005-01-01 2005-01-03 2005-01-09 2005-01-15 T
3 2006-01-01 2006-01-02 2006-01-19 2006-01-10 F
我可以想到几个解决方案。天真地我建议使用apply
with ?is.unsorted
,即:
测试对象是否未排序(按升序),无需
对其进行排序的成本。
!apply(dates, 1, is.unsorted)
#[1] TRUE TRUE FALSE
否则,转换为长集,然后进行分组操作,这在较大的数据集上应该更快:
tmp <- cbind(row=seq_len(nrow(dates)), stack(lapply(dates, as.vector)))
!tapply(tmp$values, tmp$row, FUN=is.unsorted)
最后,将每列与下一个过孔进行比较的强力方法Map
,这应该会更快:
Reduce(`&`, Map(`<`, dates[-length(dates)], dates[-1]))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)