在R中使用dplyr根据类型和滚动日期进行计数和标记

2024-02-25

我的问题类似于dplyr：使用滚动时间窗口对数据进行分组和汇总/变异 https://stackoverflow.com/questions/36187931/dplyr-grouping-and-summarizing-mutating-data-with-rolling-time-windows我已经使用它作为参考，但还没有成功地操纵它来完成我需要做的事情。

我的数据看起来像这样：

a <- data.table("TYPE" = c("A", "A", "B", "B",
                       "C", "C", "C", "C",
                       "D", "D", "D", "D"), 
            "DATE" = c("4/20/2018 11:47",
                       "4/25/2018 7:21",
                       "4/15/2018 6:11",
                       "4/19/2018 4:22",
                       "4/15/2018 17:46",
                       "4/16/2018 11:59",
                       "4/20/2018 7:50",
                       "4/26/2018 2:55",
                       "4/27/2018 11:46",
                       "4/27/2018 13:03",
                       "4/20/2018 7:31",
                       "4/22/2018 9:45"),
            "CLASS" = c(1, 2, 3, 4,
                        1, 2, 3, 4,
                        1, 2, 3, 4))

由此我首先通过以下方式订购了数据TYPE然后通过DATE并创建一个仅包含日期并忽略时间的列DATE column:

a <- a[order(TYPE, DATE), ]
a[, YMD := date(a$DATE)]

现在我正在尝试使用TYPE列和YMD列以产生新列。这是我试图满足的标准：
1）维护原始数据集中的所有列
2）创建一个名为 say 的新列EVENTS
3）对于每个TYPE如果它发生超过n30天内多次然后放Y in the EVENTS每个列TYPE and YMD这使得该小组获得资格并且N否则。（注意这是为了n独特的日期，所以它必须有n30 天内的唯一日期才有资格）。

这将是预期的输出，如果n = 4:

这是我拥有的最接近的示例，但它没有考虑唯一的日期，也没有保留表中的所有列：

a %>% mutate(DATE = as.POSIXct(DATE, format = "%m/%d/%Y %H:%M")) %>%
  inner_join(.,., by="TYPE") %>%
  group_by(TYPE, DATE.x) %>%
  summarise(FLAG = as.integer(sum(abs((DATE.x-DATE.y)/(24*60*60))<=30)>=4))

任何建议表示赞赏。

Update

下面的两个答案都适用于我的原始示例数据，但是，如果我们再添加一些实例D然后他们都标记所有D as 1而不是标记前 4 个实例0以及最后 4 个实例1这就是“滚动窗口”发挥作用的地方。

更新数据集：

a <- data.table("TYPE" = c("A", "A", "B", "B",
                       "C", "C", "C", "C",
                       "D", "D", "D", "D",
                       "D", "D", "D", "D"), 
            "DATE" = c("4/20/2018 11:47",
                       "4/25/2018 7:21",
                       "4/15/2018 6:11",
                       "4/19/2018 4:22",
                       "4/15/2018 17:46",
                       "4/16/2018 11:59",
                       "4/20/2018 7:50",
                       "4/26/2018 2:55",
                       "4/27/2018 11:46",
                       "4/27/2018 13:03",
                       "4/20/2018 7:31",
                       "4/22/2018 9:45",
                       "6/01/2018 9:07",
                       "6/03/2018 12:34",
                       "6/07/2018 1:57",
                       "6/10/2018 2:22"),
            "CLASS" = c(1, 2, 3, 4,
                        1, 2, 3, 4,
                        1, 2, 3, 4,
                        1, 2, 3, 4))

新更新的预期输出将是：

这是 dplyr 的解决方案：

根据OP编辑进行更新

library(dplyr)
library(lubridate)
a <- data.frame("TYPE" = c("A", "A", "B", "B",
                           "C", "C", "C", "C",
                           "D", "D", "D", "D",
                           "D", "D", "D", "D"), 
                "DATE" = c("4/20/2018 11:47",
                           "4/25/2018 7:21",
                           "4/15/2018 6:11",
                           "4/19/2018 4:22",
                           "4/15/2018 17:46",
                           "4/16/2018 11:59",
                           "4/20/2018 7:50",
                           "4/26/2018 2:55",
                           "4/27/2018 11:46",
                           "4/27/2018 13:03",
                           "4/20/2018 7:31",
                           "4/22/2018 9:45",
                           "6/01/2018 9:07",
                           "6/03/2018 12:34",
                           "6/07/2018 1:57",
                           "6/10/2018 2:22"),
                "CLASS" = c(1, 2, 3, 4,
                            1, 2, 3, 4,
                            1, 2, 3, 4,
                            1, 2, 3, 4))

# a function to flag rows that are 4th or more within window w
count_window <- function(df, date, w, type){
  min_date <- date - w
  df2 <- df %>% filter(TYPE == type, YMD >= min_date, YMD <= date)
  out <- n_distinct(df2$YMD)
  res <- ifelse(out >= 4, 1, 0)
  return(res)
}

v_count_window <- Vectorize(count_window, vectorize.args = c("date","type"))

res <- a %>% mutate(DATE = as.POSIXct(DATE, format = "%m/%d/%Y %H:%M")) %>%
  mutate(YMD = date(DATE)) %>% 
  arrange(TYPE, YMD) %>% 
  #group_by(TYPE) %>% 
  mutate(min_date = YMD - 30,
         count = v_count_window(., YMD, 30, TYPE)) %>% 
  group_by(TYPE) %>% 
  mutate(FLAG = case_when(
    any(count == 1) & YMD >= min_date[match(1,count)] ~ 1,
    TRUE ~ 0
  ))%>% 
  select(nms,FLAG)

我不知道如何在自定义函数中使用该组，因此我将按类型过滤硬编码到函数中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

在R中使用dplyr根据类型和滚动日期进行计数和标记的相关文章

LaTex 中与 knit 和 xtable 交叉引用的问题

我目前正在与 R Studio 合作使用 LaTex 中的 R knitr 生成 PDF 文档在这些文档中我想在文本中引用的表格中展示我的部分结果我使用 R 中的 xtable 包生成这些表它运行良好并为我提供了正确的表到目前为
替换列表列表中的元素

The applyR 中的函数是简化 for 循环以获得输出的好方法是否有一个等效的函数可以帮助人们在替换向量的值时避免 for 循环通过示例可以更好地理解这一点 Take this list for example x list li
decompose() 的周期太少[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 错误看起来像这样 decompose
返回数据帧 R 中的下一行

我有一个看起来像这样的数据框 kind datetime book 2016 04 23 04 23 00 pen 2016 04 23 04 30 00 toy 2016 04 23 06 45 00 我想为数据集中的每一行返回下一行的日
将 Instagram/youtube 嵌入 Shiny R 应用程序

我想通过点击图表来播放 Instagram 或 Youtube 视频例如显示异常值等到目前为止明确告诉 Shiny 视频内容是有效的 require shiny require ggplot2 data df lt data fram
计算例如具有多列 data.frames 的列表中的平均值

我有几个 data frames 的列表每个 data frame 有几列通过使用mean mylist first dataframe a我可以得到这个 data frame 中 a 的平均值但是我不知道如何计算列表中存储的所有 d
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus
是否可以通过扫描从控制台读取而不回显字符？

这是一个示例函数 passwordEntry lt function cat Enter your password pwd lt scan n 1 what character quiet TRUE invisible pwd 并测试该功
kableExtra 中的 row_spec() 函数不会在 html 输出中创建水平线

我想在 kableextra 表中的某一行下方添加一条水平线 row spec 函数的参数 hline after 应该在行下方添加水平线 row spec 文档 https www rdocumentation org packages
在shiny中过滤传单地图数据

我在用传单地图设置这个闪亮的东西时遇到了麻烦我的原帖 https stackoverflow com questions 50111566 applying leaflet map bounds to filter data within
如何删除箱线图上的刻度线

我试图从箱线图中删除 x 轴刻度线但保留与刻度线关联的标签这在基础 R 中可能吗 colors lt c lightskyblue3 gray78 gold1 wheat1 boxplot avgscore module data mi
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
时间戳半小时窗口内字段的平均值

我的数据框有列名Timestamp es看起来像 Timestamp es 2015 04 01 09 07 42 31 2015 04 01 09 08 01 29 5 2015 04 01 09 15 03 18 5 2015 04 0
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use

随机推荐

如何通过xml文档在swagger中设置示例？

例如这里是我的注册模型和设置注释但它仍然没有以大张旗鼓的方式显示它的显示是这样的用户名字符串代替用户名 Jasmin public class RegisterViewModel
Gmail API 在 Xcode 7 上的快速入门说明不起作用

跟进Xcode 7 Swift 2 中的 Gmail API iOS https stackoverflow com questions 32799371 gmail api ios in xcode 7 swift 2 34774797
绘制国债收益率曲线，如何使用 matplotlib 叠加两条收益率曲线

我正在尝试创建一个图表国债收益率曲线 http www treasury gov resource center data chart center interest rates Pages Historic Yield Data Visu
SQL 添加一周的总和行并在最后添加总计

我有一个表其中包含 numberofCalls Date CallsNotRecieved 等列我需要一种方法来获取一个月的记录但在每个星期六结束时我必须显示一周的总计毕竟我必须显示本月的总计在 SQL Server 中可以吗有
ruby通过重复字符或空格分割字符串

我如何分割这个字符串 6885558 8866887777 gt 6 88 555 8 88 66 88 7777 我尝试过这个但从来没有成功过 ruby 1 8 7 p334 020 gt 111133 split d 1 gt 1 3
棘轮存储用户连接并在服务器实例之外发送消息

我一直在跟随教程here http socketo me 并使棘轮服务器正常工作我的聊天课程目前或多或少与教程相同因此没有必要在这里展示这一点因为我的问题更多是关于实施策略在我附加的问题中用户正在寻找如何获取特定用户的连接对象在
j2me数据库查询包括条件

我正在使用 J2ME 创建一个应用程序为了连接我正在使用的数据库唱片店 http docs oracle com javame config cldc ref impl midp2 0 jsr118 javax microedition
使用方程为矩阵元素赋值时出错

我使用 ejml 方程在 Java 中有几行简单的代码如下所示 eq process T zeros 2 3 eq process T 1 1 10 eq process T 1 0 1 eq process T 1 2 8 最后一行不起
将代码作为参数传递给方法

我有一个方法列表它们几乎做同样的事情除了一些差异 void DoWork string parameter1 string parameter2 Common code Custom code Common code 我想通过从另一个方
如何指定系统默认的衬线和无衬线字体系列？

当我十多年前学习 CSS 时使用默认字体无论这意味着什么的标准也是唯一方法是 font family serif font family sans serif 然后去年苹果添加了一个新系统字体的自定义语法 https sta
PIP 随机失败“无法找到满足要求的版本”，且具有相同的requirements.txt

作为 CI 测试的一部分我们安装了一个 virtualenv 其中包含来自常量 requests txt 文件的一些 pip 包由于requirements txt文件没有改变这个安装过程有时会随机失败没有明显的原因而且每次都是不
在 C++ 中将整数存储到 char* 中

我正在编写一些返回整数的代码然后需要使用 ncurses 库中的 printw 输出该整数但是由于 printw 只接受 char 我不知道如何输出它本质上有没有办法将整数存储到 char 数组中或者使用 printw 输出整数
如何将一个分支的内容复制到另一个分支？

我有 develop 和 InitialPomChanges 分支我想将开发分支的所有内容复制到InitialPomChanges分支假设您想用开发中的内容覆盖 InitialPomChanges 的所有内容即您希望 InitialP
Pandas：将 WinZipped csv 文件转换为数据框

我有几个 WinZipped csv 文件想将它们作为 Pandas 数据框读取问题是两个解压缩选项 gzip 或 bz2 似乎都不起作用该文件如下所示 00000000011 00023011 89011 200812 000000
由于 cpp11 编译错误，R tidyr 包安装失败（扩展模式 x 不包含参数包）

我有以下与 cp11 相关的错误看起来 cp11 编译有错误我不知道如何解决我尝试做的就是卸载该软件包并再次重新安装我使用的是 RHEL 7 gcc 版本是 4 8 5 gt install packages tidyverse I
在 CSS 中缩放文本和图像

我正在尝试缩放背景图像以适应任何屏幕同时在图像上写入文本并进行缩放以适应屏幕尺寸这是网站 www beautebeaute dk 我通过在这个论坛中搜索答案来准备背景图片与此代码配合使用效果很好 CSS imagescale widt
Reactjs 中的 Axios 和 fetch 都在发出连续的本地主机网络请求

这是来自 Express 后端和 MongoDB 数据库的路由代码以及来自前端的正常调用fetch 它返回index html代码并添加fetch http localhost 9000 它返回 CORS 错误所以我添加了app use
MVC3 RadioButtonFor 带枚举

我的模型中的 HtmlHelper RadioButtonFor 和枚举有问题我有一个强类型视图我希望复选框可以切换我的枚举属性 Enum cs public enum Values Value1 Value2 Model cs pub
使用 Canvas 在 JS 中动画排序算法

为了好玩我尝试创建不同排序算法的可视化但我遇到了 Canvas 动画的问题我假设我只能在排序器方法中调用绘制函数但这会导致浏览器锁定直到数组完全排序然后绘制一些中间帧我将如何在排序方法中进行动画处理下面是我到目前为止的代码
在R中使用dplyr根据类型和滚动日期进行计数和标记

我的问题类似于dplyr 使用滚动时间窗口对数据进行分组和汇总变异 https stackoverflow com questions 36187931 dplyr grouping and summarizing mutating da

在R中使用dplyr根据类型和滚动日期进行计数和标记

在R中使用dplyr根据类型和滚动日期进行计数和标记 的相关文章

随机推荐

热门标签

在R中使用dplyr根据类型和滚动日期进行计数和标记的相关文章