如何计算大型数据集每分钟出现的次数

2023-11-21

我有一个包含 50 万个约会的数据集，持续时间在 5 到 60 分钟之间。

tdata <- structure(list(Start = structure(c(1325493000, 1325493600, 1325494200, 1325494800, 1325494800, 1325495400, 1325495400, 1325496000, 1325496000, 1325496600, 1325496600, 1325497500, 1325497500, 1325498100, 1325498100, 1325498400, 1325498700, 1325498700, 1325499000, 1325499300), class = c("POSIXct", "POSIXt"), tzone = "GMT"), End = structure(c(1325493600, 1325494200, 1325494500, 1325495400, 1325495400, 1325496000, 1325496000, 1325496600, 1325496600, 1325496900, 1325496900, 1325498100, 1325498100, 1325498400, 1325498700, 1325498700, 1325499000, 1325499300, 1325499600, 1325499600), class = c("POSIXct", "POSIXt"), tzone = "GMT"), Location = c("LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB"), Room = c("RoomA", "RoomA", "RoomA", "RoomA", "RoomB", "RoomB", "RoomB", "RoomB", "RoomB", "RoomB", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA")), .Names = c("Start", "End", "Location", "Room"), row.names = c(NA, 20L), class = "data.frame")

> head(tdata)
                Start                 End  Location  Room
1 2012-01-02 08:30:00 2012-01-02 08:40:00 LocationA RoomA
2 2012-01-02 08:40:00 2012-01-02 08:50:00 LocationA RoomA
3 2012-01-02 08:50:00 2012-01-02 08:55:00 LocationA RoomA
4 2012-01-02 09:00:00 2012-01-02 09:10:00 LocationA RoomA
5 2012-01-02 09:00:00 2012-01-02 09:10:00 LocationA RoomB
6 2012-01-02 09:10:00 2012-01-02 09:20:00 LocationA RoomB

我想计算并发预约数量每个位置和每个房间的总计（以及原始数据集中的其他几个因素）。

我尝试过使用mysql包来执行左连接，这适用于小数据集，但对于整个数据集来说需要很长时间：

# SQL Join.
start.min <- min(tdata$Start, na.rm=T)
end.max <- max(tdata$End, na.rm=T)
tinterval <- seq.POSIXt(start.min, end.max, by = "mins")
tinterval <- as.data.frame(tinterval)

library(sqldf)
system.time(
  output <- sqldf("SELECT *
              FROM tinterval 
              LEFT JOIN tdata 
              ON tinterval.tinterval >= tdata.Start
              AND tinterval.tinterval < tdata.End "))

head(output)
            tinterval               Start                 End  Location  Room
1 2012-01-02 09:30:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA
2 2012-01-02 09:31:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA
3 2012-01-02 09:32:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA
4 2012-01-02 09:33:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA
5 2012-01-02 09:34:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA
6 2012-01-02 09:35:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA

它创建一个数据框，其中每分钟列出所有“活动”约会。大型数据集涵盖全年（约 525600 分钟）。平均预约持续时间为 18 分钟，我希望 sql 连接创建一个包含约 500 万行的数据集，我可以用它来创建不同因素（位置/房间等）的占用图。

基于中建议的 sapply 解决方案构建如何统计并发用户数我尝试使用data.table and snowfall如下：

require(snowfall) 
require(data.table)
sfInit(par=T, cpu=4)
sfLibrary(data.table)

tdata <- data.table(tdata)
tinterval <- seq.POSIXt(start.min, end.max, by = "mins")
setkey(tdata, Start, End)
sfExport("tdata") # "Transport" data to cores

system.time( output <- data.frame(tinterval,sfSapply(tinterval, function(i) length(tdata[Start <= i & i < End,Start]) ) ) )

> head(output)
            tinterval sfSapply.tinterval..function.i..length.tdata.Start....i...i...
1 2012-01-02 08:30:00                                                              1
2 2012-01-02 08:31:00                                                              1
3 2012-01-02 08:32:00                                                              1
4 2012-01-02 08:33:00                                                              1
5 2012-01-02 08:34:00                                                              1
6 2012-01-02 08:35:00                                                              1

该解决方案速度很快，计算 1 天大约需要 18 秒（全年大约需要 2 小时）。缺点是我无法根据某些因素（位置、房间等）创建并发约会数量的子集。我觉得一定有更好的方法来做到这一点..有什么建议吗？

UPDATE: 根据杰弗里的回答，最终的解决方案如下所示。该示例显示了如何确定每个位置的占用率。

setkey(tdata, Location, Start, End)
vecTime <- seq(from=tdata$Start[1],to=tdata$End[nrow(tdata)],by=60)
res <- data.frame(time=vecTime)

for(i in 1:length(unique(tdata$Location)) ) { 
  addz <- array(0,length(vecTime))
  remz <- array(0,length(vecTime))

  tdata2 <- tdata[J(unique(tdata$Location)[i]),] # Subset a certain location.

  startAgg <- aggregate(tdata2$Start,by=list(tdata2$Start),length)
  endAgg <- aggregate(tdata2$End,by=list(tdata2$End),length)
  addz[which(vecTime %in% startAgg$Group.1 )] <- startAgg$x
  remz[which(vecTime %in% endAgg$Group.1)] <- -endAgg$x

  res[,c( unique(tdata$Location)[i] )] <- cumsum(addz + remz)
}

> head(res)
                 time LocationA LocationB
1 2012-01-01 03:30:00         1         0
2 2012-01-01 03:31:00         1         0
3 2012-01-01 03:32:00         1         0
4 2012-01-01 03:33:00         1         0
5 2012-01-01 03:34:00         1         0
6 2012-01-01 03:35:00         1         0

这样好点了吗。

创建空白时间向量和空白计数向量。

 vecTime <- seq(from=tdata$Start[1],to=tdata$End[nrow(tdata)],by=60)
 addz <- array(0,length(vecTime))
 remz <- array(0,length(vecTime))


 startAgg <- aggregate(tdata$Start,by=list(tdata$Start),length)
 endAgg <- aggregate(tdata$End,by=list(tdata$End),length)
 addz[which(vecTime %in% startAgg$Group.1 )] <- startAgg$x
 remz[which(vecTime %in% endAgg$Group.1)] <- -endAgg$x
 res <- data.frame(time=vecTime,occupancy=cumsum(addz + remz))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

time

dataTable

sqldf

snowfall

如何计算大型数据集每分钟出现的次数的相关文章

在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
时间戳半小时窗口内字段的平均值

我的数据框有列名Timestamp es看起来像 Timestamp es 2015 04 01 09 07 42 31 2015 04 01 09 08 01 29 5 2015 04 01 09 15 03 18 5 2015 04 0
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
绘制点之间的所有线

我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
R独特的列或行与NA无可比拟

有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作无论如何我正在寻找一个巧妙的解决方案以仅保留与另一列相同的唯一列或行
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这
计算 R 中各列的唯一值

我正在尝试创建一个新变量其中包含来自两个不同列的字符串值的唯一计数所以我有这样的东西例如 A tibble 4 x 2 names partners
如何在 R 中匹配多个 ggplot2 图中的调色板？

自从被问到这个问题以来已经有一段时间了但我知道一个事实我很快就会提取新数据我想弄清楚如何用这种技术来绘制它看起来评论和答案中的人知道如何做到这一点但我无法完全弄清楚所给我的内容还有人想尝试一下吗我正在尝试使用具有多个级别的因子
纵向比较 R 中的值...并进行扭转

我有许多人在多达四个时间段进行的测试结果这是一个示例 dat lt structure list Participant ID c A A A A B B B B C C C C phase structure c 1L 2L 3L 4L
将不均匀的层次列表转换为数据框

我认为还没有有人问过这个问题但是有没有一种方法可以将具有多个级别和不均匀结构的列表的信息组合成长格式的数据帧具体来说 library XML library plyr xml inning lt http gd2 mlb com c
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
R“错误：“}”中出现意外的“}”[重复]

这个问题在这里已经有答案了我有一个字符串变量对于缺少数据的情况它具有空值我想将空值重新编码为缺失而不是说空值我正在尝试编写一个循环来删除这些空值条目但我不断收到错误错误中出现意外的 for row in dat
以编程方式将字符串宽度值插入到 sprintf() 中

我正在尝试以编程方式将字符串宽度值插入到sprintf 格式期望的结果是 sprintf 20s hello 1 hello 但我想插入20在同一通话中即时进行因此它可以是任何号码我努力了 sprintf ds 20 hello 1
删除极坐标图边缘的多余空间和圆环

我有一个极坐标图ggplot2我已经非常接近完成相当简单的情节我已经能够在删除矩形边框方面获得帮助但我不需要删除最后一个范围轮廓与带有方位角标签的绘图周围的环之间的额外空间我希望该图的边界为 15 000 而不是 15 214 我编
使用 template.docx 从 Shiny App 编织 Word 文档

我正在尝试使用 template docx 文件从闪亮的应用程序编写一个 Word 文档我收到以下错误消息 pandoc exe template docx openBinaryFile 不存在没有这样的文件或目录以下 3 个文件当前
任意列中包含字符串的子集行

我有一个如下所示的数据集 Col1 Col2 Col3 abckel NA 7 jdmelw njabc NA 8 jdken jdne 如何对数据集进行子集化使其仅保留包含字符串 abc 的行最终预期输出 Col1 Col2 Col3
如何绘制具有显着性水平的箱线图？

前段时间问了一个关于绘制箱线图的问题Link1 https stackoverflow com questions 14604439 plot multiple boxplot in one graph 我有一些包含 3 个不同组或标签
如何使用 tidymodels 和工作流集在同一数据集上拟合多个不同的线性模型

我想评估同一数据集上多个主要是线性回归模型的性能我想也许使用tidymodels包连同workflowsets workflow set 可能会起作用我按照这个例子here https workflowsets tidymodels

随机推荐

.setVisible(true) 立即重绘

在一个简短的方法中我使用 setVisible false 隐藏 JFrame 然后我截取屏幕截图并使用 setVisible true 恢复 JFrame 再次可见后窗口应该显示与之前不同的图片假设截取的屏幕截图的一部分问题是在
如何从命令行使用 MSBuild 构建所有内容？

这是有效的吗 MSBuild t all configuration all 我想使用 Visual Studio 2008 中的 MSBuild 从命令行构建 sln 文件等中所有项目的所有配置我不想在调用 MSBuild 时指定它们
如何在 cypress 测试中公开/访问 Redux 等数据存储？

The 赛普拉斯文档说你可以公开数据存储如 Redux 中以便您可以直接从测试代码以编程方式更改应用程序的状态我还观看了 Kent C Dodds 先生的测试课程他提到可以使用 Cypress 中的现有数据来初始化 redux 存
C++ 中的并行赋值

有没有办法在C 中进行并行赋值目前以下编译带有警告 include
设置文本字段的禁用背景颜色

I have a textfield which I set seteditable false and setEnabled false but the problem is that in this case the backgroun
如何实现rabbitMQ的单消费者多队列模型

我发现这张图片与我的商业模式非常相似我需要将消息拆分到某个队列进行一些繁重的工作我可以为他们添加更多的工作线程但对于一些人来说没有太多繁重的工作我可以让单个消费者订阅他们的消息但是在rabbitMQ 中如何做到这一点呢通过
Rails 3 中具有数组格式的 find_by_sql

美好的一天伙计们我在用着find by sql 在 Rails 3 中按如下方式获取记录 list Email find by sql SELECT FROM Emails WHERE sent id params id 如果多个参数适用
SwiftUI如何调整不同的屏幕尺寸

我正在使用 SwiftUI 开发人员列表页面 iPhone X 屏幕足够大但标题在 iPhone 8 中超出屏幕 iPhone X 然而在 iPhone 8 或更小的屏幕中查找人员太靠近左侧全部关注甚至超出了屏幕我知道在 UI
如何在 python 中规范化二维 numpy 数组而不那么冗长？

给定一个 3 乘以 3 的 numpy 数组 a numpy arange 0 27 3 reshape 3 3 array 0 3 6 9 12 15 18 21 24 为了标准化我想到的二维数组的行 row sums a sum axi
将 Ninject 与 Udi Dahan 的领域事件结合使用

我在 MVC 项目中使用 Ninject 并尝试按照 Udi Dahan 的模式实现领域事件http www udidahan com 2009 06 14 domain events salvation 在下面的摘录中容器用于解析已引
sqlite 数据库表在测试时被锁定

我正在尝试将应用程序从 django 1 11 1 迁移到 django 2 0 1 测试设置为在内存数据库中使用 sqlite 运行但每次测试都失败了因为sqlite3 OperationalError database table
git 忽略异常

我有一个 gitignore 文件它使 git 忽略 dll文件这实际上是我想要的行为但是如果我想要一个例外即能够提交foo dll 我怎样才能做到这一点 Use dll Exclude all dlls foo dll Exce
如何从左上到右填充 QGridLayout？

我想填写一个QGridLayout with QWidgets The QWidgets需要以从左上到右上的方式出现并在每行填充后继续向下填充QWidgets 类似且熟悉的 GUI 的一个例子是 Apple 如何在 iPhone 或 iP
使用 XPath 查询从匹配的 XML 节点获取属性值

这看起来并不困难但我目前陷入困境我正在尝试从与给定 XPath 查询字符串匹配的节点获取特定属性的属性值这是我到目前为止所拥有的 public static IEnumerable
如何在java中创建任意深度的嵌套数组？

我正在尝试创建一个由数组的数组组成的数组等但我不知道在运行时之前需要多少嵌套级别根据输入我可能需要int int int 或其他任何东西对于上下文我正在尝试构建一个N维网格对于元胞自动机其中 N 作为参数传递我没有任何代码给你
Maven“无法解析错误消息”（Java 7 + Maven 2）

我有一个基于 Maven 的 GWT 项目其中包括 Guava 我在 Maven 尝试但失败编译它在中找到的源代码时遇到了麻烦guava gwt jar could not parse error message symbol sta
尝试通过 I2C 从 Arduino 获取数据时，出现 IOError：[Errno 121] python（树莓派）上的 smbus 远程 I/O 错误

我遇到了问题在启动通过 I2C 从 Arduino 请求数据的脚本时 python 有时会在我的 raspberry pi 3 上抛出这个 IOError 电气连接是完美的所以这不是问题此外我在使用 i2cget y 1 0x04
使用 javascript 旋转 3D 图片

我开始开发一个广泛使用 javascript 的单页网站该网站的主要目的是推广我的客户的产品该网站将包含一张产品 3D 图像当用户单击并拖动时它应该相应旋转请参阅下面的链接我需要与以下链接中提到的完全相同的效果单击此处获取链接
Intel IA32 架构中堆栈的宽度是多少？

对于 IA32 架构和所有类型的微处理器微控制器堆栈的宽度是 8 位宽我目前正在阅读http ozark hendrix edu burch csbsju cs 350 handouts x86 html关于汇编语言在 call 的
如何计算大型数据集每分钟出现的次数

我有一个包含 50 万个约会的数据集持续时间在 5 到 60 分钟之间 tdata lt structure list Start structure c 1325493000 1325493600 1325494200 13254948

如何计算大型数据集每分钟出现的次数

如何计算大型数据集每分钟出现的次数 的相关文章

随机推荐

热门标签

如何计算大型数据集每分钟出现的次数的相关文章