R 中两个时间戳之间的左连接

2024-05-18

我的目标是执行左连接intervals哪里的bike_id比赛和created_at时间戳在records在。。。之间start and end in the intervals table

> class(records)
[1] "data.table" "data.frame"
> class(intervals)
[1] "data.table" "data.frame"

> records
  bike_id          created_at         resolved_at
1   28780 2019-05-03 08:29:18 2019-05-03 08:35:37
2   28780 2019-05-03 21:05:28 2019-05-03 21:07:28
3   28780 2019-05-04 21:13:39 2019-05-04 21:15:40
4   28780 2019-05-07 17:24:20 2019-05-07 17:26:39
5   28780 2019-05-08 11:34:32 2019-05-08 12:16:44
6   28780 2019-05-08 23:38:39 2019-05-08 23:40:36


> intervals
   bike_id               start                 end id
1:   28780 2019-05-03 04:44:45 2019-05-03 16:58:56  1
2:   28780 2019-05-04 07:07:39 2019-05-04 14:48:29  2
3:   28780 2019-05-07 23:28:32 2019-05-08 12:56:24  3
4:   28780 2019-05-10 06:06:21 2019-05-10 13:12:08  4
5:   28780 2019-05-12 05:21:24 2019-05-12 11:35:52  5
6:   28780 2019-05-13 08:44:54 2019-05-13 12:28:31  6

在这种情况下，输出看起来像

> output
  bike_id          created_at         resolved_at   id
1   28780 2019-05-03 08:29:18 2019-05-03 08:35:37    1
2   28780 2019-05-03 21:05:28 2019-05-03 21:07:28  NULL   
3   28780 2019-05-04 21:13:39 2019-05-04 21:15:40  NULL
4   28780 2019-05-07 17:24:20 2019-05-07 17:26:39  NULL
5   28780 2019-05-08 11:34:32 2019-05-08 12:16:44  NULL
6   28780 2019-05-08 23:38:39 2019-05-08 23:40:36  NULL

我尝试过使用该解决方案发布在这里 https://community.rstudio.com/t/tidy-way-to-range-join-tables-on-an-interval-of-dates/7881 using tidyverse但这会导致R耗尽内存（尽管两个表中的记录量都只有100K左右）

fuzzy_left_join(
 records, intervals,
  by = c(
    "bike_id" = "bike_id",
    "created_at" = "start",
    "created_at" = "end"
    ),
  match_fun = list(`==`, `>=`, `<=`)
  ) %>%
  select(id, bike_id = bike_id.x, created_at, start, end)

这会引发错误：Error: vector memory exhausted (limit reached?)

是否有滚动加入的替代方法data.table甚至在基本 R 中使用merge()？通过 id 连接两个数据帧以及连接表中其他两个数据帧之间的时间戳的好方法是什么？

这是数据

dput(intervals)
structure(list(bike_id = c(28780L, 28780L, 28780L, 28780L, 28780L, 
28780L), start = structure(c(1556858685, 1556953659, 1557271712, 
1557468381, 1557638484, 1557737094), class = c("POSIXct", "POSIXt"
), tzone = "UTC"), end = structure(c(1556902736, 1556981309, 
1557320184, 1557493928, 1557660952, 1557750511), class = c("POSIXct", 
"POSIXt"), tzone = "UTC"), id = c(1, 2, 3, 4, 5, 6)), row.names = c(NA, 
-6L), class = c("data.table", "data.frame"), .internal.selfref = <pointer: 0x1030056e0>)

dput(records)
structure(list(bike_id = c(28780L, 28780L, 28780L, 28780L, 28780L, 
28780L), created_at = structure(c(1556872158.796, 1556917528.845, 
1557004419.928, 1557249860.939, 1557315272.396, 1557358719.333
), class = c("POSIXct", "POSIXt"), tzone = "UTC"), resolved_at = structure(c(1556872537.867, 
1556917648.118, 1557004540.056, 1557249999.892, 1557317804.183, 
1557358836.202), class = c("POSIXct", "POSIXt"), tzone = "UTC")), row.names = c(NA, 
6L), class = "data.frame")

我们可以用data.table不等加入

library(data.table)
setDT(records)[intervals, on = .(bike_id, created_at >= start, created_at <= end)]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

dataTable

tidyverse

R 中两个时间戳之间的左连接的相关文章

如何在R中计算文本中的句子数？

我使用 R 将文本读入readChar 功能我的目的是测试文本句子中字母 a 出现次数与字母 b 出现次数一样多的假设我最近发现了 stringr 包它帮助我对文本做很多有用的事情例如计算字符数以及整个文本中每个字母出现的总数现在
将 Instagram/youtube 嵌入 Shiny R 应用程序

我想通过点击图表来播放 Instagram 或 Youtube 视频例如显示异常值等到目前为止明确告诉 Shiny 视频内容是有效的 require shiny require ggplot2 data df lt data fram
是否可以通过扫描从控制台读取而不回显字符？

这是一个示例函数 passwordEntry lt function cat Enter your password pwd lt scan n 1 what character quiet TRUE invisible pwd 并测试该功
计算每个唯一值出现的次数

假设我有 v rep c 1 2 2 2 25 现在我想计算每个唯一值出现的次数 unique v 返回唯一值是什么但不返回它们的数量 gt unique v 1 1 2 我想要一些能给我的东西 length v v 1 1 25 le
重复测量引导统计数据，按多个因素分组

我有一个看起来像这样的数据框但显然还有更多行等 df lt data frame id c 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 cond c A A B B A A B B A A B B A A B B co
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
时间戳半小时窗口内字段的平均值

我的数据框有列名Timestamp es看起来像 Timestamp es 2015 04 01 09 07 42 31 2015 04 01 09 08 01 29 5 2015 04 01 09 15 03 18 5 2015 04 0
删除特定数据表上的所有边框

我需要使用 PrimeFaces 隐藏一个数据表的所有边框而不是全部我尝试了很多事情但没有人奏效有谁知道该怎么做我已将以下样式单独应用于ui datatable class border hidden important bo
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
API 请求和curl::curl_fetch_memory(url, handle = handle) 中的错误：SSL 证书问题：证书已过期

几天前我运行了代码几个月没有任何问题 GET url myurl query 今天我遇到一个错误 Error in curl curl fetch memory url handle handle SSL certificate pro
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use

随机推荐

ECMASCRIPT 5 与 wro4j 和 Google Closure 编译器

我们将 wro4j 与 Google Closure 和 Maven 一起使用来缩小我们的 JS 默认情况下它不支持 JS 中的严格模式 use strict 它只是将其删除有什么配置我可以做吗pom xml或其他地方让它离开use s
git 提交错误：检测到大文件

您好我正在为 ios 8 1 开发一个应用程序 xcode 我已经使用 googleMaps 框架来实现自动完成功能当我尝试在 Git 中推送我的项目时我收到大文件检测错误后来尝试使用 git lfs 并跟踪 git 检测到的文件
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
Glass 语音命令给定列表中最接近的匹配项

使用 Glass 您可以通过确定 Glass 菜单启动应用程序它似乎会选择最接近的匹配项除非命令相距数英里并且您可以明显看到命令列表无论如何是否可以从应用程序内或从语音提示在初始应用程序触发后给出类似的列表并返回最接近的匹配
nslookup 报告“无法解析 '(null)': 名称无法解析”，尽管它成功解析了 DNS 名称

我在 ubuntu 上并且正在运行 docker 默认桥接网络我有 Zookeeper kafka 的容器化版本以及我编写的与 kafka 对话的应用程序 I do a docker exec it
是否可以使用 CardView 为浮动操作按钮制作阴影？

I know CardView不是为此而设计的但理论上如果cardCornerRadius view size 2它应该导致圆圈我错过了什么吗绘制真实的动画阴影并不困难您可以尝试在 Froyo 等任何 Android 设备上实现 L
每个术语出现的次数

我得到了一个数组a n 2 where n can be 10 5最大时有n个科目和n个学生全部编号为 1 2 n a i 0 and a i 1 1 lt i lt n 表示在第 i 个科目中所有来自a i 0 to a i 1 通过
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
Windows 上的递归移动命令

我需要做一个 sh 的 bat 副本我不太了解 Windows cmd 在 Linux 上我可以做 mv or rsync a SOURCE DEST remove sent files ignore existing whole fil
如何确保在 PHP 的“foreach”循环中重置该值？

我正在写一个简单的 PHP 页面和一些foreach使用了循环以下是脚本 arrs array a b c foreach arrs as arr if substr arr 0 1 b echo This is b End of fir
拖动时获取MKAnnotation的坐标

我正在根据用户添加的注释的位置创建一条路径 MKPolyline 我想允许用户通过拖动引脚来更改路径我目前可以做到这一点但 MKPolyline 不会更新直到引脚被放下我实施了 void mapView MKMapView mapV
如何找到被点击的JLabel并从中显示ImageIcon？

这是我的代码我想知道哪个l单击然后在新框架中显示该 ImageIcon e getSource 不起作用 final JFrame shirts new JFrame T shirts JPanel panel new JPanel n
如何在 IPython 笔记本中对齐小部件按钮

我有以下和平代码 from ipywidgets import widgets from IPython display import display import numpy as np class Test object def ini
jq：将对象数组转换为对象

我收到了来自curl的回复格式如下 list value 1 id 12 value 15 id 13 value 4 id 14 给定 id 之间的映射如下所示 12 newId1 13 newId2 14 newId3 我想做这个
Gradle 列出本地项目依赖项

我有以下项目结构 root A B B1 B2 C 其中 B1 依赖于 B2 和 A B2 也依赖于 A 和 C 所有这些项目还具有从中央存储库下载的外部依赖项是否有一个 gradle 任务来获取所有本地依赖项传递我想要某种 B1 A
使闭包捕获的变量变得易失性

闭包捕获的变量如何与不同线程交互在下面的示例代码中我想将totalEvents 声明为易失性的但C 不允许这样做是的我知道这是错误的代码这只是一个例子 private void WaitFor10Events volatile
MongoDB 聚合：如何检查数组中是否存在包含多个属性的对象

我有一个对象数组我想检查是否有一个对象与多个属性匹配我尝试过使用 in and and但它并没有按照我想要的方式工作这是我当前的实现 https mongoplayground net p dEQp2Q4DW0j 我有一个像这样的数组
仅具有存储过程的实体框架

我对在我们的场景中仅使用实体框架与存储过程的合理性有疑问我们计划拥有一个 N 层架构包括 UI BusinessLayer BLL DataAccessLayer DAL 和 BusinessObjectDefinitions BOD
如何使用 Selenium WebDriver 设置浏览器客户端区域大小？

我找到了如何在 Selenium 问题管理系统中设置浏览器窗口大小请参阅浏览器窗口控件 174 https github com seleniumhq selenium google code issue archive issues 1
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta

R 中两个时间戳之间的左连接

R 中两个时间戳之间的左连接 的相关文章

随机推荐

热门标签

R 中两个时间戳之间的左连接的相关文章