pandas 在最接近的时间戳上合并数据帧

2023-11-21

我想合并三列上的两个数据帧：电子邮件、主题和时间戳。数据帧之间的时间戳不同，因此我需要确定一组电子邮件和主题最接近的匹配时间戳。

下面是一个可重现的示例，使用建议的最接近匹配函数this问题。

import numpy as np
import pandas as pd
from pandas.io.parsers import StringIO

def find_closest_date(timepoint, time_series, add_time_delta_column=True):
   # takes a pd.Timestamp() instance and a pd.Series with dates in it
   # calcs the delta between `timepoint` and each date in `time_series`
   # returns the closest date and optionally the number of days in its time delta
   deltas = np.abs(time_series - timepoint)
   idx_closest_date = np.argmin(deltas)
   res = {"closest_date": time_series.ix[idx_closest_date]}
   idx = ['closest_date']
   if add_time_delta_column:
      res["closest_delta"] = deltas[idx_closest_date]
      idx.append('closest_delta')
   return pd.Series(res, index=idx)


a = """timestamp,email,subject
2016-07-01 10:17:00,[email protected],subject3
2016-07-01 02:01:02,[email protected],welcome
2016-07-01 14:45:04,[email protected],subject3
2016-07-01 08:14:02,[email protected],subject2
2016-07-01 16:26:35,[email protected],subject4
2016-07-01 10:17:00,[email protected],subject3
2016-07-01 02:01:02,[email protected],welcome
2016-07-01 14:45:04,[email protected],subject3
2016-07-01 08:14:02,[email protected],subject2
2016-07-01 16:26:35,[email protected],subject4
"""

b = """timestamp,email,subject,clicks,var1
2016-07-01 02:01:14,[email protected],welcome,1,1
2016-07-01 08:15:48,[email protected],subject2,2,2
2016-07-01 10:17:39,[email protected],subject3,1,7
2016-07-01 14:46:01,[email protected],subject3,1,2
2016-07-01 16:27:28,[email protected],subject4,1,2
2016-07-01 10:17:05,[email protected],subject3,0,0
2016-07-01 02:01:03,[email protected],welcome,0,0
2016-07-01 14:45:05,[email protected],subject3,0,0
2016-07-01 08:16:00,[email protected],subject2,0,0
2016-07-01 17:00:00,[email protected],subject4,0,0
"""

请注意，对于[电子邮件受保护]最接近的匹配时间戳是 10:17:39，而对于[电子邮件受保护]最接近的匹配是 10:17:05。

a = """timestamp,email,subject
2016-07-01 10:17:00,[email protected],subject3
2016-07-01 10:17:00,[email protected],subject3
"""

b = """timestamp,email,subject,clicks,var1
2016-07-01 10:17:39,[email protected],subject3,1,7
2016-07-01 10:17:05,[email protected],subject3,0,0
"""
df1 = pd.read_csv(StringIO(a), parse_dates=['timestamp'])
df2 = pd.read_csv(StringIO(b), parse_dates=['timestamp'])

df1[['closest', 'time_bt_x_and_y']] = df1.timestamp.apply(find_closest_date, args=[df2.timestamp])
df1

df3 = pd.merge(df1, df2, left_on=['email','subject','closest'], right_on=['email','subject','timestamp'],how='left')

df3
timestamp_x        email   subject             closest  time_bt_x_and_y         timestamp_y  clicks  var1
  2016-07-01 10:17:00  [email protected]  subject3 2016-07-01 10:17:05         00:00:05                 NaT     NaN   NaN
  2016-07-01 02:01:02  [email protected]   welcome 2016-07-01 02:01:03         00:00:01                 NaT     NaN   NaN
  2016-07-01 14:45:04  [email protected]  subject3 2016-07-01 14:45:05         00:00:01                 NaT     NaN   NaN
  2016-07-01 08:14:02  [email protected]  subject2 2016-07-01 08:15:48         00:01:46 2016-07-01 08:15:48     2.0   2.0
  2016-07-01 16:26:35  [email protected]  subject4 2016-07-01 16:27:28         00:00:53 2016-07-01 16:27:28     1.0   2.0
  2016-07-01 10:17:00  [email protected]  subject3 2016-07-01 10:17:05         00:00:05 2016-07-01 10:17:05     0.0   0.0
  2016-07-01 02:01:02  [email protected]   welcome 2016-07-01 02:01:03         00:00:01 2016-07-01 02:01:03     0.0   0.0
  2016-07-01 14:45:04  [email protected]  subject3 2016-07-01 14:45:05         00:00:01 2016-07-01 14:45:05     0.0   0.0
  2016-07-01 08:14:02  [email protected]  subject2 2016-07-01 08:15:48         00:01:46                 NaT     NaN   NaN
  2016-07-01 16:26:35  [email protected]  subject4 2016-07-01 16:27:28         00:00:53                 NaT     NaN   NaN

结果是错误的，主要是因为最接近的日期不正确，因为它没有考虑电子邮件和主题。

预期结果是

修改该函数以提供给定电子邮件和主题的最接近的时间戳会很有帮助。

df1.groupby(['email','subject'])['timestamp'].apply(find_closest_date, args=[df1.timestamp])

但这会产生错误，因为该函数没有为组对象定义。这样做的最佳方法是什么？

请注意，如果合并df1 and df2 on email and subject，那么结果拥有一切可能relevant时间戳配对：

In [108]: result = pd.merge(df1, df2, how='left', on=['email','subject'], suffixes=['', '_y']); result
Out[108]: 
             timestamp        email   subject         timestamp_y  clicks  var1
0  2016-07-01 10:17:00  [email protected]  subject3 2016-07-01 10:17:39       1     7
1  2016-07-01 10:17:00  [email protected]  subject3 2016-07-01 14:46:01       1     2
2  2016-07-01 02:01:02  [email protected]   welcome 2016-07-01 02:01:14       1     1
3  2016-07-01 14:45:04  [email protected]  subject3 2016-07-01 10:17:39       1     7
4  2016-07-01 14:45:04  [email protected]  subject3 2016-07-01 14:46:01       1     2
5  2016-07-01 08:14:02  [email protected]  subject2 2016-07-01 08:15:48       2     2
6  2016-07-01 16:26:35  [email protected]  subject4 2016-07-01 16:27:28       1     2
7  2016-07-01 10:17:00  [email protected]  subject3 2016-07-01 10:17:05       0     0
8  2016-07-01 10:17:00  [email protected]  subject3 2016-07-01 14:45:05       0     0
9  2016-07-01 02:01:02  [email protected]   welcome 2016-07-01 02:01:03       0     0
10 2016-07-01 14:45:04  [email protected]  subject3 2016-07-01 10:17:05       0     0
11 2016-07-01 14:45:04  [email protected]  subject3 2016-07-01 14:45:05       0     0
12 2016-07-01 08:14:02  [email protected]  subject2 2016-07-01 08:16:00       0     0
13 2016-07-01 16:26:35  [email protected]  subject4 2016-07-01 17:00:00       0     0

您现在可以获取每行时间戳差异的绝对值：

result['diff'] = (result['timestamp_y'] - result['timestamp']).abs()

然后使用

idx = result.groupby(['timestamp','email','subject'])['diff'].idxmin()
result = result.loc[idx]

找到每组差异最小的行['timestamp','email','subject'].

import numpy as np
import pandas as pd
from pandas.io.parsers import StringIO

a = """timestamp,email,subject
2016-07-01 10:17:00,[email protected],subject3
2016-07-01 02:01:02,[email protected],welcome
2016-07-01 14:45:04,[email protected],subject3
2016-07-01 08:14:02,[email protected],subject2
2016-07-01 16:26:35,[email protected],subject4
2016-07-01 10:17:00,[email protected],subject3
2016-07-01 02:01:02,[email protected],welcome
2016-07-01 14:45:04,[email protected],subject3
2016-07-01 08:14:02,[email protected],subject2
2016-07-01 16:26:35,[email protected],subject4
"""

b = """timestamp,email,subject,clicks,var1
2016-07-01 02:01:14,[email protected],welcome,1,1
2016-07-01 08:15:48,[email protected],subject2,2,2
2016-07-01 10:17:39,[email protected],subject3,1,7
2016-07-01 14:46:01,[email protected],subject3,1,2
2016-07-01 16:27:28,[email protected],subject4,1,2
2016-07-01 10:17:05,[email protected],subject3,0,0
2016-07-01 02:01:03,[email protected],welcome,0,0
2016-07-01 14:45:05,[email protected],subject3,0,0
2016-07-01 08:16:00,[email protected],subject2,0,0
2016-07-01 17:00:00,[email protected],subject4,0,0
"""

df1 = pd.read_csv(StringIO(a), parse_dates=['timestamp'])
df2 = pd.read_csv(StringIO(b), parse_dates=['timestamp'])

result = pd.merge(df1, df2, how='left', on=['email','subject'], suffixes=['', '_y'])
result['diff'] = (result['timestamp_y'] - result['timestamp']).abs()
idx = result.groupby(['timestamp','email','subject'])['diff'].idxmin()
result = result.loc[idx].drop(['timestamp_y','diff'], axis=1)
result = result.sort_index()
print(result)

yields

             timestamp        email   subject  clicks  var1
0  2016-07-01 10:17:00  [email protected]  subject3       1     7
2  2016-07-01 02:01:02  [email protected]   welcome       1     1
4  2016-07-01 14:45:04  [email protected]  subject3       1     2
5  2016-07-01 08:14:02  [email protected]  subject2       2     2
6  2016-07-01 16:26:35  [email protected]  subject4       1     2
7  2016-07-01 10:17:00  [email protected]  subject3       0     0
9  2016-07-01 02:01:02  [email protected]   welcome       0     0
11 2016-07-01 14:45:04  [email protected]  subject3       0     0
12 2016-07-01 08:14:02  [email protected]  subject2       0     0
13 2016-07-01 16:26:35  [email protected]  subject4       0     0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

MERGE

pandas 在最接近的时间戳上合并数据帧的相关文章

如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
gitlab 请求将分支 A 合并到开发中（落后 3 次提交）我应该担心吗？

在 gitlab 中创建合并请求时我经常收到一条消息请求将分支 A 合并到开发中 x 提交落后 gitlab想告诉我什么我应该担心还是需要修复某些东西什么一段时间后合并请求在项目中打开时由于其他人合并了自己的更改您尝试合并到的
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
git Blame：合并后正确的作者

GIT 合并引入了新的提交这会导致 git Blame 问题合并的行似乎是由进行合并的开发人员提交的我可以理解这种情况冲突的变化因为他解决了冲突但是有没有办法让非冲突线路不发生这种情况呢一些 git Blame 的选择如果没有
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
C# 动态/expando 对象的深度/嵌套/递归合并

我需要在 C 中合并 2 个动态对象我在 stackexchange 上找到的所有内容仅涵盖非递归合并但我正在寻找能够进行递归或深度合并的东西非常类似于jQuery 的 extend obj1 obj2 http api jquer
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

我可以在 Visual Studio 中对文件进行十六进制编辑吗？

我想编辑二进制文件但我不想使用 Visual Studio 以外的其他工具因为来回切换很痛苦是否有插件或某些内置功能可以在 Visual Studio 中执行此操作 Menu File Open File 选择要打开的文件在底部的打
是否可以排除一个特定 div 容器的所有 css 样式？

我使用时遇到问题font face在我的网站上当我用它自己的样式在 html 文件上测试它时我可以让它工作但如果我包含其他样式表则不行我尝试过覆盖样式以不同的顺序放置样式表等等但没有任何效果所以我想知道是否可以排除所有 CS
如何让多个listview响应不同的onItemClickListener？

我正在使用 4list 视图和扩展 Activity 的类我必须执行不同的列表项单击功能我可以使用以下方法代码吗那么如何设置单onItemClickListener对于多个ListViews public void onItemCli
在 Android 中使用 JavaMail API 发送电子邮件，而不使用默认/内置应用程序

我正在尝试在 Android 中创建一个邮件发送应用程序如果我使用 Intent emailIntent new Intent android content Intent ACTION SEND 这将启动内置的 Android 应用程序
如何使用java读取文本文件中的最后一行[重复]

这个问题在这里已经有答案了我正在制作日志并且想要读取 log txt 文件的最后一行但是在读取最后一行后我无法让 BufferedReader 停止这是我的代码 try String sCurrentLine br new Buf
浏览器中的后退/前进会改变 javascript 变量吗？

script gt 假设变量 x 更改为 1 然后用户单击一个链接当用户点击后退时 x会是0还是1 详见另一个问题这个问题的真正答案是这取决于浏览器 In Firefox and Opera the below page will
Java：打印字符串中的唯一字符

我正在编写一个程序它将打印字符串中的唯一字符通过扫描仪输入我创建了一种尝试实现此目的的方法但我不断获得不重复的字符而不是字符串特有的字符或多个字符我只想要唯一的字母这是我的代码 import java util Scanne
如何从电子邮件获取 Facebook 个人资料图像？

有一个名为 Xobni 的 Outlook 插件它有一个非常酷的功能如果联系人有电子邮件地址它会获取该联系人的个人资料图片并显示它他们的常见问题解答如下 Xobni 向 Facebook 发送加密的电子邮件地址以检索当前在 Xob
VS 2010 + IIS：无法在 Web 服务器上启动调试。启动的 URL 的 IIS 工作进程当前未运行

我最近开始收到这条消息 Unable to start debugging on the web server The IIS worker process for the launched URL is not currently run
责任链设计模式和使用简单的 if-elseif-else 块有什么区别？

前几天我正在查找责任链我发现this例子基本上有一个抽象处理程序然后是具体处理程序每个具体处理程序都实现父抽象处理程序的handle 方法实现是这样的首先检查该特定处理程序是否可以处理当前请求如果不能则将请求传递给其后继者
*ngIf 不对布尔值变化做出反应

这是一些代码片段同样的模式据我所知适用于英雄教程登录 component html div class four wide column middle aligned div class ui error message Inval
JsonConvert.SerializeObject 与 JsonSerializer.Serialize

好吧我不明白为什么JsonConvert SerializeObject序列化DateTime与 JsonSerializer Serialize 不同的对象鉴于班级 public class Test JsonConverter ty
Angular 2：获取多个选中复选框的值

我的问题非常简单我有一个像这样的复选框列表 div class form group div
Android 中调用另一个 Activity 时如何提供动画？

我有两个活动 A 和 B 我想在什么时候有收缩动画 Activity A 调用 B 并在 Activity B 调用 A 时最大化动画我不需要为此使用动画 xml 文件当我们在 Android 中调用另一个 Activity 时它会给
Xcode：视图控制器和应用程序委托之间的连接

这可能是一个菜鸟问题但我无法理解它如何在 2 个视图控制器或一个视图控制器与我的应用程序代理之间建立连接我通常做的是将以下内容添加到我的应用程序委托 h 文件中 class RootViewController interface T
根据另一个表的内容在 SQL 中选择记录

我对 SQL 有点陌生在构造 select 语句时遇到困难我有两张桌子 Table users int id varchar name Table properties int userID int property 我想要具有特定属性
如何将外部库添加到qt4应用程序c++

将额外编译的库添加到我的 qt 项目的最佳方法是什么例如 boost 或 poco libs 谢谢如果您使用 GCC 编译器请将类似以下内容添加到 pro 文件中对于升压 INCLUDEPATH d Biblioteki C boo
Scala 连接池库？

我正在尝试在新的 Scala 项目中使用 Squeryl 这是我在 Scala 中的第一个项目所以我正在寻找一个好的 Scala 库来处理连接池当然我也可以使用Java库什么最适合 SQueryl 在 Java 库中我正在考虑 DB
如何在角度4上设置公共路径

所以我需要配置我的应用程序的公共文件夹换句话说我希望资产在生成的索引文件上指向我自己的路径就像 src mypublicpath assets app js 我确信这是需要在 angular cli json 配置上设置的值这是我的
pandas 在最接近的时间戳上合并数据帧

我想合并三列上的两个数据帧电子邮件主题和时间戳数据帧之间的时间戳不同因此我需要确定一组电子邮件和主题最接近的匹配时间戳下面是一个可重现的示例使用建议的最接近匹配函数this问题 import numpy as np import

pandas 在最接近的时间戳上合并数据帧

pandas 在最接近的时间戳上合并数据帧 的相关文章

随机推荐

热门标签

pandas 在最接近的时间戳上合并数据帧的相关文章