Pandas 按日期将接近的事件分组，然后测试其他值是否相等

2024-02-17

问题：将时间上彼此接近且还具有相同变量的事件分组在一起。例如，给定疾病发病日期和地址，查找在指定时间范围内在同一地点发生的疾病爆发。大 - 300K 行 - pandas 数据框。示例数据：

df = pd.DataFrame(
    [
    ['2020-01-01 10:00', '1', 'A'],
    ['2020-01-01 10:01', '2', 'A'],
    ['2020-01-01 10:02', '3a', 'A'],
    ['2020-01-01 10:02', '3b', 'A'],
    ['2020-01-02 10:03', '4', 'B'],
    ['2020-01-02 10:50', '5', 'B'],
    ['2020-01-02 10:54', '6', 'B'],
    ['2020-01-02 10:55', '7', 'B'],
], columns=['event_time', 'event_id', 'Address']
)

输出应包含包含第一个和最后一个事件日期、事件列表和地址的行

    event_time_start  event_time_end     events_and_related_event_id_list  Address
0 2020-01-01 10:00:00  2020-01-01 10:02:00        [1, 2, 3a]     A
6 2020-01-01 10:54:00  2020-01-01 10:55:00        [6, 7]         B

编辑 - 澄清 - 解决方案

jezrael 匹配日期之前或之后指定天数内的日期的解决方案基于，但包含地址的 groupby。第一步无需修改真实数据即可完美运行。下面没有更改，只是为了清楚起见命名了一些值。

第二步不起作用，因为与示例数据不同，真实数据包含非连续和非顺序事件。这需要：按地址和事件时间对第一个输出进行排序；将 event_times 分组在一起的布尔系列的不同逻辑 (m/timeGroup_bool)；并删除作为 Groupby.agg 的 df 过滤器的 bool 系列。

这是完整的解决方案，基于 jezrael 的简单回应（thef1 lambda，它从分组列表中收集所有值，在这里有最好的解释 https://stackoverflow.com/questions/17657720/python-list-comprehension-double-for).:

    df = pd.DataFrame(
    [
        ['1', 'A', '2020-01-01 10:00'],
        ['2', 'B', '2020-01-01 10:01'],
        ['3', 'A', '2020-01-01 10:01'],
        ['4', 'C', '2020-01-01 10:02'],
        ['5', 'D', '2020-01-01 10:03'],
        ['6', 'A', '2020-01-01 10:03'],
        ['7', 'E', '2020-01-01 10:03'],
        ['8', 'A', '2020-01-01 10:07'],
        ['9', 'A', '2020-01-01 10:09'],
        ['10', 'A', '2020-01-01 10:11'],
        ['11', 'F', '2020-01-01 10:54'],
        ['12', 'G', '2020-01-01 10:55'],
        ['13', 'F', '2020-01-01 10:56'],
    ], columns=['id', 'Address', 'event_time']
)
df = df.sort_values(by=["Address", "event_time"])
df['event_time'] = pd.to_datetime(df['event_time'])

## group by address and surrounding time
timeDiff = pd.Timedelta("2m")       # time span between related events
def idsNearDates(mDf):
    f = lambda colName, val: mDf.loc[mDf['event_time'].between(val - timeDiff, val + timeDiff),
                            'id'].drop(colName).tolist()
    mDf['relatedIds'] = [f(colName, value) for colName, value in mDf['event_time'].items()]
    return mDf
df_1stStep  = df.groupby('Address').apply(idsNearDates).sort_values(by=["Address", 'event_time'])

## aggregate the initial output into a single row per related events
# mark where event times are too far apart
timeGroup_bool = ~(df_1stStep['event_time'].between(df_1stStep['event_time'].shift(1) - timeDiff,
                                                             df_1stStep['event_time'].shift(1) + timeDiff))
# create a single list from all grouped lists
f1 = lambda x: list(dict.fromkeys([value for idList in x for value in idList]))
df_2ndstep = (df_1stStep.groupby([(timeGroup_bool).cumsum(),'Address'])
                   .agg(Date_first=('event_time','min'),
                        Date_last=('event_time','max'),
                        Ids=('relatedIds',f1))
                   .droplevel(0)
                   .reset_index())
# get rid of rows with empty lists
df_2ndstep = df_2ndstep[df_2ndstep['Ids'].str.len() > 0]

您可以使用numpy广播进行聚合操作：

def find_related_event(df):
    evt = df['event_time'].values
    out = np.abs(evt[:, None] - evt) <= pd.Timedelta('1m')
    out[np.diag_indices(out.shape[0])] = False
    df1 = df.loc[out.any(axis=1)]
    return pd.Series({'index': df1.index[0],
        'event_time_start': df1['event_time'].iloc[0],
        'event_time_stop': df1['event_time'].iloc[-1],
        'events_and_related_event_id_list': df1['event_id'].tolist()
    })

out = (df.groupby('Address', as_index=False).apply(find_related_event)
         .set_index('index').rename_axis(None)

Output:

>>> out
  Address    event_time_start     event_time_stop events_and_related_event_id_list
0       A 2020-01-01 10:00:00 2020-01-01 10:02:00                       [1, 2, 3a]
6       B 2020-01-01 10:54:00 2020-01-01 10:55:00                           [6, 7]

选择

def find_related_event(evt):
    out = np.abs(evt.values[:, None] - evt.values) <= pd.Timedelta('1m')
    out[np.diag_indices(out.shape[0])] = False
    return out.any(axis=1)

m = df.groupby('Address')['event_time'].transform(find_related_event)
out = df.loc[m].groupby('Address', as_index=False).agg(
            event_time_start=('event_time', 'first'),
            event_time_stop=('event_time', 'first'),
            events_and_related_event_id_list=('event_id', list)
      )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 按日期将接近的事件分组，然后测试其他值是否相等的相关文章

Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

如何通过代码在一个实例中创建 .NET 程序的另一个实例？

我需要能够通过单击按钮创建另一个全新的程序实例同时保留现有实例 this ShowDialog new Form1 上面的语句导致当前表单成为新表单的所有者并且我需要第二个实例独立于现有实例谁能帮我这个为了阐述 Desolator
Tkinter 聊天机器人语音气泡设计

首先我很抱歉我的英语不好作为业余爱好者我正在使用 tkinter 设计一个聊天机器人我想在对话框窗口中添加类似 Whatsapp 的气球我还希望文字从下往上显示在窗口中我尝试将其作为画布但没有成功我尝试作为标签但出现错误如
PrestaShop：允许客户上传PDF、AI和EPS文件作为产品定制

我正在运行 Prestashop 1 6 1 7 并且我有以下 pictureUpload 方法允许用户上传他们选择的文件默认情况下 Prestashop 仅允许上传 GIF JPG JPEG 或 PNG 我试图让用户能够上传更多类型
Python + Celery：防止重复任务执行

如何防止同时执行两个或多个相同的任务例如如果我有一个名为do stuff以及调用它的程序只有在没有其他实例的情况下才应该执行它do stuff当前正在运行根据DOCS http docs celeryproject org en l
Mac 上的运行时错误：freeze_support()

我是Python新手我想学习如何在 python 中并行处理我看到了下面的例子 import multiprocessing as mp np random RandomState 100 arr np random randint 0
在 SSL 握手中，如果服务器发送带有空“证书颁发机构”列表的证书请求，我们可以让客户端发送证书吗

我目前正在 Java 中开发 SSL 客户端需要与需要客户端身份验证的第三方服务器建立 https 连接服务器人员给了我一个受信任的根 CA 证书用于签署客户端和服务器证书我已将此证书放在我这边的信任库中服务器人员也有这个根 CA
Jersey JUnit 测试：@WebListener ServletContextListener 未调用

我在泽西岛创建了这个测试来自docs https jersey java net documentation latest test framework html 效果很好但有一个问题 WebListener ServletContex
将 yfinance 资产负债表结果导出到 CSV

此代码非常适合获取季度资产负债表结果但我似乎无法导出公司指标到 CSV 文件 import pandas as pd import yfinance as yf import datetime import time companies
如何在 Android 中从 Firebase 同步文件？

我正在尝试制作一个可处理音频文件的应用程序我必须在应用程序的一部分中从 Firebase 导入和合并音频文件这是合并操作的代码块 protected void combine String randomFileName String v
自动将 LinqToSql 基类添加到实体的方法？

是否有自动方法将基类添加到 Linq2Sql 实体我知道我可以定义一个部分并实现它但必须有一种自动化的方法对吗 LINQ to SQL 代码生成器直接支持这一点数据上下文的基类可以在设计器中设置如Base Class财产或者直
如何输出分数而不是小数？

在C 中当我计算2 3时它将输出小数值我怎样才能得到原始格式即2 3 而不是0 66666667 Thanks 你不能您需要编写一个专门用于保存有理数即分数的类或者也许只是使用Boost 有理数库 http www boos
如何使用 JPA 或 JDBC 使用 REF CURSOR 调用特定的 PL/SQL 函数

我的问题是我想在 Spring Boot 中的 PostConstruct 方法中调用 PL SQL 函数此函数返回有关数据库中表的信息如上所示 CREATE OR REPLACE FUNCTION dbINFO return sys
使用 scons 编译带有 -std=c++11 标志的 c++ 文件

我正在尝试使用 scons 编译带有 std c 11 选项的 c 文件文件测试 cc include
如何在 webpack 中以正确的顺序导入样式

我使用 bootstrap css 和一个用 less 编写的附加模板我将两者导入到我的反应组件的根组件中不幸的是即使 less 文件是第二个导入的文件引导程序中的样式也会推翻 less 样式有没有办法确保 webpack 中样式
如何找出哪个进程正在使用我的文件？

当我在 Build 上遇到这样的错误时如何找出哪个进程正在使用我的文件错误 18 无法将文件 Some dll 复制到 bin Debug Some dll 这进程无法访问文件 bin Debug Some dll 因为它是被另一个
Sublime Text 2 中可以显示确切的位置吗？

我一直在学习 Markdown 并使用 Python Markdown 包当我尝试转换从网络粘贴的文本时它通常会返回以下内容 UnicodeEncodeError ascii codec can t encode character u
ASP.NET MVC 通过字符串 id 路由？

在 ASP NET 2 中如何创建一个允许通过字符串 id 例如 ProductCode 查找对象例如 Product 的路由通过整数 ID 例如 ProductId 查找同一对象的路线是自动的所以我实际上不知道它是如何工作的根据
如何在没有安全问题的情况下运行用户提供的Javascript（例如jsFiddle、jsBin等）？

我需要运行一个完全由用户编写的 Javascript 函数我给他提供了一个骨架但细节需要他指定例如 function main model console the user can enter anything here ideall
如何高效查询包含两个WHERE子句的表（Android Room）

假设我有一个对象 class Person String firstName String lastName other fields 和一个数据库其中包含 Entity class DatabaseTable String firstN
Pandas 按日期将接近的事件分组，然后测试其他值是否相等

问题将时间上彼此接近且还具有相同变量的事件分组在一起例如给定疾病发病日期和地址查找在指定时间范围内在同一地点发生的疾病爆发大 300K 行 pandas 数据框示例数据 df pd DataFrame 2020 01 01 10

Pandas 按日期将接近的事件分组，然后测试其他值是否相等

Pandas 按日期将接近的事件分组，然后测试其他值是否相等 的相关文章

随机推荐

热门标签

Pandas 按日期将接近的事件分组，然后测试其他值是否相等的相关文章