如何在一行中计算数据框中的并发事件？

2023-12-02

我有一个包含电话的数据集。我想计算每条记录有多少个活动呼叫。我找到了这个question但我想避免循环和函数。

每个调用都有一个date, a start time and a end time.

数据框：

      start       end        date
0  09:17:12  09:18:20  2016-08-10
1  09:15:58  09:17:42  2016-08-11
2  09:16:40  09:17:49  2016-08-11
3  09:17:05  09:18:03  2016-08-11
4  09:18:22  09:18:30  2016-08-11

我想要的是：

      start       end        date  activecalls
0  09:17:12  09:18:20  2016-08-10            1
1  09:15:58  09:17:42  2016-08-11            1
2  09:16:40  09:17:49  2016-08-11            2
3  09:17:05  09:18:03  2016-08-11            3
4  09:18:22  09:18:30  2016-08-11            1

My code:

import pandas as pd

df = pd.read_clipboard(sep='\s\s+')

df['activecalls'] = df[(df['start'] <= df.loc[df.index]['start']) & \
                       (df['end'] > df.loc[df.index]['start']) & \
                       (df['date'] == df.loc[df.index]['date'])].count()

print(df)

我得到什么：

      start       end        date  activecalls
0  09:17:12  09:18:20  2016-08-10          NaN
1  09:15:58  09:17:42  2016-08-11          NaN
2  09:16:40  09:17:49  2016-08-11          NaN
3  09:17:05  09:18:03  2016-08-11          NaN
4  09:18:22  09:18:30  2016-08-11          NaN

您可以使用：

#convert time and date to datetime
df['date_start'] = pd.to_datetime(df.start + ' ' + df.date)
df['date_end'] = pd.to_datetime(df.end + ' ' + df.date)
#remove columns
df = df.drop(['start','end','date'], axis=1)

带循环的解决方案：

active_events= []
for i in df.index:
    active_events.append(len(df[(df["date_start"]<=df.loc[i,"date_start"]) & 
                                (df["date_end"]> df.loc[i,"date_start"])]))
df['activecalls'] = pd.Series(active_events)
print (df)
           date_start            date_end  activecalls
0 2016-08-10 09:17:12 2016-08-10 09:18:20            1
1 2016-08-11 09:15:58 2016-08-11 09:17:42            1
2 2016-08-11 09:16:40 2016-08-11 09:17:49            2
3 2016-08-11 09:17:05 2016-08-11 09:18:03            3
4 2016-08-11 09:18:22 2016-08-11 09:18:30            1

解决方案与merge

#cross join
df['tmp'] = 1
df1 = pd.merge(df,df.reset_index(),on=['tmp'])
df = df.drop('tmp', axis=1)
#print (df1)

#filtering by conditions
df1 = df1[(df1["date_start_x"]<=df1["date_start_y"])  
          (df1["date_end_x"]> df1["date_start_y"])]
print (df1)
          date_start_x          date_end_x  activecalls_x  tmp  index  \
0  2016-08-10 09:17:12 2016-08-10 09:18:20              1    1      0   
6  2016-08-11 09:15:58 2016-08-11 09:17:42              1    1      1   
7  2016-08-11 09:15:58 2016-08-11 09:17:42              1    1      2   
8  2016-08-11 09:15:58 2016-08-11 09:17:42              1    1      3   
12 2016-08-11 09:16:40 2016-08-11 09:17:49              2    1      2   
13 2016-08-11 09:16:40 2016-08-11 09:17:49              2    1      3   
18 2016-08-11 09:17:05 2016-08-11 09:18:03              3    1      3   
24 2016-08-11 09:18:22 2016-08-11 09:18:30              1    1      4   

          date_start_y          date_end_y  activecalls_y  
0  2016-08-10 09:17:12 2016-08-10 09:18:20              1  
6  2016-08-11 09:15:58 2016-08-11 09:17:42              1  
7  2016-08-11 09:16:40 2016-08-11 09:17:49              2  
8  2016-08-11 09:17:05 2016-08-11 09:18:03              3  
12 2016-08-11 09:16:40 2016-08-11 09:17:49              2  
13 2016-08-11 09:17:05 2016-08-11 09:18:03              3  
18 2016-08-11 09:17:05 2016-08-11 09:18:03              3  
24 2016-08-11 09:18:22 2016-08-11 09:18:30              1

#get size - active calls
print (df1.groupby(['index'], sort=False).size())
index
0    1
1    1
2    2
3    3
4    1
dtype: int64

df['activecalls'] = df1.groupby('index').size()
print (df)
           date_start            date_end  activecalls
0 2016-08-10 09:17:12 2016-08-10 09:18:20            1
1 2016-08-11 09:15:58 2016-08-11 09:17:42            1
2 2016-08-11 09:16:40 2016-08-11 09:17:49            2
3 2016-08-11 09:17:05 2016-08-11 09:18:03            3
4 2016-08-11 09:18:22 2016-08-11 09:18:30            1

Timings:

def a(df):
    active_events= []
    for i in df.index:
        active_events.append(len(df[(df["date_start"]<=df.loc[i,"date_start"]) & (df["date_end"]> df.loc[i,"date_start"])]))
    df['activecalls'] = pd.Series(active_events)
    return (df)

def b(df):
    df['tmp'] = 1
    df1 = pd.merge(df,df.reset_index(),on=['tmp'])
    df = df.drop('tmp', axis=1)
    df1 = df1[(df1["date_start_x"]<=df1["date_start_y"])  & (df1["date_end_x"]> df1["date_start_y"])]
    df['activecalls'] = df1.groupby('index').size()
    return (df)

print (a(df))
print (b(df))

In [160]: %timeit (a(df))
100 loops, best of 3: 6.76 ms per loop

In [161]: %timeit (b(df))
The slowest run took 4.42 times longer than the fastest. This could mean that an intermediate result is being cached.
100 loops, best of 3: 4.61 ms per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

datetime

pandas

conditionalstatements

如何在一行中计算数据框中的并发事件？的相关文章

使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
如何在 Python 中检索 for 循环中的剩余项目？

我有一个简单的 for 循环迭代项目列表在某些时候我知道它会破裂我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
绘制随时间变化的分类数据计数

我有一个数据框 df 其中有一列包含分类数据 ETH 带有 DateTimeIndex 我想绘制类别counts随着时间的推移它们按天索引我最好按年绘制它们 df pd DataFrame County 0 Bexar 3 Nueces
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
ipython/ pylab/ matplotlib安装和初始化错误

我在 OS X El Captain 上安装了 matplotlib anaconda ipython 然而即使在尝试以所有可能的方式设置环境变量之后我仍无法启动 ipython shell pylab 版本这是错误 ImportEr
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

Angular 6 代理不再工作

我有一个 Angular 应用程序和一个 Web API 为了在本地进行测试我使用代理配置文件 proxy conf json api target host localhost protocol http port 50565 secu
以编程方式将销售价格添加到产品变体中

我需要以编程方式更新可变产品及其所有变体的销售价格我需要添加什么样的元字段我正在尝试更新主要产品例如 update post meta post id regular price 100 update post meta post i
重写java中的“私有”方法

这个想法有些含糊不清我需要一些澄清我的问题是使用这段代码时 public class B private void don System out println hoho private public static void main
控制器上下文为空

我有这个 MVC4 控制器 ControllerB public class MyControllerB Controller public bool Check string actionName ControllerBase contr
Lasso sklearn 中的选项 normalize = True 有何作用？

我有一个矩阵其中每列的平均值为 0 标准差为 1 In 67 x val std axis 0 min Out 70 0 99999999999999922 In 71 x val std axis 0 max Out 71 1 0000
为什么 ggplot annotate 会抛出此警告：在 is.na(x) 中： is.na() 应用于类型“表达式”的非（列表或向量）

我想用一个简单的方程注释 ggplot 图下面的代码可以做到这一点但它会引发有关应用 is na 的警告 library ggplot2 ggplot annotate geom text x 1 y 1 label expressio
如何在 d3 时间格式数据中包含时区？

我正在使用 d3 v4 我的 x 轴数据由以毫秒为单位的时间组成自 1970 年以来例如我想将其显示为东部标准时间 08 09 17 5 20 PM EDT 所以我尝试了 focus select text text d value
如何获取J2ME支持的所有设备的IMEI？ [复制]

这个问题在这里已经有答案了可能的重复 J2me中如何动态获取手机IMEI号有没有办法获得 J2ME 支持的所有设备的 IMEI 我做了一些谷歌搜索并找到了下面的解决方案但它是针对特定设备的诺基亚 System getProperty
MVC4 Eonasdan Bootstrap 3 日期时间选择器无法打开选择器屏幕

我正在使用此处链接的 Bootstrap 3 日期和时间选择器 Bootstrap 3 的日期时间选择器我无法打开拣选窗口当您单击文本框时没有任何反应浏览器控制台 Chrome 上也不会显示任何消息因此事实上该控件作为一个简单
如何获取通过电话接入点连接的设备数量？

众所周知 Android 设备具有将手机变成接入点热点的功能是否可以通过编程方式获取连接到手机 WiFi 接入点的设备数量您可以对接入点上连接的设备进行计数并在 Android 上通过以下链接获取硬件 MAC 地址 http www
基本的情节示例显示 Jupyter 实验室中没有情节

我只是尝试在 jupyter 笔记本中离线使用情节使用 jupyter 实验室这docs给出这个例子 import plotly import plotly graph objs as go plotly offline init no
Telerik MVC Grid ClientTemplate 复选框最初未显示

我有一个与此处的帖子非常相似的问题带有复选框的 Telerik 网格网格最初绘制时复选框不显示基本上我有一个 Telerik MVC3 剃刀网格其中包含一个由复选框组成的 ClientTemplate 列当页面最初加载时该复选
关于window上的jQuery源==的问题

data function elem name data if jQuery acceptData elem return elem elem window windowData elem 直接从 jQuery 源复制为什么使用不安全el
类型错误：添加的图层必须是 Layer 类的实例。找到：

导入库和模型 from future import print function import keras from keras datasets import mnist from tensorflow keras models impo
openpyxl - x 和 y 轴刻度的增量

我正在创建的条形图会自动缩放 Y 轴刻度增量从 0 开始为0 5 1 1 5等等我想让它只以整数递增即0 1 2 3 4等等我试过了chart y axis tickLblSkip 1但我有疑问因为我相信这只是标签本身而不是实际的
是否可以在 XP 上运行 .NET 4.5 应用程序？

首先我已阅读以下内容连接案例 VS case 尤其是这个频道9帖子因此从最后一个要点来看我确实认为没有办法解决这个问题但我必须看看是否可以获得明确的答案因为我的团队希望从 NET 4 0 升级到 NET 4 5 不过我们必须
动态字典名称解码器 json

Swift 4 我的情况与在动态类型对象上使用 Codable但对我来说变化的变量是字典的名称而不是里面的键看起来像 customName constantKey Double constantKey2 Double 这是我试图更改
Raspberry Pi 4 I2C 总线无法正常工作

尽管 i2cDetect 确实检测到目标但我的 Raspberry Pi 4 Model B 上的 I2C 总线无法正常工作我尝试使用 Raspberry Pi Sense HAT 和 SSD1306 OLED 显示屏以及带有 I2C
如何知道Databricks支持的文件格式？

我需要将各种文件不同类型加载到 Spark 数据框中 Databricks 支持所有这些文件格式吗如果是我在哪里可以获得每种文件格式支持的选项列表 delimited csv parquet avro excel json Than
如何在一行中计算数据框中的并发事件？

我有一个包含电话的数据集我想计算每条记录有多少个活动呼叫我找到了这个question但我想避免循环和函数每个调用都有一个date a start time and a end time 数据框 start end date 0 09

如何在一行中计算数据框中的并发事件？

如何在一行中计算数据框中的并发事件？ 的相关文章

随机推荐

热门标签

如何在一行中计算数据框中的并发事件？的相关文章