将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法

2024-03-08

我正在寻找解决方案来加速我编写的函数，以循环遍历 pandas 数据帧并比较当前行和前一行之间的列值。

例如，这是我的问题的简化版本：

   User  Time                 Col1  newcol1  newcol2  newcol3  newcol4
0     1     6     [cat, dog, goat]        0        0        0        0
1     1     6         [cat, sheep]        0        0        0        0
2     1    12        [sheep, goat]        0        0        0        0
3     2     3          [cat, lion]        0        0        0        0
4     2     5  [fish, goat, lemur]        0        0        0        0
5     3     9           [cat, dog]        0        0        0        0
6     4     4          [dog, goat]        0        0        0        0
7     4    11                [cat]        0        0        0        0

目前我有一个函数可以循环并计算 ' 的值newcol1' and 'newcol2'基于是否'User' 自上一行以来发生了变化，并且 ' 中的差异是否存在Time' 值大于 1。它还会查看存储在 ' 中的数组中的第一个值Col1' and 'Col2'和更新'newcol3' and 'newcol4' 如果这些值自上一行以来发生了变化。

这是我当前正在做的伪代码（因为我已经简化了问题，所以我还没有对此进行测试，但它与我在 ipython 笔记本中实际所做的非常相似）：

 def myJFunc(df):
...     #initialize jnum counter
...     jnum = 0;
...     #loop through each row of dataframe (not including the first/zeroeth)
...     for i in range(1,len(df)):
...             #has user changed?
...             if df.User.loc[i] == df.User.loc[i-1]:
...                     #has time increased by more than 1 (hour)?
...                     if abs(df.Time.loc[i]-df.Time.loc[i-1])>1:
...                             #update new columns
...                             df['newcol2'].loc[i-1] = 1;
...                             df['newcol1'].loc[i] = 1;
...                             #increase jnum
...                             jnum += 1;
...                     #has content changed?
...                     if df.Col1.loc[i][0] != df.Col1.loc[i-1][0]:
...                             #record this change
...                             df['newcol4'].loc[i-1] = [df.Col1.loc[i-1][0], df.Col2.loc[i][0]];
...             #different user?
...             elif df.User.loc[i] != df.User.loc[i-1]:
...                     #update new columns
...                     df['newcol1'].loc[i] = 1; 
...                     df['newcol2'].loc[i-1] = 1;
...                     #store jnum elsewhere (code not included here) and reset jnum
...                     jnum = 1;

我现在需要将此函数应用于几百万行，并且它的速度慢得令人难以置信，因此我正在尝试找出加快速度的最佳方法。我听说 Cython 可以提高函数的速度，但我没有这方面的经验（而且我对 pandas 和 python 都是新手）。是否可以将数据帧的两行作为参数传递给函数，然后使用 Cython 来加速它，或者是否需要使用“创建新列”diff“其中的值，以便该函数一次仅读取和写入数据帧的一行，以便从使用 Cython 中受益？任何其他速度技巧将不胜感激！

（关于使用 .loc，我比较了 .loc、.iloc 和 .ix，这个速度稍快，所以这是我目前使用它的唯一原因）

（还有，我的User实际上列是 unicode 而不是 int，这对于快速比较可能会出现问题）

我的想法和安迪一样，只是groupby补充说，我认为这是对安迪的回答的补充。添加 groupby 只会产生在每次执行操作时将 NaN 放入第一行的效果diff or shift。（请注意，这并不是试图给出确切的答案，只是为了勾勒出一些基本技术。）

df['time_diff'] = df.groupby('User')['Time'].diff()

df['Col1_0'] = df['Col1'].apply( lambda x: x[0] )

df['Col1_0_prev'] = df.groupby('User')['Col1_0'].shift()

   User  Time                 Col1  time_diff Col1_0 Col1_0_prev
0     1     6     [cat, dog, goat]        NaN    cat         NaN
1     1     6         [cat, sheep]          0    cat         cat
2     1    12        [sheep, goat]          6  sheep         cat
3     2     3          [cat, lion]        NaN    cat         NaN
4     2     5  [fish, goat, lemur]          2   fish         cat
5     3     9           [cat, dog]        NaN    cat         NaN
6     4     4          [dog, goat]        NaN    dog         NaN
7     4    11                [cat]          7    cat         dog

作为安迪关于存储对象的观点的后续，请注意，我在这里所做的是提取列表列的第一个元素（并添加一个移位版本）。这样做你只需要进行一次昂贵的提取，之后就可以坚持标准的熊猫方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法的相关文章

使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
IO 密集型任务中的 Python 多线程

建议仅在 IO 密集型任务中使用 Python 多线程因为 Python 有一个全局解释器锁 GIL 只允许一个线程持有 Python 解释器的控制权然而多线程对于 IO 密集型操作有意义吗 https stackoverflow c
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

使用 MySQL Workbench 搜索所有表

我可以使用 MySQL GUI 在所有表中搜索字符串吗或者是这样的 mySQL 查询在数据库中的所有表中搜索字符串 https stackoverflow com questions 7523039 mysql query to sear
-symbolic 和 -shared GCC 标志之间有什么区别？

从文档的描述来看它们似乎做了同样的事情除了并非所有系统支持共享并且只有某些系统支持符号尚不清楚这些是否是同一组系统共享生成一个共享对象然后可以将其与其他对象链接起来形成可执行文件并非所有系统支持这个选项对于可预测
opencl支持布尔变量吗？

openCL 支持布尔变量吗我目前正在使用 JOCL java 编写我的 openCL 调用代码但我没有看到任何有关布尔值的信息 tl dr 是的但是你应该在内核函数签名中避免它是的但a的大小bool is not定义的因此它
为 .NET Framework 项目创建基于 Linux 的 Docker 文件

我有一个 ASP Net Framework 4 8 项目我想为此项目创建一个基于 Linux 的 Docker 文件但我在 NET Framework 的 Docker 文件中找不到基于 Linux 的映像来用作基础映像如何为此创建
Rails3 Mysql2::Error: 未知列 - ActiveRecord::StatementInvalid

我是在这个级别上使用 Rails 中的数据库的新手我已经寻找了几个小时但还没有找到解决这个特定问题的方法版本 Rails 3 2 9 Ruby 1 9 3 MySQL 5 5 28 mysql2 gem 2 9 0 Mac OS 10
如果 lt_dlopen 失败，如何获取更多信息？

我正在打电话lt dlopen并收到通用文件未找到错误翻译后的 errno 文本我怎样才能获得有关实际失败的更多信息因为该文件肯定存在这是一个加载 C 库的 C 程序在同一个程序的其他地方我使用相同的命令打开其他库没有问题因
“zipAlignExe”不存在。在 Android Studio 上运行我的项目时出错

我在下面遇到错误 Error A problem was found with the configuration of task project1 zipalignDebug gt File D Program Files Android
Eclipse 的最佳 JVM 设置是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
隐藏纵向中的 UISplitViewController 覆盖

在采用新的UISplitViewController我正在尝试更改使用时发生的默认行为UISplitViewControllerDisplayModeAutomatic mode 在纵向工作时我希望当用户触发推送到细节侧时隐藏主覆盖层默
通过 http 请求下载文件时的进度条

我需要下载一个相当大的 200MB 文件我想出了如何下载并保存文件here https stackoverflow com questions 16694907 how to download large file in python w
numpy.sin 函数以度为单位？

我正在研究一个与计算折射角有关的问题但是我似乎无法以度为单位使用 numpy sin 函数我尝试使用 numpy Degrees 和 numpy rad2deg numpy sin 90 numpy degrees numpy sin
如何使用 JavaFX 侦听在 TextField 中完成的鼠标粘贴？

将文本复制到剪贴板右键单击文本字段并按粘贴有没有办法在单击粘贴时监听或者更确切地说以这种方式粘贴某些内容后字段中的输入文本发生了变化因为这些在这种特殊情况下不起作用 setOnKeyReleased setOnInputMet
C 预处理器：在 #warning 中展开宏

我想在 warning 指令中打印宏值展开宏例如对于代码 define AAA 17 warning AAA 所需的编译时输出是 warning AAA 17 我该用什么或者如何增强代码您可以使用预处理器指令 pragma me
ValueError：给定的 numpy 数组中至少有一个步幅为负，并且当前不支持具有负步幅的张量

我正在使用 RL 编写自动驾驶代码我正在使用稳定的基线3和开放的人工智能健身房环境我在 jupyter 笔记本中运行以下代码但出现以下错误 Testing our model episodes 5 test the environme
使用经典 ASP 将 Base64 保存到图像

我一直在尝试使用经典 ASP 从服务器端将 base64 文件保存为图像我想要的是将文件自动保存到特定位置并给它一个文件名现在我可以很好地编码它的这方面但是如果不先在浏览器上渲染我就无法获取保存图像的代码这对我来说不起作用因为
使用 Mercurial SCM 进行分支

现在我正在学习 Ruby on Rails 并且正在阅读 Agile Web Development with Rails 一书我还决定尝试一下 Mercurial 因为我已经阅读了分布式 SCM 的相关内容而且这似乎是一个理想的情况
从经典 asmx 切换到 wcf 的好处

最近我从使用 asmx Web 服务切换到使用 wcf 服务转换即将完成但我知道我需要进行大量错误检查和测试以确保所有内容都按预期移植我的问题是到目前为止我只能想到使用 wcf 的一个好处那就是您可以获得一种简单的方法来实现
使用 gae 远程时发生错误：com.google.appengine.repackaged.com.google.api.client.http.HttpResponseException：302

当我使用 gae 远程 api 连接到远程服务器时发生错误如下所示 com google appengine repackaged com google api client http HttpResponseException 302
按值对字典排序

我有一本字典格式如下 honda 4 toyota 7 ford 3 chevy 10 我想按第二列即值降序对其进行排序期望的输出雪佛兰 10 丰田 7 本田 4 福特 3 感谢来自以下机构的卡里登如何按值对字典进行排序 htt
将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法

我正在寻找解决方案来加速我编写的函数以循环遍历 pandas 数据帧并比较当前行和前一行之间的列值例如这是我的问题的简化版本 User Time Col1 newcol1 newcol2 newcol3 newcol4 0 1 6 c

将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法

将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法 的相关文章

随机推荐

热门标签

将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法的相关文章