在所有列上 apply() 自定义函数提高效率

2024-04-24

我应用这个功能

def calculate_recency_for_one_column(column: pd.Series) -> int:
    """Returns the inverse position of the last non-zero value in a pd.Series of numerics.
    If the last value is non-zero, returns 1. If all values are non-zero, returns 0."""
    non_zero_values_of_col = column[column.astype(bool)]
    if non_zero_values_of_col.empty:
        return 0
    return len(column) - non_zero_values_of_col.index[-1]

到此示例数据帧的所有列

df = pd.DataFrame(np.random.binomial(n=1, p=0.001, size=[1000000]).reshape((1000,1000)))

by using

df.apply(lambda column: calculate_recency_for_one_column(column),axis=0)

结果是：

0      436
1        0
2      624
3        0
      ... 
996    155
997    715
998    442
999    163
Length: 1000, dtype: int64

一切工作正常，但我的程序必须经常执行此操作，因此我需要一个更有效的替代方案。有人知道如何让它更快吗？我认为calculate_recency_for_one_column()是足够有效的，并且df.apply()具有最大的改进潜力。这里作为基准（100 次）：

>> timeit.timeit(lambda: df.apply(lambda column: calculate_recency_for_one_column(column),axis=0), number=100)
14.700050864834338

Update

穆斯塔法的回答：

>> timeit.timeit(lambda: pd.Series(np.where(df.eq(0).all(), 0, len(df) - df[::-1].idxmax())), number=100)
0.8847485752776265

帕杜的回答：

>> timeit.timeit(lambda: df.apply(calculate_recency_for_one_column_numpy, raw=True, axis=0), number=100)
0.8892530500888824

您可以不将列视为Series对象但作为numpy数组。为此，只需指定raw=True中的参数apply方法。还需要稍微改变一下原来的功能。

import time

import numpy as np
import pandas as pd


def calculate_recency_for_one_column(column: np.ndarray) -> int:
    """Returns the inverse position of the last non-zero value in a np.ndarray of numerics.
    If the last value is non-zero, returns 1. If all values are non-zero, returns 0."""
    non_zero_values_of_col = np.nonzero(column)[0]
    if not non_zero_values_of_col.any():
        return 0
    return len(column) - non_zero_values_of_col[-1]


df = pd.DataFrame(np.random.binomial(n=1, p=0.001, size=[1000000]).reshape((1000,1000)))


start = time.perf_counter()
res = df.apply(calculate_recency_for_one_column, raw=True)
print(f'time took {time.perf_counter() - start:.3f} s.')

Out:
    0.005 s.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

performance

在所有列上 apply() 自定义函数提高效率的相关文章

将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
Draggable JS Bootstrap 模式 - 性能问题

对于工作中的项目我们在 JavaScript 中使用 Bootstrap Modal 窗口我们想让一些窗口可移动但我们遇到了 JQuery 的性能问题 myModal draggable handle modal header Exa
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2

随机推荐

请求送达回执时，CDO 消息不会发送

我正在用经典 ASP 编写一个应用程序是的请原谅我它使用 Google Mail 发送电子邮件我让它工作得很好如下所示 Dim ObjSendMail Set ObjSendMail CreateObject CDO Messag
Apache服务器安装失败（端口80或443已在使用）

我有一个与 PHP 相关的问题我是 net 开发人员我通常使用 asp net 和 c 我在笔记本电脑上安装了 Visual Studio 和 SQL Server 现在我尝试在我的系统上安装 Xampp 服务器这里我遇到了一些问题
回发后在 GridView 中保留数据源

所以我的 ASPX 页面中有一个 GridView 当我点击
如何将带有 HTML 标签的文本拆分为数组

我有非常简单的 HTML 文本仅 b 标签例如 Lorem Ipsum is b simply dummy b text of the printing and b typesetting industry b 我想将文本拆分为数组如
jQuery 漏洞（NVD CVE-2007-2379）

我们正在使用 jQuery 我在国家漏洞数据库中发现了以下 jQuery 漏洞 http web nvd nist gov view vuln detail vulnId CVE 2007 2379 http web nvd nist go
EF Core 2.0 迁移 - 具有附加字段的多对多

我正在使用 EF Core 2 0 并创建了与联接实体的多对多关系当我添加新的迁移 EF 时总是会创建一个额外的索引 Id 字段这是完全愚蠢的这是我的加入实体 public class Team Member public int
当对话框显示时，活动中的外部编辑文本不显示android中的软键盘

现在我遇到了一个严重的问题我正在进行一项活动并且我有一项编辑文本我想在该活动的右上角显示一个自定义对话框现在我的问题是当对话框显示时当我单击编辑文本时软键盘不显示请帮助我想在对话框显示时显示键盘我已经搜索了很多 i找到了对
PyQt5：我无法理解 QGraphicsScene 的 setSceneRect(x, y, w, h)

我看到有人说如果你想把QGraphicsScene的坐标原点放在QGraphicsView的原点即左上角您需要让它们具有相同的大小所以这就是我所做的 import sys from PyQt5 QtWidgets import QAp
使用 XPath 选择两个节点之间的兄弟节点

如何选择 id 为 header completed 的表和 header completed 之后的第一个具有中心对齐的表之间的所有表这是我从中选择的 html table border 0 cellpadding 0 cellspac
将 pandas 数据帧与 apply(lambda) 的结果连接起来，其中 lambda 返回另一个数据帧

数据帧在列中存储一些值将这些值传递给函数我得到另一个数据帧我想将返回的数据帧的列连接到原始数据帧我尝试做类似的事情 i pd concat i i cid id apply lambda x xy x axis 1 axis 1 但
如何从命令行启动 jupyter Notebook 以在当前目录中运行，而无需编辑配置文件或传递硬路径？

Jupyter Notebook 目前有一个限制在当前目录中启动终端 https github com jupyter notebook issues 2018 我如何从命令行执行此操作没有 Anaconda 或其他 GUI witho
使用 pinvoke 从 UWP C# 应用程序调用 LoadLibrary

我正在尝试从 C UWP 应用程序调用非托管 dll 中的方法我这样做但在非托管 dll 上调用 LoadLibrary 以便我可以使用它这一切在调试模式下工作正常但是在发布模式下我收到一个奇怪的错误消息类初始化方法 Test
高效解析个位数算术表达式

如何有效地优化运行时同时保持最小空间解析和计算 Java 中的单个数字算术表达式以下算术表达式都是有效的 eval 5 5 eval 4 4 eval 4 4 eval 7 2 3 8 eval 5 7 12 我的方法是迭代所有元素
如何在 Objective-C 中使用正则表达式验证 IP 地址？

如何在 Objective C 中验证 IP 地址这是一个使用现代 inet pton 的类别它将针对有效的 IPv4 或 IPv6 字符串返回 YES include
添加多列，使用多个变量进行转换

如何添加多个变量的值如果我只有两个变量列我可以简单地去 summation variable lt variable1 variable2 或者如果全部都在数据框中 transform dataframe summation col
iOS 上 OpenGL ES2.0 中的多纹理点精灵？

我正在尝试使用 OpenGL ES 2 0 为 iPhone 应用程序制作多纹理点精灵我在网上找不到任何这样的例子而且它似乎不起作用当对点精灵使用 GL POINTS 模式时是否有一些内置限制使得 gl PointCoord 不能在
ggplot2：更改条形图上堆栈的顺序

我正在尝试使用facet wrap制作堆叠条形图但我希望翻转堆叠变量开发的顺序我已经重新排序了这些因素并尝试了 order descend 以及 scale fill manual 但似乎没有任何效果这是我的代码 develop
C# Process.MainWindowHandle 始终返回 IntPtr 零

这是我的代码 using Process game Process Start new ProcessStartInfo FileName DatabaseCheck exe RedirectStandardOutput true Crea
ListView Viewholder 复选框状态

我的 ListView 自定义适配器及其新实现的 viewHolder 有一些问题我有一个 ListView 其中每个项目都有一个复选框这里没有什么新内容问题是如果我的列表中有超过 9 个项目当我选中第一个复选框时第十个将被自
在所有列上 apply() 自定义函数提高效率

我应用这个功能 def calculate recency for one column column pd Series gt int Returns the inverse position of the last non zero v

在所有列上 apply() 自定义函数提高效率

在所有列上 apply() 自定义函数提高效率 的相关文章

随机推荐

热门标签

在所有列上 apply() 自定义函数提高效率的相关文章