pandas 将函数应用于多列和多行

2024-01-06

我有一个数据帧,其行和列“xpos”、“ypos”中具有连续的像素坐标,我想计算连续像素之间每条路径的角度(以度为单位)。目前我有下面介绍的解决方案,该解决方案工作正常,并且对于我的文件大小来说足够快,但迭代所有行似乎不是 pandas 的方式。我知道如何将函数应用于不同的列,以及如何将函数应用于不同的列行,但不知道如何将两者结合起来。

这是我的代码:

fix_df = pd.read_csv('fixations_out.csv')

# wyliczanie kąta sakady
temp_list=[]
for count, row in df.iterrows():
    x1 = row['xpos']
    y1 = row['ypos']
    try:
        x2 = df['xpos'].ix[count-1]
        y2 = df['ypos'].ix[count-1]
        a = abs(180/math.pi * math.atan((y2-y1)/(x2-x1)))
        temp_list.append(a)
    except KeyError:
        temp_list.append(np.nan)

然后我将临时列表插入 df

编辑: 实施评论中的提示后,我有:

df['diff_x'] = df['xpos'].shift() - df['xpos']
df['diff_y'] = df['ypos'].shift() - df['ypos']

def calc_angle(x):
    try:
        a = abs(180/math.pi * math.atan((x.diff_y)/(x.diff_x)))
        return a
    except ZeroDivisionError:
        return 0

df['angle_degrees'] = df.apply(calc_angle, axis=1)

我比较了我的 df 的三种解决方案的时间(df 的大小约为 6k 行),迭代几乎比 apply 慢 9 倍,比不使用 apply 慢约 1500 倍:

迭代解决方案的执行时间,包括将新列插入回 df:1,51s

没有迭代、有 apply 的解决方案的执行时间:0.17s

EdChum 使用 diff() 接受的答案的执行时间,无需迭代且无需应用:0.001s

建议:不要使用迭代或应用,并始终尝试使用向量化计算;)它不仅更快,而且更具可读性。


您可以通过以下方法来完成此操作,我将 pandas 的方式与您的方式进行了比较,它的速度快了 1000 倍以上,而且无需将列表作为新列添加回来!这是在 10000 行数据帧上完成的

In [108]:

%%timeit
import numpy as np
df['angle'] = np.abs(180/math.pi * np.arctan(df['xpos'].shift() - df['xpos']/df['ypos'].shift() - df['ypos']))

1000 loops, best of 3: 1.27 ms per loop

In [100]:

%%timeit
temp_list=[]
for count, row in df.iterrows():
    x1 = row['xpos']
    y1 = row['ypos']
    try:
        x2 = df['xpos'].ix[count-1]
        y2 = df['ypos'].ix[count-1]
        a = abs(180/math.pi * math.atan((y2-y1)/(x2-x1)))
        temp_list.append(a)
    except KeyError:
        temp_list.append(np.nan)
1 loops, best of 3: 1.29 s per loop

另外,如果可能的话,避免使用apply,因为这是按行操作的,如果您能找到可以在整个系列或数据帧上工作的向量方法,那么总是更喜欢这个。

UPDATE

因为您只是从前一行中进行减法,所以有内置方法diff这会产生更快的代码:

In [117]:

%%timeit
import numpy as np
df['angle'] = np.abs(180/math.pi * np.arctan(df['xpos'].diff(1)/df['ypos'].diff(1)))

1000 loops, best of 3: 1.01 ms per loop

另一个更新

还有一个用于系列和数据帧划分的内置方法,这现在可以节省更多时间,并且我实现了低于 1 毫秒的时间:

In [9]:

%%timeit
import numpy as np
df['angle'] = np.abs(180/math.pi * np.arctan(df['xpos'].diff(1).div(df['ypos'].diff(1))))

1000 loops, best of 3: 951 µs per loop
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

pandas 将函数应用于多列和多行 的相关文章

随机推荐

  • 闭包中局部变量的错误行为

    我被下面的代码困住了 首先 我将描述用例 使用 ColorGradient 实例调用函数 addPreset 打电话时this listController addItem 名为的回调函数onSelect是提供的 每次触发 listCont
  • 错误:useHref() 只能在 组件的上下文中使用

    当我直接在我的路由器组件中写入我的导航栏组件内容时 它工作正常 但是当我在导航栏组件中写入该内容时 它会生成以下错误 错误 useHref 只能在组件上下文中使用 我在用着 react dom 17 0 2 react router dom
  • 使用 clang 编译时 openmp 无法正确链接

    我已经在 Ubuntu 16 04 上从源代码构建了 clang 4 0 并尝试编译一个简单的 OpenMP 程序 但收到以下错误 tmp test 7f2c7c o In function main home me sf shared t
  • 选择两列之间的日期

    我需要一个 SQL 查询 如果我有两列STARTDATE and END DATE 我想选择日期位于这两个日期之间的所有行 例如 开始日期 1 1 2011 且结束日期 2 2 2011 SELECT FROM table1 WHERE 2
  • Laravel 4 中的通用访问器和修改器

    我知道可以为各个字段定义访问器和修改器 如下所示 public function setSomeAttribute value set the attribute public function getSomeAttribute retur
  • 如何在Java中获取客户端计算机上当前登录用户的用户名?

    当用户 客户端 尝试通过键入 URL 进入应用程序时 我需要获取该计算机的 Windows 登录用户名 我尝试过System getProperty user name 但是当我从其他机器 客户端 访问应用程序时 这仍然显示服务器上登录用户
  • 如何使用本地安装在node_modules中的包中的可执行文件?

    如何在中使用模块的本地版本node js 例如 在我的应用程序中 我安装了咖啡脚本 npm install coffee script 这会将其安装在 node modules咖啡命令是 node modules bin coffee 当我
  • 如何以编程方式从 UIView 获取约束

    我想从 UIView 获取 UILabel 约束 但我无法得到任何约束 我在 CustomView m 中设置约束 如下所示 id initWithFrame CGRect frame self super initWithFrame fr
  • 在 OpenGL3 Core Profile 中使用矩阵作为顶点属性

    我在 OSX 上使用 OpenGL 3 2 Core Profile 我想要进行实例化绘图 glDrawArraysInstanced 其中我为每个实例传递一个矩阵 我的顶点着色器构建得很好 version 150 in mediump v
  • LIKE 与 Linq to Entities

    我知道 Contains 方法确实喜欢LIKE therm the StartsWith 方法确实喜欢LIKE therm 和 EndsWith 方法就像LIKE therm but 有没有办法像下面那样做 Linq to Entities
  • Flutter iOS 崩溃并出现 EXC_BAD_ACCESS 错误

    我正在使用 Flutter 开发一个应用程序 并在物理 iOS 设备 iPhone 7 上测试该应用程序 iOS版本是 15 3 1Flutter版本是 2 10 3 当我测试我的应用程序时 偶尔会发生崩溃 崩溃给出以下错误 它并不总是在同
  • 参数索引超出范围

    尝试使用 nhibernate 更新对象时出现以下错误 我正在尝试更新一个外键字段 有什么想法为什么我可能会收到此错误 我无法从该错误中找出答案 并且我的 log4net 日志也没有给出任何提示 Thanks System IndexOut
  • 是否可以在重构文本中以两栏样式书写?

    我想使用重组文本写一篇研究论文 是否可以采用此类文档固有的两栏样式 我看了看规格 http docutils sourceforge net docs ref rst restructuredtext html但除了使用桌子这将是一个真正的
  • 检测nuxt中元素外部的点击

    我有一个 nuxt 项目 我需要编写一个 click outside 指令 通过它我可以检测元素的外部点击以关闭它们 我该如何实施 答案是在插件中创建一个directives js 文件并将其注册到config nuxt js 文件中 di
  • 使用 SWIFT 解析 PDF

    我想解析一个没有图像 只有文本的 PDF 我正在尝试寻找一些文字 例如搜索字符串 Name 并能够读取 后面的字符 我已经能够打开 PDF 获取页数并循环浏览它们 问题是当我想使用类似的函数时CGPDFDictionaryGetStream
  • Reactjs保存组件的当前状态

    我有组件 A 和组件 B 在组件 A 中 用户可以将过滤器应用于元素列表 并使用侧栏在两个组件之间导航 每当用户单击转到 B 然后返回 A 时 过滤器就会设置回初始状态 保存组件 A 状态的最佳方法是什么 以便当他们返回组件 A 时 他们可
  • 使用 PowerShell 和 Azure CLI 将代码从 GitLab 存储库部署到 Azure Web App

    我想使用 PowerShell 脚本和 Azure CLI 设置从 GitLab 存储库到 Azure 应用程序的持续部署 已经有一个答案可以使用Azure RM 模块和 Windows PowerShell https stackover
  • 对需要带有模式的整数的元素使用 JAXB 生成的类

    我的 XML 架构中有一个元素定义如下
  • python QTconsole 的数据隐藏

    目前我正在制作一个图像身份验证项目 其中我需要借助密钥来验证图像 我将钥匙作为raw input用户通过 IPython 控制台 我想隐藏正在输入的密钥 预期结果 Enter the key or Enter the key nothing
  • pandas 将函数应用于多列和多行

    我有一个数据帧 其行和列 xpos ypos 中具有连续的像素坐标 我想计算连续像素之间每条路径的角度 以度为单位 目前我有下面介绍的解决方案 该解决方案工作正常 并且对于我的文件大小来说足够快 但迭代所有行似乎不是 pandas 的方式