速度较慢的 numpy.argmax/argmin 的更快替代方案

2024-02-05

我正在使用很多argmin and argmax在Python中。

不幸的是，该功能非常慢。

我已经做了一些搜索，我能找到的最好的就在这里：

http://lemire.me/blog/archives/2008/12/17/fast-argmax-in-python/ http://lemire.me/blog/archives/2008/12/17/fast-argmax-in-python/

def fastest_argmax(array):
    array = list( array )
    return array.index(max(array))

不幸的是，这个解决方案的速度仍然只有一半np.max，我想我应该能够尽快找到东西np.max.

x = np.random.randn(10)
%timeit np.argmax( x )
10000 loops, best of 3: 21.8 us per loop

%timeit fastest_argmax( x )    
10000 loops, best of 3: 20.8 us per loop

请注意，我将其应用于 Pandas DataFrame Groupby

E.G.

%timeit grp2[ 'ODDS' ].agg( [ fastest_argmax ] )
100 loops, best of 3: 8.8 ms per loop

%timeit grp2[ 'ODDS' ].agg( [ np.argmax ] )
100 loops, best of 3: 11.6 ms per loop

Where grp2[ 'ODDS' ].head()看起来像这样：

EVENT_ID   SELECTION_ID        
104601100  4367029       682508    3.05
                         682509    3.15
                         682510    3.25
                         682511    3.35
           5319660       682512    2.04
                         682513    2.08
                         682514    2.10
                         682515    2.12
                         682516    2.14
           5510310       682520    4.10
                         682521    4.40
                         682522    4.50
                         682523    4.80
                         682524    5.30
           5559264       682526    5.00
                         682527    5.30
                         682528    5.40
                         682529    5.50
                         682530    5.60
           5585869       682533    1.96
                         682534    1.97
                         682535    1.98
                         682536    2.02
                         682537    2.04
           6064546       682540    3.00
                         682541    2.74
                         682542    2.76
                         682543    2.96
                         682544    3.05
104601200  4916112       682548    2.64
                         682549    2.68
                         682550    2.70
                         682551    2.72
                         682552    2.74
           5315859       682557    2.90
                         682558    2.92
                         682559    3.05
                         682560    3.10
                         682561    3.15
           5356995       682564    2.42
                         682565    2.44
                         682566    2.48
                         682567    2.50
                         682568    2.52
           5465225       682573    1.85
                         682574    1.89
                         682575    1.91
                         682576    1.93
                         682577    1.94
           5773661       682588    5.00
                         682589    4.40
                         682590    4.90
                         682591    5.10
           6013187       682592    5.00
                         682593    4.20
                         682594    4.30
                         682595    4.40
                         682596    4.60
104606300  2489827       683438    4.00
                         683439    3.90
                         683440    3.95
                         683441    4.30
                         683442    4.40
           3602724       683446    2.16
                         683447    2.32
Name: ODDS, Length: 65, dtype: float64

事实证明np.argmax is速度快得惊人，但是only与本机 numpy 数组。对于国外的数据，几乎所有的时间都花在了转换上：

In [194]: print platform.architecture()
('64bit', 'WindowsPE')

In [5]: x = np.random.rand(10000)
In [57]: l=list(x)
In [123]: timeit numpy.argmax(x)
100000 loops, best of 3: 6.55 us per loop
In [122]: timeit numpy.argmax(l)
1000 loops, best of 3: 729 us per loop
In [134]: timeit numpy.array(l)
1000 loops, best of 3: 716 us per loop

我称你的函数“效率低下”，因为它首先将所有内容转换为列表，然后迭代它 2 次（实际上，3 次迭代 + 列表构造）。

我打算建议这样的事情，只迭代一次：

def imax(seq):
    it=iter(seq)
    im=0
    try: m=it.next()
    except StopIteration: raise ValueError("the sequence is empty")
    for i,e in enumerate(it,start=1):
        if e>m:
            m=e
            im=i
    return im

但是，您的版本速度更快，因为它迭代了很多次，但使用的是 C 代码，而不是 Python 代码。 C 的速度要快得多 - 即使考虑到转换也花费了大量时间：

In [158]: timeit imax(x)
1000 loops, best of 3: 883 us per loop
In [159]: timeit fastest_argmax(x)
1000 loops, best of 3: 575 us per loop

In [174]: timeit list(x)
1000 loops, best of 3: 316 us per loop
In [175]: timeit max(l)
1000 loops, best of 3: 256 us per loop
In [181]: timeit l.index(0.99991619010758348)  #the greatest number in my case, at index 92
100000 loops, best of 3: 2.69 us per loop

因此，进一步加快速度的关键知识是了解序列中的数据本身是什么格式（例如，是否可以省略转换步骤或使用/编写该格式本身的另一个功能）。

顺便说一句，您可能会通过使用获得一些加速aggregate(max_fn)代替agg([max_fn]).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

速度较慢的 numpy.argmax/argmin 的更快替代方案的相关文章

Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

为什么在 docker 后台使用带有“守护进程关闭”的 nginx？

一切都从这开始article https medium com pentacent nginx and lets encrypt with docker in less than 5 minutes b4b8a60d3a71关于在 dock
Laravel 中是否可以获取数据透视表与另一个表的关系？

我有一个当前具有以下架构的培训应用程序 trainings id name speakers id first name last name training speaker id training id speaker id traini
图像太大，无法在屏幕中显示（MATLAB）

我知道这只是一个警告不会影响代码但我的问题是我需要以实际大小显示图像而不进行任何缩小这可能吗imshowfunction 有没有参数可以做到这一点谢谢你们给出的解决方案是 Jonas https stackoverflow com
有没有办法在langchain中加载通过VectorstoreIndexCreator创建的索引？它是如何工作的？

我正在尝试 langchains 及其应用程序但作为一个新手我无法理解嵌入和索引如何在这里真正协同工作我知道这两个是什么但我无法找到使用我创建和保存的索引的方法persist directory 我使用以下代码成功保存了 Vecto
通过快速返回键关闭键盘

我是一名使用 Swift 的初学者程序员我一直在开发一个待办事项列表应用程序我试图通过返回键关闭键盘我尝试过 self view endEditing true 和 resignFirstResponder 方法但它们都不起作用这
在 PHP 中：如何使用 include() 函数哪个参数是可变的？

我需要将 include 函数与变量一起使用但是当我尝试这样做时我遇到了一些错误 Code year POST year month POST month day POST day include Event php year yea
SignalR 因超过 2 个连接而失败

我在 SignalR 中编写了一个相当简单的聊天应用程序似乎如果我连接超过 2 个选项卡浏览器设备第三个将挂起并且永远不会连接并最终导致问题为什么我只能与 2 个用户连接当我断开另外两个请求之一时第三个请求就会通过无论我使用
如何使用QVector at或operator[]来获取指向元素的指针

我很想得到一个指向QVector元素这样我就可以在其他地方使用该对象但是at 方法给了我一个const T 值和operator 给我一个T value 我对如何使用它们来获取指针感到困惑以便我将使用相同的对象而不是使用复制构造函数
如何在 Linux 中列出文件的前 10 行或后 10 行而不解压文件 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我有一个 bz2文件我想列出前 10 行或后 10 行而不解压缩它因为它太大了我尝试过head 10 or tail 10但我看到的是胡言乱语
git rebase时进入vim时如何开始打字？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案使用 Powershell 5 时当我键入git rebase i
在android中集成javascript[重复]

这个问题在这里已经有答案了可能的重复 JavaScript 警报在 Android WebView 中不起作用 https stackoverflow com questions 5271898 javascript alert not
HeartBleed python 测试脚本

我碰到这个Python脚本 https gist github com takeshixx 10107280测试服务器是否存在 HeartBleed 漏洞有人能够解释你好的内容正在发送的内容以及该内容是如何构造的吗我并不是想恶意使
无法写入请求：找不到适合请求类型和内容类型的 HttpMessageConverter [application/x-java-serialized-object]

我正在尝试向第三方服务器发送 xml 请求并期待返回 xml 响应我在这里附上用于配置 Cnfiguration 网关和通道自定义 Rest 模板类和要执行的测试客户端的源代码我们有各种用于 XML Posting 的消息转换器但尽
如何在 iOS 上获取 Cognito 用户池“sub”属性

我正在使用 Cognito 用户池授权者无 AWS IAM 选项无自定义编码授权者通过 API 网关调用 Lambda 方法并识别登录 iOS 客户端的用户在 Lambda 上我使用从 Cognito 用户池授权者处获得的用户 I
如何在 PL/pgSQL IF 语句中运行 SELECT 查询

我正在尝试使用以下代码在 PL pgSQL IF 语句中运行 SELECT 查询 DO do DECLARE query type real arr real array 1 BEGIN IF query type 1 THEN RETUR
Javascript匿名函数不更新全局变量

我在一些代码中进行了 getJSON 调用该调用似乎没有更新全局变量但我不明白为什么 JSON 数据加载正常但由于某种原因全局 EventOptions 数组未在 for 循环中更新大写的注释指的是变量有任何想法吗谢谢 fun
无法在外键上创建表（错误号：150）

我看到很多同样的问题但我无法解决我的问题如果我运行这段代码
如何设置 thymeleaf th:来自其他变量的字段值

我有一个简单的文本输入字段我必须在其中设置一个对象的默认值并将其最终值保存在其他对象中以下代码不起作用 div div
简单的分布式 Erlang

我有一个简单的模块 module dist compile add 3 add From X Y gt From X Y 我正在启动两个节点一与 erl sname foo 另一个与 erl sname bar 在我正在做的酒吧节点上 g
速度较慢的 numpy.argmax/argmin 的更快替代方案

我正在使用很多argmin and argmax在Python中不幸的是该功能非常慢我已经做了一些搜索我能找到的最好的就在这里 http lemire me blog archives 2008 12 17 fast argmax

速度较慢的 numpy.argmax/argmin 的更快替代方案

速度较慢的 numpy.argmax/argmin 的更快替代方案 的相关文章

随机推荐

热门标签

速度较慢的 numpy.argmax/argmin 的更快替代方案的相关文章