在Python中对大量数组进行排序的最快方法

2023-12-02

我正在尝试在 python 中对大量数组进行排序。我需要一次对超过 1100 万个数组执行排序。

另外，如果我可以直接获取对数组进行排序的索引，那就太好了。

这就是为什么，到目前为止我正在使用 numpy.argsort() 但这在我的机器上太慢了（需要一个多小时才能运行）

在同一台机器上，R 中的相同操作大约需要 15 分钟。

谁能告诉我用 Python 更快地做到这一点的方法？

Thanks

EDIT:

添加示例

如果我有以下数据框：

agg:

x      y        w        z  

1      2        2        5                 
1      2        6        7         
3      4        3        3        
5      4        7        8    
3      4        2        5    
5      9        9        9

我正在其上运行以下函数和命令：

def fucntion(group):
    z = group['z'].values   
    w = group['w'].values 
    func = w[np.argsort(z)[::-1]][:7]  #i need top 7 in case there are many  
    return np.array_str(func)[1:-1]

output = agg.groupby(['x,'y']).apply(function).reset_index()

所以我的输出数据框将如下所示：

output:

x   y   w   

1   2   6,2    
3   4   2,3    
5   4   7    
5   9   9

对于像您对部分排序索引感兴趣的情况，有NumPy's argpartition.

你有麻烦事np.argsort in : w[np.argsort(z)[::-1]][:7]，这本质上是w[idx], where idx = np.argsort(z)[::-1][:7].

So, idx可以计算为np.argpartition，就像这样-

idx = np.argpartition(-z,np.arange(7))[:7]

That -z需要，因为默认情况下np.argpartition尝试按升序获取排序索引。所以，为了reverse它，我们已经否定了要素。

因此，对原始代码的拟议更改将是：

func = w[np.argpartition(-z,np.arange(7))[:7]]

运行时测试 -

In [162]: z = np.random.randint(0,10000000,(1100000)) # Random int array

In [163]: idx1 = np.argsort(z)[::-1][:7]
     ...: idx2 = np.argpartition(-z,np.arange(7))[:7]
     ...: 

In [164]: np.allclose(idx1,idx2) # Verify results
Out[164]: True

In [165]: %timeit np.argsort(z)[::-1][:7]
1 loops, best of 3: 264 ms per loop

In [166]: %timeit np.argpartition(-z,np.arange(7))[:7]
10 loops, best of 3: 36.5 ms per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

Sorting

NumPy

pandas

在Python中对大量数组进行排序的最快方法的相关文章

绘制随时间变化的分类数据计数

我有一个数据框 df 其中有一列包含分类数据 ETH 带有 DateTimeIndex 我想绘制类别counts随着时间的推移它们按天索引我最好按年绘制它们 df pd DataFrame County 0 Bexar 3 Nueces
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
Draggable JS Bootstrap 模式 - 性能问题

对于工作中的项目我们在 JavaScript 中使用 Bootstrap Modal 窗口我们想让一些窗口可移动但我们遇到了 JQuery 的性能问题 myModal draggable handle modal header Exa
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

消息驱动通道适配器会在应用程序上下文启动后丢弃第一条消息，除非延迟调用 send

我对 Spring Integration 配置进行了集成测试该测试使用来自具有持久订阅的 JMS 主题的消息为了进行测试我使用 ActiveMQ 而不是 Tibco EMS 我遇到的问题是我必须在测试方法开始时使用睡眠调用来延迟将
Amcharts 4，xychart，限制工具提示的数量并将信息合并到一个工具提示中

我正在使用 amcharts 4 显示温度线有时有很多站所以我希望只有一个工具提示并且只针对光标所在的值而不是每一行都有一个工具提示因为这样它们会重叠有些是不可读的并且可能有多个站具有相同的温度因此我必须在工具提示中列出所有
如何在java中找到迷宫的其他解决方案？

我需要编写一个程序获取给定 txt 文件中的迷宫并将解决方案路径打印到控制台我编写了这个程序如下所示但我只能找到 1 个解决方案如果迷宫中有超过 1 个解决方案我需要找到所有这些我不知道我应该采取什么方法请问你能给个主意吗
通过其 API 作为 .click 的一部分调用 JQUERY 插件（超大）的函数

我对 JS 还很不精通所以请原谅任何明显的疏忽我一直在尝试使用 Supersized 背景幻灯片插件的 API 作为常规 element click function 的一部分 API 已记录here包括这部分对我的问题似乎很重要 a
如果抽象构造函数/析构函数具有函数体，那么在抽象构造函数/析构函数中调用纯虚函数是否安全？

如果没有标记 BODY 的线我知道这不安全但有了它这安全吗 struct A virtual A f virtual void f 0 void A f BODY struct B A void f int main delete n
JavaScript 解析器错误

我有一个 HTML5 视频其中有一张海报和一个 CSS 播放叠加按钮我试图在视频结束后加载视频以便它再次显示海报和播放覆盖按钮我已经尝试了以下代码但在最后一行出现解析器错误任何人都可以帮助我并让我知道我做错了什么 documen
StopUpdatingLocation 方法不适用于 iOS5

我正在开发地图应用程序我正在尝试使用 locationManager stopUpdatingLocation 停止定位服务的方法看起来它在iOS4 3中工作正常但在iOS5中它不起作用请问有人建议我如何在iOS5中停止位置服务吗
javascript中switch case跳转到错误的case（如何正确使用break命令）

我的代码不太长所以我将其全部粘贴到这里代码不完整但当我运行它时它首先跳转到它应该的情况开始然后跳转到情况结束我可以看到它因为它打印了两个块的控制台日志文本为什么会跳到结束案例
是否可以将 Google Sheets API 配额限制提高到每个帐户 2500 个和每个用户 500 个以上？

问题遇到 Google Sheets API 读写配额限制具体来说每 100 秒读写请求 and 每个用户每 100 秒的读写请求配额一些背景在过去的几个月里我一直在为我们学区的学生和教职员工开发一个网络应用程序该应用程
Sin(int) 在 Xcode 调试器 (lldb) 中被破坏

我有一个针对 iOS SDK 6 1 的通用 iOS 应用程序编译器设置为苹果 LLVM 编译器 4 2 当我在代码中放置断点并运行以下命令时我得到了奇怪的结果sin int 以供参考 sin 70 0 7739 70 的单位是弧度 l
最佳实践：301 将 HTTP 重定向到 HTTPS（标准域）

我一直在寻找完美的 301 重定向但我找到了很多解决方案但不知道什么是最好的这就是我想做的 http 域名 tld https 域名 tld http www domain tld https 域名 tld https www dom
AVX512 舍入模式如何工作（或者 NDISASM 只是混淆了）？

我正在尝试了解具体的AVX512F指令vcvtps2udq 指令的签名是VCVTPS2UDQ zmm1 k1 z zmm2 m512 m32bcst er 手册信息如下为了尝试理解新的舍入模式以下代码片段是用 NASM 2 12 02
无法在 Centos 上使用 Diazo (plone.app.theming)

我使用 plone4 1 和 Diazo 在我的 mac 上制作了一个门户网站现在我正在尝试将其部署在我的服务器 CentOs 上其中还有另一个带有 plone4 0 5 Collectivexdv 的站点当我使用我的重氮主题运行该
在页面加载时自动记录并保存 Chrome 开发者工具分析数据？

Chrome 开发者工具在时间轴选项卡上提供了一个选项可以开始停止记录与内存绘画屏幕截图 JS 配置文件相关的分析数据一旦刷新页面录制就会自动开始并在页面加载后停止有没有办法 1 自动在后台开始录制不需要在 chrom
如何从 Excel 工作簿中选取值并按活动工作簿上的函数返回它们

我的目标是实现一些功能我给它们提供电动机的功率频率和速度参数并查看另一个工作簿其中我有电动机数据并返回尺寸轴直径和其他电动机详细信息由于我还没有掌握太多 VBA 所以我尝试实现一个函数该函数只需转到另一个工作簿中的单元格并返
通过纹理偏移滚动 2D/3D 背景

我一直在尝试在 Unity 中使用四边形来显示纹理来制作无限滚动的 2D 背景我的想法是根据玩家的位置改变四边形的偏移由于某种原因当我更改偏移量时我的图像无法正确重复并且一旦达到偏移量 2 图像就会完全消失纹理上 3 个不同 x
JSON 和处理未导出的字段

是否有技术原因导致未导出的字段不被encoding json包含如果不是并且这是一个任意决定即使未导出是否还可以包含额外的后门选项例如要求导出客户端代码以获得此功能感觉很不幸特别是如果小写字母提供封装或编组结构的决定比它们的设
在 Google 文档中的某些文本后附加列表项的更有效方法

所以目前我有一些代码可以让我插入ListItem在 Google 文档中的一段之后我遇到的唯一问题是对于我想要完成的任务来说它似乎过于复杂这是我的代码 var search This is a test var body Docu
如何保持 .NET 控制台应用程序运行？

考虑一个在单独线程中启动某些服务的控制台应用程序它所需要做的就是等待用户按 Ctrl C 将其关闭以下哪项是执行此操作的更好方法 static ManualResetEvent quitEvent new ManualResetEven
在Python中对大量数组进行排序的最快方法

我正在尝试在 python 中对大量数组进行排序我需要一次对超过 1100 万个数组执行排序另外如果我可以直接获取对数组进行排序的索引那就太好了这就是为什么到目前为止我正在使用 numpy argsort 但这在我的机器上太慢了

在Python中对大量数组进行排序的最快方法

在Python中对大量数组进行排序的最快方法 的相关文章

随机推荐

热门标签

在Python中对大量数组进行排序的最快方法的相关文章