Python中多键排序的效率

2023-11-21

我有一个字符串列表，我想按 Python 3.6 中的两个自定义键函数对其进行排序。比较多排序方法（按较小键排序，然后按主键排序）与多键方法（将键作为元组）(major_key, lesser_key)），我可以看到后者比前者慢 2 倍以上，这很令人惊讶，因为我认为它们是等效的。我想了解为什么会这样。

import random
from time import time

largest = 1000000
length = 10000000
start = time()
lst = [str(x) for x in random.choices(range(largest), k=length)]
t0 = time() - start

start = time()
tmp = sorted(lst, key=lambda x: x[::2])
l1 = sorted(tmp, key=lambda x: ''.join(sorted(x)))
t1 = time() - start

start = time()
l2 = sorted(lst, key=lambda x: (''.join(sorted(x)), x[::2]))
t2 = time() - start

print(f'prepare={t0} multisort={t1} multikey={t2} slowdown={t2/t1}')

assert l1 == l2

这是第三种计时方法：

start = time()
l3 = sorted(lst, key=lambda x: (''.join(sorted(x)) + "/" + x[::2]))
t3 = time() - start

并将最后一行扩展为

assert l1 == l2 == l3

这使用单个字符串作为键，但将您视为“主”和“辅助”键的两个字符串键组合起来。注意：

>>> chr(ord("0") - 1)
'/'

这就是为什么这两个键可以组合起来 - 它们由一个 ASCII 字符分隔，该字符比较“小于”任何 ASCII 数字（当然，这完全特定于您所使用的精确类型的键）。

这通常是一点faster than multisort()对我来说，使用您发布的精确程序。

准备=3.628943920135498 多重排序=15.646344423294067 多键=34.255955934524536 减速=2.1893903782103075 一键=15.11461067199707

我相信现代 CPython 发行版的末尾简要解释了“为什么”的主要原因Objects/listsort.txt:

如上所述，即使是最简单的 Python 比较也会触发一大堆 C 级指针取消引用、条件和函数调用。这可以是通过预扫描数据来确定数据是否是可部分缓解的就类型而言是同质的。如果是这样，有时可以用较快的特定类型比较替换较慢的通用比较 PyObject_RichCompareBool。

当使用单个字符串作为键时，此预排序扫描会推断列表中的所有键实际上都是字符串，因此计算出的所有运行时费用which可以跳过要调用的比较函数：排序始终可以调用特定于字符串的比较函数，而不是通用的（并且成本更高）PyObject_RichCompareBool.

multisort()也受益于这种优化。

But multikey()没有，很多。预排序扫描发现所有键都是元组，但是元组比较函数本身不能假设有关元组元素类型的任何信息：它必须求助于PyObject_RichCompareBool每次调用它时。（注意：正如评论中提到的，事情并不是那么简单：some优化仍然是利用键都是元组来完成的，但它并不总是有回报，而且充其量也不太有效——请参阅下一节以获得更清晰的证据。）

Focus

测试用例中发生了很多事情，这导致需要付出更大的努力来解释越来越小的区别。

因此，为了看看类型同质性优化的效果，让我们把事情简化很多：不key根本没有功能。就像这样：

from random import random, seed
from time import time

length = 10000000
seed(1234567891)
xs = [random() for _ in range(length)]

ys = xs[:]
start = time()
ys.sort()
e1 = time() - start

ys = [(x,) for x in xs]
start = time()
ys.sort()
e2 = time() - start

ys = [[x] for x in xs]
start = time()
ys.sort()
e3 = time() - start
print(e1, e2, e3)

这是我的盒子上的典型输出：

3.1991195678710938 12.756590843200684 26.31903386116028

所以直接对浮点数进行排序是迄今为止最快的。将浮点数粘贴在 1 元组中已经非常具有破坏性，但优化仍然带来了非常显着的好处：将浮点数粘贴在单例列表中再次需要两倍多的时间。在最后一种情况下（并且仅在最后一种情况下），PyObject_RichCompareBool总是被调用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python中多键排序的效率的相关文章

Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
下载 PyQt6 的 Qt Designer 并使用 pyuic6 将 .ui 文件转换为 .py 文件

如何下载 PyQt6 的 QtDesigner 如果没有适用于 PyQt6 的 QtDesigner 我也可以使用 PyQt5 的 QtDesigner 但是如何将此 ui 文件转换为使用 PyQt6 库而不是 PyQt5 的 py 文件
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Android在排序列表时忽略大小写

我有一个名为路径的列表我目前正在使用以下代码对字符串进行排序 java util Collections sort path 这工作正常它对我的列表进行排序但是它以不同的方式处理第一个字母的情况即它用大写字母对列表进行排序然后用
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce

随机推荐

代码分割“import”破坏了 Jest 测试

我正在使用 webpack 的代码分割功能但 jest 似乎无法识别import 功能 import myModule then function myModule SyntaxError Unexpected token import
在 Java 中，公开对象的成员是否是一个坏主意？

我的应用程序中有一个数据类我的应用程序永远不会用作公共 API 并且我将是我的项目中唯一开发代码的人我正在努力节省每一盎司的处理器和内存电量让我的数据类中的数据成员具有公共受保护默认保护以便我不必使用 getter 是一个坏主意吗
cocos2d iphone 5 4寸显示屏支持

我一直在到处寻找这个但没有运气如何为 iPhone 5 的 4 英寸显示屏准备基于 cocos2d 的游戏我的应用程序正在运行但我想增强它以适应更大的 4 英寸显示屏 Cocos2d 使用自己的后缀来表示视网膜显示图像对于 iPh
Numpy 多维度花式索引

假设我有一个大小为 n x m x k 的 numpy 数组 A 和另一个大小为 n x m 的数组 B 其索引从 1 到 k 我想使用 B 中这个位置给出的索引来访问 A 的每个 n x m 切片给我一个大小为 n x m 的数组编辑
当过滤范围为空时处理“未找到单元格”错误

我对一个范围进行一些过滤然后复制过滤后的范围 myRange SpecialCells xlCellTypeVisible Copy 一旦过滤器过滤掉我得到的所有案例错误1004 未找到单元格我正在寻找一种方法来检查没有On Err
如何创建表达式树来表示 C# 中的“String.Contains("term")”？

我刚刚开始使用表达式树所以我希望这是有道理的我正在尝试创建一个表达式树来表示 t gt t SomeProperty Contains stringValue 到目前为止我已经得到 private static Expression L
Scala 下划线 - 错误：缺少扩展函数的参数类型

我知道对此有很多问题但我创建了一个简单的例子我认为应该可以工作但仍然不行我不确定我明白为什么 val myStrings new Array String 3 do some string initialization this w
Django 1.2：如何将 pre_save 信号连接到类方法

我试图在 django 1 2 项目的某些类中定义 before save 方法我在将信号连接到 models py 中的类方法时遇到问题 class MyClass models Model def before save self s
Symfony：电子邮件地址作为请求参数

我在将 url 中的电子邮件地址传递到 symfony 应用程序时遇到一些问题网址看起来像 example com unsubscribe email email protected 它总是会导致一个sfError404Exception
CookieAuthenticationOptions.LogoutPath 属性在 ASP.NET Core 2.1 中有何作用？

在 ASP NET Core 2 1 中谁能解释一下CookieAuthenticationOptions LogoutPath做每文档它说如果为处理程序提供了 LogoutPath 则对该路径的请求将根据 ReturnUrlPara
如何用 CSS 替换文本？

如何使用如下方法用 CSS 替换文本 pvw title img src IKON img visibility hidden 代替 img src IKON img 我需要使用可以替换文本的东西我必须使用让它发挥作用 div clas
如何“计算”双精度值的正确小数位数？

我需要帮助来保持精度double 如果我将文字分配给双精度数则实际值会被截断 int main double x 7 40200133400 std cout lt lt x lt lt n 对于上面的代码片段输出是7 402有没有办法
Spring Security：如何更改默认用户和密码？

我的 pom xml 中有 Spring Security Spring Security 会自动配置默认用户和生成的密码
Eclipse 忽略不正确的 @Override 注释

由于某种原因我的 Eclipse 安装之一忽略了错误的设置 Override注释例如如果我把 Override对于未被覆盖的方法它只是完全忽略它关于如何将其恢复到显示错误注释方法错误的状态有什么想法吗的定义 OverrideJa
检查关联数组是否包含值，并检索数组中的键/位置

我正在努力解释我想在这里做什么所以如果我让你感到困惑我深表歉意我自己也同样困惑我有一个像这样的数组 foo array array value gt 5680 text gt Red array value gt 7899 text
Pyspark - 获取使用 ParamGridBuilder 创建的模型的所有参数

我正在使用 PySpark 2 0 参加 Kaggle 竞赛我想知道模型的行为 RandomForest 取决于不同的参数 ParamGridBuilder 允许为单个参数指定不同的值然后执行我猜整个参数集的笛卡尔积假设我的Dat
如何为动态生成的 IFRAME 设置 document.domain？

我正在实施 CodeMirror http marijn haverbeke nl codemirror 在需要声明 document domain 的页面上因为页面上有其他 IFRAMES CodeMirror 生成动态 IFRAME
Postgres 更新时会重写整行吗？

我们在 Windows 2008 Server 上运行 Postgres 9 0 有一张大桌子里面有一个bytea每行存储 0 5MB 二进制数据的列 CREATE TABLE files file id serial NOT NULL
如何更改子组件的标签样式？

我在index html中有这个
Python中多键排序的效率

我有一个字符串列表我想按 Python 3 6 中的两个自定义键函数对其进行排序比较多排序方法按较小键排序然后按主键排序与多键方法将键作为元组 major key lesser key 我可以看到后者比前者慢 2 倍以上这很令

Python中多键排序的效率

Focus

Python中多键排序的效率 的相关文章

随机推荐

热门标签

Python中多键排序的效率的相关文章