在 Python 中对集合进行排序与对列表进行排序在时间上存在巨大差异

2023-12-27

我想知道我是否应该将数据结构作为集合或列表。大多数情况下我会进行集合运算，但最终我需要对其进行排序。

我想知道是否应该先将集合设为列表，然后使用sorted(list(my_set))，或者立即对集合进行排序sorted(my_set)。可以说，我可能会考虑一个通用的“列出”阶段，因为在那个时间点拥有一个有序的迭代可能无论如何都是有意义的。

所以我决定测试一下，希望列表能更快。

基准测试：

import time
def sorter(x):
    t1 = time.time()
    for i in range(1000000):
        sorted(x)
    return time.time() - t1

Data:

one = range(1000)
a1 = list(one)
b1 = set(one)
sorter(a1)
# time: 16.5 s 
sorter(b1)
# time: 20.7 s

然后我意识到这可能与元素已经就位有关，并记住了这个令人惊奇的问题和答案 https://stackoverflow.com/questions/11227809/why-is-processing-a-sorted-array-faster-than-an-unsorted-array/11227902#11227902.

然后，我尝试了一些随机数据：

two = numpy.random.randint(1, 1000, 1000)
a2 = list(two)
b2 = set(two)

结果：

sorter(a2)
# time: 4min 49s
sorter(b2)
# time: 18.9 s

差别这么大，到底是怎么回事？

奖励：它甚至在一分钟的时间出现，sorted(set(a_list))令人印象深刻地快于sorted(a_list).

事实上，在第二种情况下，可能存在重复项，这些重复项将被过滤，从而加快排序速度。

我对您的代码进行了一些扩展，希望这能让您深入了解正在发生的事情：

import numpy
import uuid
import random
import time

def sorter(x):
    t1 = time.time()
    for i in range(10000):
        sorted(x)
    return time.time() - t1

def pr(name, x):
    print('sorter {:<12s} {:<11} (length {:>4})'.format(
        name, '{:.8}'.format(sorter(x)), len(x)))

a2sizes = []
b2sizes = []

for x in range(1000):
    two = numpy.random.randint(1, 1000, 1000)
    a2 = list(two)
    b2 = set(two)
    a2sizes.append(len(a2))
    b2sizes.append(len(b2))

print 'average number of elements in a2', sum(a2sizes)/len(a2sizes)
n = sum(b2sizes)/len(b2sizes)
print 'average number of elements in b2', n

这打印出：

average number of elements in a2 1000
average number of elements in b2 632

这是因为随机数范围内发生冲突

print
pr('a2', a2)
# making a list of set gives you already sorted elements
y = list(b2)
pr('y', y)
random.shuffle(y)
pr('shuffled y ', y)
pr('b2', b2)

给出输出：

sorter a2           2.492537    (length 1000)
sorter b2           0.25028086  (length  633)
sorter y            0.19689608  (length  633)
sorter shuffled y   1.4935901   (length  633)

That b2会更快，因为元素更少是合乎逻辑的，但是如果您首先创建集合的列表，那么这会更快，这一定有某种原因。如果您重新整理该列表，它会再次变慢，这也是合乎逻辑的，并且在补偿列表长度时，整理后的结果相当接近 a2 的结果。

因此，让我们尝试在列表中添加其他内容：

b3 = set()
for x in range(1000):
    b3.add(uuid.uuid4())

print '\nuuid elements', len(b3)

a3 = list(b3)
pr('a3', a3)
random.shuffle(a3)
pr('shuffled a3', a3)
pr('b3', b3)

给出（如果元素少于 1000 个，我会感到相当惊讶）：

uuid elements 1000
sorter a3           32.437758   (length 1000)
sorter shuffled a3  32.178433   (length 1000)
sorter b3           32.163802   (length 1000)

所以它一定与集合中的数字有关：

previous = -1
ordered = True
for popped in b2:
    if popped < previous:
        print 'popped', popped, previous
        ordered = False
    previous = popped

print '\nOrdered', ordered

给你：

Ordered True

不是迭代，而是set https://docs.python.org/2/library/stdtypes.html#set has a pop()您可以尝试使用的功能：

pop()

从集合中删除并返回任意元素。如果集合为空，则引发 KeyError。

So lets 任意地从集合中检索元素b2看看是否有什么特别的：

previous = -1
ordered = True
while(b2):
    popped = b2.pop()
    if popped < previous:
        print 'popped', popped, previous
        ordered = False
    previous = popped

print '\nOrdered', ordered

给出相同的结果：

Ordered True

因此，任意检索数字集合的元素会按顺序检索这些数字，独立于这些数字的输入顺序。由于迭代是列表制作一次检索一个元素以附加到列表的方式，因此结果是list(b2)是一个有序列表，使用以下命令可以快速排序Timsort http://en.wikipedia.org/wiki/TimsortPython 中使用的算法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Python 中对集合进行排序与对列表进行排序在时间上存在巨大差异的相关文章

在 R 中垂直绘制表 kable::extra 和 kable 的列表？

我需要绘制表格列表一个在另一个之下显示垂直有任何想法吗问题从这里开始 https stackoverflow com questions 73867229 plot a list of tables in a single table
python中使用argsort进行排序

我尝试对数组进行排序 import numpy as np arr 5 3 7 2 6 34 46 344 545 32 5 22 print unsorted print arr np argsort arr print sorted p
了解 Scala 中的中缀方法调用和缺点运算符(::)

我对 Scala 编程语言相当陌生当我遵循以下网站的讲义时我正在尝试一些萦绕在我脑海中的东西 here http horstmann com sjsu cs152 04 closures1 html 我想我无法真正理解 cons 运算符
spacy 是否将令牌列表作为输入？

我想使用 spacy 的 POS 标记 NER 和依存解析而不使用单词标记化事实上我的输入是代表一个句子的标记列表我想尊重用户的标记化无论是使用 spacy 还是任何其他 NLP 包这是否可能现在我使用这个基于 spacy
如何遍历任意给定集合中的枚举？

我有很多枚举类型它们与相应的集合相结合例如 type TMyEnum meOne meTwo meThree TMyEnums set of TMyEnum 我正在尝试提出一组可以运行的函数any枚举集而不是为每个枚举编写单独的函数
列表值意外变化[重复]

这个问题在这里已经有答案了为什么是这个列表r即使我只是想更改列表也会被更改v 即使它们不指向相同的内存位置 r v list r 2 2 1 2 8 3 10 2 1 8 4 2 4 6 4 for c a in enumerate r
从 R 中的向量中选择所有可能的元组

我正在尝试用 R 编写一个程序当给定一个向量时将返回所有可能的tuples http en wikipedia org wiki Tuples该向量中的元素例如元组 c a b c c a b c 出租车 c a c c b c c
Python 中两个列表列表的高效比较

我是 python 的新手只是在做项目时学习一些东西这里我有两个列表列表我需要比较和分离 A gt B 中找到的差异和 b gt A 中找到的差异最好的比较方法是什么 A 1L test case 1 1L test case 2
如何对同一列上的数据帧列表中的所有数据帧进行排序？

我有一个数据框列表dataframes list 举个例子我把dput dataframes list 在底部我想对列列表中的所有数据框进行排序enrichment 我可以对一个数据框进行排序 first dataframe lt da
.bat 文件将文件排序到文件夹中

对于我的图片集我希望文件夹中的所有图片按日期自动分类到文件夹中幸运的是这些文件已经以时间戳命名 2012 07 15 12 21 06 jpg 2012 07 15 12 21 26 jpg 2012 07 16 12 12 50 j
unix 下日期字段排序

我有包含数十万条记录的文本文件其中一个字段是日期字段有没有办法根据日期字段对文件进行排序 09 APR 12 04 08 43 632279000 AM 19 MAR 12 03 53 38 189606000 PM 19 MAR 12
python 2.7模块pandas未安装“无法导入名称哈希表”

我尝试在论坛谷歌上寻找这个问题的答案但我找不到任何东西我的问题是这样的来自 python 控制台 gt gt gt import pandas cannot import name hashtable Traceback most
检测计算机何时解锁 Windows

我用过这个优秀的方法 https stackoverflow com questions 20733441 lock windows workstation using python 20733443锁定 Windows 计算机那部分工作
将其元素添加到另一个列表后清除列表

我正在做一个程序它获取更多句子作为参数我制作了 2 个列表一个称为 propozitie 其中包含每个句子另一个称为 propozitii 其中包含所有句子问题是当我在遇到后清除 propozitie 列表时它也会清除 pr
Perl 和 Unix 如何以相同的顺序对 Unicode 字符串进行排序？

我正在尝试获取 Perl 和 GNU Linuxsort 1 程序就如何对 Unicode 字符串进行排序达成一致我在跑sort with LANG en US UTF 8 在Perl程序中我尝试了以下方法 use Unicode Col
按常量 id 对自定义类型的向量进行排序

我需要对自定义类型的向量进行排序std vector
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
如何限制 sympy FiniteSet 包含符号

我对 sympy 还很陌生我尝试使用 linsolve 求解线性方程组这产生了一个可以用以下两行重现的解决方案 d symbols d solution sets FiniteSet d 1 d 4 d 5 d 我的解决方案遵循限制即
独立对列进行排序，使得所有空值都位于每列的最后

这是一个名为的示例表animal name color fox brown fox red dog gold 现在我想要的是这样的结果 fox dog brown gold red 名称应该是结果的列不同颜色值作为行我的第一个想法是
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv

随机推荐

将 DIV 放置在具有可变高度的固定 div 下方

问题是这样的可以说我有这样的东西 div div div div div div 我希望 below div 位于 top div 下方但不使用 margin top 因为 top div 将具有不同的大小此外 below div 的
Criteria查询规范中不同类型的合并规范

我有一个Activity实体位于 ManyToOne有关系Event实体及其相应的元模型 Activity and Event 由 JPA 模型生成器生成我创建了专门的课程ActivitySpecifications and EventS
跨多个模块定义谓词的各个部分

我正在尝试写一个谓词move 3它处理多种术语每种术语都在单独的文件中定义我正在尝试为此使用模块因为这些文件包含其他应适当命名空间的谓词所以我创建了一个模块cat prolog内容 module cat move 3 multif
z3在处理非线性实数运算时能否始终给出结果

我有一个问题需要解决一组非线性多项式约束在处理非线性实数算术时 z3 能否始终给出结果 sat 或 unsat 结果也还好吗是的假设 1 资源可用并且 2 您仅使用实际约束以便nlsat使用了策略正如我上次检查的那样它没有与其
如何更改警报对话框中按钮的颜色[重复]

这个问题在这里已经有答案了这是我创建对话框的代码 builder setMessage msg setNeutralButton Dismiss dialogClickListener setPositiveButton Edit dia
如何摆脱动态 SQL

我的包体之一中有以下动态 SQL OPEN ccur for select c category from test category c where c deptid PI N Dept and c category not in sEx
引入 stylelint-config-standard-scss 时，stylelint 给出错误“类扩展值未定义不是构造函数或 null”

我今天有点失落我想将 Stylelint 添加到我的 Angular 项目中所以我运行了 npm install stylelint stylelint config standard save dev 安装 stylelint 和标准
为什么 UIAccessibility.post(notification: .announcement, argument: "arg") 没有在语音中宣布？

在 iOS 中使用 Voice Over 时呼叫UIAccessibility post notification argument 宣布字段错误实际上并不宣布该错误我有一个提交按钮当聚焦该按钮时语音会如您所期望的那样读出按钮标题
将列表转换为字符串？

我想知道是否有办法将我的列表转换为字符串示例有没有办法转换MyList a b c d e to MyString abcde 原因我试图用这 5 个字母组成单词 bag bad cab bed 我尝试创建一个标签来显示MyList
如何暂停后续任务直到第一次完成然后与等待的任务共享其响应？

我有一个actor它以第一个请求暂停后续请求直到完成的方式限制请求然后与它们共享其响应这样它们就不必发出相同的请求这就是我想做的 let cache Cache let operation OperationStatus func e
映射的网络驱动器未显示在“我的电脑”中

我正在尝试使用 PowerShell 5 0 创建外部网络驱动器我需要这些驱动器才能显示在我的电脑中为此我使用以下命令 New PSDrive Name X PSProvider FileSystem Root 192 168 0
int* p 和 int *p 声明之间的区别[重复]

这个问题在这里已经有答案了和有什么区别int p and an int p宣言有没有不同这是一个问题notation not 语义第二个是较少误导因为 int a b 明确宣布int and an int 然而 int a b 看
需要适当的 MySQL 查询

很抱歉在这里问这个问题但我对 JOIN 的理解相当不稳定几个小时的混乱并没有让我有任何结果这是我已经设置的以及我需要的我有三张表每一张用于用户位置和签到每次用户前往某个位置时他们都可以在那里签到签到表示例如下 checki
如何在 Chrome headless 中评估脚本？

节点有 e and p分别用于评估和评估并打印的标志我知道有一个 replChrome headless 的标志但我想知道是否有一种方法可以评估并打印表达式例如 chrome headless eval and print navig
为什么 java.util.Collection 上有一个方法 iterator()

当接口 java util Collection 已经扩展了定义了此方法的 java util Iterable 时为什么还要在接口 java util Collection 上定义该方法 iterator 呢我正在考虑某种向后兼容性或
从Datamapper开始，关联问题

我刚刚深入研究 Datamapper 和 Sinatra 并有一个关于关联的问题以下是我拥有的一些型号这就是我想要实现的我在锻炼项目和锻炼方面遇到问题锻炼将单独管理但锻炼项目有与每一行关联的单个锻炼锻炼只是类型的列表锻炼跑
带有重新分析点的FolderBrowserDialog SelectedPath

当我选择的文件夹位于远程服务器上并且是符号链接或任何类型的重新分析点时我遇到了 FolderBrowserDialog 的 SelectedPath 属性问题如果我选择普通文件夹则会返回完整路径例如 SERVER folder
MySQL 数据 - 实现分页的最佳方式？

我的 iPhone 应用程序连接到我的 PHP Web 服务以从 MySQL 数据库检索数据一个请求最多可返回 500 个结果实现分页并一次检索 20 个项目的最佳方法是什么假设我从数据库收到前 20 个条目现在如何请求接下来的 2
java.lang.String的哈希码真的被缓存了吗？

String s1 String1 System out println s1 hashCode return an integer i1 Field field String class getDeclaredField value fi
在 Python 中对集合进行排序与对列表进行排序在时间上存在巨大差异

我想知道我是否应该将数据结构作为集合或列表大多数情况下我会进行集合运算但最终我需要对其进行排序我想知道是否应该先将集合设为列表然后使用sorted list my set 或者立即对集合进行排序sorted my set 可以说我

在 Python 中对集合进行排序与​​对列表进行排序在时间上存在巨大差异

在 Python 中对集合进行排序与​​对列表进行排序在时间上存在巨大差异 的相关文章

随机推荐

热门标签

在 Python 中对集合进行排序与对列表进行排序在时间上存在巨大差异

在 Python 中对集合进行排序与对列表进行排序在时间上存在巨大差异的相关文章