为什么提出此问题呢 ?
我试图回答这个问题:检查所有值是否作为字典中的键存在比生成器理解更好的东西all
(与某些函数执行的隐式循环相比,Python 循环即使在推导式中也会减慢执行速度):
all(i in bar for i in foo)
where bar
是一本字典并且foo
是一个列表,使用set.issubset
(转换为set
of foo
能够使用foo.issubset(bar)
),并没有成功地击败时代all
解决方案(除非两个容器都转换为set
s).
我的问题:
从文档set:
请注意,union()、intersection()、difference()、symmetry_difference()、issubset() 和 issuperset() 方法的非运算符版本将接受任何可迭代对象作为参数。相反,基于运算符的对应部分需要设置其参数。这排除了像 set('abc') 和 'cbs' 这样容易出错的结构,有利于更具可读性的 set('abc').intersection('cbs')。
好的,但性能实际上取决于参数的类型,即使复杂性并不(Python的复杂度是subset()):
import timeit
foo = {i for i in range(1, 10000, 2)}
bar = foo - {400}
n=10000
x = timeit.timeit(setup="foo = {str(i) for i in range(1, 10000, 2)};bar = foo - {'400'}",stmt="bar.issubset(foo)",number=n)
print("issubset(set)",x)
x = timeit.timeit(setup="foo = {str(i) for i in range(1, 10000, 2)};bar = foo - {'400'};foo=list(foo)",stmt="bar.issubset(foo)",number=n)
print("issubset(list)",x)
x = timeit.timeit(setup="foo = {str(i):i for i in range(1, 10000, 2)};bar = set(foo) - {'400'}",stmt="bar.issubset(foo)",number=n)
print("issubset(dict)",x)
x = timeit.timeit(setup="foo = {str(i):i for i in range(1, 10000, 2)}.keys();bar = set(foo) - {'400'}",stmt="bar.issubset(foo)",number=n)
print("issubset(dict_keys)",x)
我的结果(Python 3.4):
issubset(set) 1.6141405847648826
issubset(list) 3.698748032058883
issubset(dict) 3.6300025109004244
issubset(dict_keys) 4.224299651223102
So if a set
作为参数传递,结果非常快。
Using a list
速度要慢得多。我发现这是因为必须在字符串上完成的哈希成本很高。所以我用这样的整数更改了我的测试输入:
foo = {i for i in range(1, 10000, 2)}
bar = foo - {400}
结果在全球范围内更快,但仍然存在巨大的时差:
issubset(set) 0.5981848205989139
issubset(list) 1.7991591232742143
issubset(dict) 1.889119736960271
issubset(dict_keys) 2.2531574114632678
我也尝试过改变dict
by dict.keys()
就像在 python 3 中一样,键据说是(https://www.python.org/dev/peps/pep-3106/) “类似集合或无序的容器对象”。
但在这种情况下,结果甚至比dict
or list
.
那么为什么要通过一个set
击败通过list
or a dict
or a dict_keys
object?我没有在文档中看到任何关于此的内容。