set issubset 性能差异取决于参数类型

2023-11-27

为什么提出此问题呢？

我试图回答这个问题：检查所有值是否作为字典中的键存在比生成器理解更好的东西all（与某些函数执行的隐式循环相比，Python 循环即使在推导式中也会减慢执行速度）：

all(i in bar for i in foo)

where bar是一本字典并且foo是一个列表，使用set.issubset（转换为set of foo能够使用foo.issubset(bar)），并没有成功地击败时代all解决方案（除非两个容器都转换为sets).

我的问题：

从文档set:

请注意，union()、intersection()、difference()、symmetry_difference()、issubset() 和 issuperset() 方法的非运算符版本将接受任何可迭代对象作为参数。相反，基于运算符的对应部分需要设置其参数。这排除了像 set('abc') 和 'cbs' 这样容易出错的结构，有利于更具可读性的 set('abc').intersection('cbs')。

好的，但性能实际上取决于参数的类型，即使复杂性并不（Python的复杂度是subset()):

import timeit
foo = {i for i in range(1, 10000, 2)}
bar = foo - {400}
n=10000
x = timeit.timeit(setup="foo = {str(i) for i in range(1, 10000, 2)};bar = foo - {'400'}",stmt="bar.issubset(foo)",number=n)
print("issubset(set)",x)
x = timeit.timeit(setup="foo = {str(i) for i in range(1, 10000, 2)};bar = foo - {'400'};foo=list(foo)",stmt="bar.issubset(foo)",number=n)
print("issubset(list)",x)
x = timeit.timeit(setup="foo = {str(i):i for i in range(1, 10000, 2)};bar = set(foo) - {'400'}",stmt="bar.issubset(foo)",number=n)
print("issubset(dict)",x)
x = timeit.timeit(setup="foo = {str(i):i for i in range(1, 10000, 2)}.keys();bar = set(foo) - {'400'}",stmt="bar.issubset(foo)",number=n)
print("issubset(dict_keys)",x)

我的结果（Python 3.4）：

issubset(set) 1.6141405847648826
issubset(list) 3.698748032058883
issubset(dict) 3.6300025109004244
issubset(dict_keys) 4.224299651223102

So if a set作为参数传递，结果非常快。

Using a list速度要慢得多。我发现这是因为必须在字符串上完成的哈希成本很高。所以我用这样的整数更改了我的测试输入：

foo = {i for i in range(1, 10000, 2)}
bar = foo - {400}

结果在全球范围内更快，但仍然存在巨大的时差：

issubset(set) 0.5981848205989139
issubset(list) 1.7991591232742143
issubset(dict) 1.889119736960271
issubset(dict_keys) 2.2531574114632678

我也尝试过改变dict by dict.keys()就像在 python 3 中一样，键据说是（https://www.python.org/dev/peps/pep-3106/) “类似集合或无序的容器对象”。

但在这种情况下，结果甚至比dict or list.

那么为什么要通过一个set击败通过list or a dict or a dict_keys object?我没有在文档中看到任何关于此的内容。

The set.issubset算法需要一个集合来使用（冻结集和子类计数）；如果你传递其他东西，它就会组成一个集合。基本上是all(elem in other for elem in self)，并且它需要知道elem in other是有效的并且意味着它对于集合意味着什么。它知道如何保证这一点的唯一方法是确保other是一个集合。制作一套很贵。

（我已经掩盖了一些细节。如果您想确切地知道发生了什么，特别是如果您有一个奇怪的集合子类，请阅读链接中的源代码。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

set issubset 性能差异取决于参数类型的相关文章

将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
在 nHibernate 关系中使用实体的 Lite 版本？

在某些情况下出于性能原因创建一个实体的轻量级版本指向同一个表但映射的列较少这是一个好主意吗例如如果我有一个包含 50 列的联系人表并且在一些相关实体中我可能对 FirstName 和 LastName 属性感兴趣那么创建
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像

随机推荐

如何在 Python 中将向量投影到由其正交向量定义的平面上？

我有一架飞机 plane A 由其正交向量定义例如 a b c 即向量 a b c 正交于plane A 我想投影一个向量 d e f onto plane A 我怎样才能用Python做到这一点我想一定有一些简单的方法 Take d
如何访问jar文件中的资源（Excel文件）

您好我已将 java 项目导出为可执行 jar 文件在我的项目中我正在访问一个包含一些数据的 Excel 文件现在当我尝试访问 Excel 文件时无法访问该文件我的项目结构是 Java 项目文件夹 src 文件夹 resou
如何在Flutter中使用MediaQuery设置文本的scaleFactor？

通过 MediaQuery 我可以获得 Samsung S7 Edge 屏幕尺寸的高度和宽度以便我可以使用它但是如何使用MediaQuery在ListTile中布局多列动态文本呢在我的演示项目中我将文本大小设置为 12 在 Sams
Android - 如何使图标在触摸时发光？

如何在图标上获得蓝色发光效果有什么快速的方法吗我真的不想用photoshop来实现这种效果任何帮助将非常感激如果您想以编程方式生成发光可以按以下方法操作我的建议是在活动开始时只生成一次然后使用它创建一个 StateList
即使没有内存不足，我也会遇到 java.lang.OutOfMemoryError 吗？

我正在读书揭开 java lang Outofmemory 错误的面纱我想知道我是否理解正确如果 Java VM 抛出异常这是真的吗 java lang OutOfMemoryError 请求的数组大小超出VM限制这意味着VM拒绝创建
使用 Powershell 更改 IIS6 站点主目录

我正在尝试使用 powershell 更改站点的主目录这是我到目前为止所拥有的但它没有保存更改 server localhost siteName mysite iis ADSI IIS server W3SVC site iis ps
Pandas GroupBy 借助 CSV 中的大型数据集

一个常见的 SQLism 是从 A 的表组中选择 A 平均值 X 我想在 pandas 中复制它假设数据存储在 CSV 文件之类的文件中并且太大而无法加载到内存中如果 CSV 可以容纳在内存中那么简单的两行代码就足够了 data
JSF CommandButton onclick不调用Javascript函数

我正在使用 JSF 的命令按钮我不知道为什么我无法调用我的 javascript 函数当我单击按钮时不会显示任何警报
将 Hibernate 查询结果检索为结果集而不是列表

嘿呀我是冬眠新手我不得不说它确实简化了 SQL 查询的一切然而操作返回的结果目前对我来说是一个头疼的问题结果以列表形式返回大多数时候我真的希望结果位于结果集中以便我可以更轻松地操作它因为使用结果集您可以通过列名或索引指定
为什么 std::uniform_int_distribution::operator() 不是 const？

据我了解当用于提取随机数时分布不应改变例如对于均匀分布当我们使用它生成随机数时它的最小值最大值不应该改变那么为什么操作员不是const吗 While min and max 不会改变分布可能包含帮助它生成下一个值的状态
Symfony2 Doctrine - PostgreSQL 的 ILIKE 子句？

我目前正在使用 symfony2 doctrine 2 3 和 PostgreSQL 9 我已经搜索了几个小时看看我到底该怎么做ILIKE选择与QueryBuilder 看来他们只有LIKE 但在我的情况下我正在搜索不区分大小写的到底
在网页上显示每秒更新的txt文件

我有点像在黑暗中拍摄我不知道如何做到这一点所以一些有用教程的指针和或链接会很棒我有一个网站我想显示文本文件服务器日志可能是嵌入的问题是只要服务器中发生事件通常快于半秒该文件就会更新我怎样才能使网页实时显示文件即显示
Vim 语法高亮显示 Python 的“else:”

我对 Vim 中默认的 python 语法高亮感到恼火它没有突出显示else 陈述正确 Vim 仅在 else 语句之间有一些空格时才会突出显示 else 语句else和冒号 so else 有效但是else 才不是它一定很容易修复
可以将文本添加到 SVG 路径吗？

是否可以将文本添加到 svg 路径我创建了一个 svg 三角形想在其中心添加一个字母但不确定这是否可能是的看SVG1 1 规范第 10 13 节标题为路径上的文本有关使用textPath元素总结给你的路径一个id属性 C
完全外连接，在 2 个数据表上，带有列列表

我有2个数据表我不知道它们的数据列列表该列表必须在运行时提取并用于完整外连接使用这些列时需要合并两个表之间的列并且我需要显示所有数据到目前为止我正在做的是获取公共列使用 intersect 并实现 IEqualityCom
Razor View 抛出“当前上下文中不存在名称“模型””

在我的 MVC 4 应用程序中进行重大重构后 Razor 在调试视图时显示此错误当前上下文中不存在名称 model 这是有问题的代码行 model ICollection
应该先考虑什么——设计模式还是代码？

我正在开始一个全新的项目我应该查看我的规范并决定应用哪些设计模式还是只是提出一个总体的组织理念并允许模式通过重构有机地出现根据您的经验哪种技术最有成效并且更有可能产生干净优雅的代码我还想知道是否有一些设计模式不是由 GoF 定义的
将 SSIS 出价与 Visual Studio 2012 / 2013 结合使用

我想在 Visual Studio 2012 中使用 SSIS BIDS 项目我安装了 Visual Studio 2010 和 Visual Studio 2012 以及 Microsoft SQL 服务器2012 首先安装了 VS 2
为什么 HTML5 不支持 font 元素？

我只是真的很好奇希望有人能在 W3C 的疯狂中揭示这个方法最新的HTML5标准不支持该元素的原因是什么我知道该元素在 HTML 4 01 中已被弃用但我不明白为什么对我来说这似乎完全合乎逻辑您有一段文本只想更改字体或者使用
set issubset 性能差异取决于参数类型

为什么提出此问题呢我试图回答这个问题检查所有值是否作为字典中的键存在比生成器理解更好的东西all 与某些函数执行的隐式循环相比 Python 循环即使在推导式中也会减慢执行速度 all i in bar for i in foo whe

set issubset 性能差异取决于参数类型

set issubset 性能差异取决于参数类型 的相关文章

随机推荐

热门标签

set issubset 性能差异取决于参数类型的相关文章