检查 python 列表/numpy ndarray 中是否存在重复项的最快方法

2023-12-27

我想确定我的列表（实际上是numpy.ndarray) 在尽可能最快的执行时间内包含重复项。请注意，我并不关心删除重复项，我只是想知道是否有重复项。

注意：如果这不是重复的，我会感到非常惊讶，但我已尽力而为却找不到。最近的是这个问题 https://stackoverflow.com/questions/89178/in-python-what-is-the-fastest-algorithm-for-removing-duplicates-from-a-list-so and 这个问题 https://stackoverflow.com/questions/480214/how-do-you-remove-duplicates-from-a-list-whilst-preserving-order，两者都要求返回唯一列表。

以下是我想到的四种方法。

TL;DR：如果您期望很少（小于 1/1000）的重复项：

def contains_duplicates(X):
    return len(np.unique(X)) != len(X)

如果您期望频繁（超过 1/1000）重复：

def contains_duplicates(X):
    seen = set()
    seen_add = seen.add
    for x in X:
        if (x in seen or seen_add(x)):
            return True
    return False

第一种方法是提前退出这个答案 https://stackoverflow.com/a/89250/3996580它想要返回唯一的值，其中第二个与应用于这个答案 https://stackoverflow.com/a/480227/3996580.

>>> import numpy as np
>>> X = np.random.normal(0,1,[10000])
>>> def terhorst_early_exit(X):
...:     elems = set()
...:     for i in X:
...:         if i in elems:
...:             return True
...:         elems.add(i)
...:     return False
>>> %timeit terhorst_early_exit(X)
100 loops, best of 3: 10.6 ms per loop
>>> def peterbe_early_exit(X):
...:     seen = set()
...:     seen_add = seen.add
...:     for x in X:
...:         if (x in seen or seen_add(x)):
...:             return True
...:     return False
>>> %timeit peterbe_early_exit(X)
100 loops, best of 3: 9.35 ms per loop
>>> %timeit len(set(X)) != len(X)
100 loops, best of 3: 4.54 ms per loop
>>> %timeit len(np.unique(X)) != len(X)
1000 loops, best of 3: 967 µs per loop

如果你从一个普通的 Python 列表开始，而不是一个numpy.ndarray?

>>> X = X.tolist()
>>> %timeit terhorst_early_exit(X)
100 loops, best of 3: 9.34 ms per loop
>>> %timeit peterbe_early_exit(X)
100 loops, best of 3: 8.07 ms per loop
>>> %timeit len(set(X)) != len(X)
100 loops, best of 3: 3.09 ms per loop
>>> %timeit len(np.unique(X)) != len(X)
1000 loops, best of 3: 1.83 ms per loop

编辑：如果我们事先期望重复项的数量怎么办？

上述比较是在以下假设下进行的：a）可能没有重复项，或者 b）我们更担心最坏的情况而不是平均情况。

>>> X = np.random.normal(0, 1, [10000])
>>> for n_duplicates in [1, 10, 100]:
>>>     print("{} duplicates".format(n_duplicates))
>>>     duplicate_idx = np.random.choice(len(X), n_duplicates, replace=False)
>>>     X[duplicate_idx] = 0
>>>     print("terhost_early_exit")
>>>     %timeit terhorst_early_exit(X)
>>>     print("peterbe_early_exit")
>>>     %timeit peterbe_early_exit(X)
>>>     print("set length")
>>>     %timeit len(set(X)) != len(X)
>>>     print("numpy unique length")
>>>     %timeit len(np.unique(X)) != len(X)
1 duplicates
terhost_early_exit
100 loops, best of 3: 12.3 ms per loop
peterbe_early_exit
100 loops, best of 3: 9.55 ms per loop
set length
100 loops, best of 3: 4.71 ms per loop
numpy unique length
1000 loops, best of 3: 1.31 ms per loop
10 duplicates
terhost_early_exit
1000 loops, best of 3: 1.81 ms per loop
peterbe_early_exit
1000 loops, best of 3: 1.47 ms per loop
set length
100 loops, best of 3: 5.44 ms per loop
numpy unique length
1000 loops, best of 3: 1.37 ms per loop
100 duplicates
terhost_early_exit
10000 loops, best of 3: 111 µs per loop
peterbe_early_exit
10000 loops, best of 3: 99 µs per loop
set length
100 loops, best of 3: 5.16 ms per loop
numpy unique length
1000 loops, best of 3: 1.19 ms per loop

因此，如果您期望很少有重复项，numpy.unique功能才是出路。随着预期重复次数的增加，早期退出方法占主导地位。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

检查 python 列表/numpy ndarray 中是否存在重复项的最快方法的相关文章

NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
如何实现n个元素的查找和插入操作的动态二分查找

这个想法是使用多个数组每个长度为 2 k 根据 n 的二进制表示来存储 n 个元素每个数组都是排序的不同的数组没有以任何方式排序在上述数据结构中 SEARCH是通过对每个数组进行一系列二分查找来进行的 INSERT 是通过一系列相同
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
为什么这两种不同的构造数组的方式会产生不同的行为？

当我以两种不同的方式构造一个 2 元素数组时例如a and b 当我将一个元素添加到内部数组之一时我得到两个不同的结果这也会发生在append 根据构建每个之后的输出我希望它们完全相同 julia gt a 2 element Ar
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视

随机推荐

限制 GWT 中的小数位数？

在纯 Java 中我通常会使用如下所示的函数来将小数位数限制为decimalCount对于给定的数字value 但是根据 GWT 文档 GWT 不提供对日期和数字格式化类例如 java text DateFormat java tex
如何在Python 3.6中等待声音文件以vlc结尾

我在 python 中的 vlc 有一个问题 import vlc sound vlc MediaPlayer sound mp3 sound play i wanna wait until the sound ends then do s
Java：没有 AtomicFloat 或 AtomicDouble 吗？

我已经发现AtomicInteger AtomicLong 但是在哪里AtomicFloat or AtomicDouble 也许有什么技巧 API 文档为java util concurrent package http download
在多租户数据库中索引 TenantID

我正在为应用程序创建多租户数据库我在每个表方法中都使用了 TenantID 效果非常好我正处于性能调整阶段我的问题是每个表中的每个 TenantID 是否都应该建立索引以进行优化搜索因为数据库上的每个查询都会在此列上进行过滤期待
在node.js中重新定义变量

该脚本的执行 tmp js 其中包含 var parameters 1 eval var parameters a 1 1 eval console log parameters node tmp js 产生如果我们注释掉第一条语句并再
使用.NET Moq时如何转发到另一个对象？

给定一个对象我想创建一个模拟它实现该对象的接口并模拟一个方法但将其余方法转发给真实对象不是基类例如 ISqlUtil sqlUtil GetTheRealSqlUtilObjectSomehow var mock new Mock
如何获得更多的饲料项目？

如何获取 Feed 的下一页或更多结果例如当我去现在安全 http leoville tv podcasts sn xmlfeed 页面没有任何类型的下一个链接并且 page 100 的 url 参数不执行任何操作 http l
权限如何在 mac 上运行 sbin 命令？

我正在使用 mac os x 并且我正在尝试运行shutdown命令但它说我不是超级用户不过我可以跑ifconfig无需成为超级用户这两个命令都在 sbin 中我的 PATH 环境变量包括 sbin 这就是为什么我可以运行 ifco
Mathf.Floor 与 (int) 的性能比较

当我想知道哪个更快时我正在创建和翻译一些算法 a int float or b Mathf FloorToInt float 提前致谢编辑如果有比这两种方法更快的方法那也会有帮助像我提到的那样用秒表进行测试这个答案在这里是因为我
查询外键嵌套for循环django

我正在尝试返回企业的类别列表对于每个类别我想列出与该类别相关的所有项目我要退回所有物品而不是按类别但我决定要按类别对它们进行排序这就是我所尝试过的以及其他尝试我只是无法将这些项目归入这些类别这是我最新的尝试在我的 mod
从使用 pyinstaller 导入 theano 的 python 3 脚本构建适用于 Windows 的 .exe

2017年9月2日下午1点编辑经过多次尝试后我最终成功地用 pyinstaller 构建了一个 exe 不幸的是我未能处理 theano 模块在我的情况下是 pymc3 模块所需的我不得不修改 py 文件并放弃部分应用程序我下面
捕获组的负向前瞻

我正在尝试这个挑战 https regex alf nu 4 https regex alf nu 4 我想匹配所有不包含 ABBA 模式的字符串 Match aesthophysiology amphimictical baruria c
在单个 DNS 查询中请求 A 和 AAAA 记录

我正在用 C 语言实现 DNS 查询并且有兴趣在单个查询数据包中请求 A 和 AAAA IPv4 和 IPv6 记录但是当我将两个查询放在一起时我没有从名称服务器获得任何响应像这样的一包我尝试将查询发送到几个不同的名称服务器本地和
是否可以在一行 PowerShell 中启动具有多个选项卡的 Microsoft Edge？

我希望能够通过快捷方式而不是脚本中的单个 PowerShell 命令启动带有多个选项卡的 Microsoft Edge Chromium 这是我对一个选项卡有效的内容 C Windows System32 WindowsPowerShe
Windows 驱动程序开发：Visual Studio 2012 中缺少部署选项

我试图编译和部署世界粮食计划署样本取自 MSDN http code msdn microsoft com windowshardware Windows Filtering Platform ae42c8d7 called msnmntr
PHP 致命错误：无法重新声明函数[重复]

这个问题在这里已经有答案了我在文件 B inc 中有一个函数 A line 2 function A line 10 在阿帕奇日志中 PHP 致命错误无法在第 10 行的 B 中重新声明 A 之前在 B inc 2 中声明我想你正在使
如何自动展开所有TreeView节点？

我想在应用程序启动时展开主窗体上的树我怎样才能做到呢我找不到相应的属性 C 生成器 2009 您只需致电FullExpand http docwiki embarcadero com VCL en ComCtrls TCustomTre
如何让键盘选项卡聚焦于div

I made a message box on which there are two buttons on it Basically it s a jQuery plugin that popup with the overlay eff
vbscript输出到控制台

使用 vbscript 将结果输出到控制台的命令或最快方法是什么你的意思是 WScript Echo Like this 如果你在下面运行它wscript exe vbs 扩展名的默认处理程序因此双击脚本会得到什么您将看到一个 Mes
检查 python 列表/numpy ndarray 中是否存在重复项的最快方法

我想确定我的列表实际上是numpy ndarray 在尽可能最快的执行时间内包含重复项请注意我并不关心删除重复项我只是想知道是否有重复项注意如果这不是重复的我会感到非常惊讶但我已尽力而为却找不到最近的是这个问题 https

检查 python 列表/numpy ndarray 中是否存在重复项的最快方法

检查 python 列表/numpy ndarray 中是否存在重复项的最快方法 的相关文章

随机推荐

热门标签

检查 python 列表/numpy ndarray 中是否存在重复项的最快方法的相关文章