在巨大列表中查找/搜索的最有效方法（python）[重复]

2024-01-08

-- 我刚刚解析了一个大文件，并创建了一个包含 42.000 个字符串/单词的列表。我想查询[针对此列表]以检查给定的单词/字符串是否属于它。所以我的问题是：

这种查找最有效的方法是什么？

第一种方法是对列表进行排序（list.sort()）然后只需使用

>> if word in list: print 'word'

这真的很微不足道，我确信有更好的方法来做到这一点。我的目标是应用快速查找来查找给定的字符串是否在此列表中。如果您对其他数据结构有任何想法，欢迎提出。然而，我现在想避免像 Tries 等更复杂的数据结构。我有兴趣听到有关快速查找或任何其他可能比简单搜索更快的 python 库方法的想法（或技巧）in.

我还想知道搜索项的索引

不要创建一个list，创建一个set。它以恒定的时间进行查找。

如果您不想要集合的内存开销，请保留一个排序列表并使用bisect http://docs.python.org/library/bisect.html module.

from bisect import bisect_left
def bi_contains(lst, item):
    """ efficient `item in lst` for sorted lists """
    # if item is larger than the last its not in the list, but the bisect would 
    # find `len(lst)` as the index to insert, so check that first. Else, if the 
    # item is in the list then it has to be at index bisect_left(lst, item)
    return (item <= lst[-1]) and (lst[bisect_left(lst, item)] == item)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Search

list

performance

在巨大列表中查找/搜索的最有效方法（python）[重复] 的相关文章

多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
PHP 与 MySQL 查询性能（ if 、函数）

我只看到这个artice http www onextrapixel com 2010 06 23 mysql has functions part 5 php vs mysql performance 我需要知道在这种情况下什么是最好的表
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并

随机推荐

在 ASP.NET 中自动进行 HtmlEncode

被 Ruby on Rails 3 宠坏了我希望所有 HTML 输出都能自动编码我问这个关于脚本漏洞的问题 https stackoverflow com questions 7136864 script exploits in asp
将本机页脚视图添加到 webview

我有一个WebView和我想在下面添加的本机自定义视图WebView 我试过包裹WebView里面一个ScrollView 虽然这正是我想要的但滚动性能确实很滞后如果用户点击屏幕滚动滚动条并不会像应有的那样停止滚动我想到的另一种方法是
ASP.NET MVC + 模型状态和部分视图

我有一个名为 LogOn 的部分视图其中我基本上将登录输入复制到控件中我使用 Html RenderPartial 将控件放置在 Ajax BeginForm 内的 Index Html 中 div div 我正在尝试传回验证消息并显示
单击按钮后按键监听器不工作

我在java中的框架上附加了一个按键侦听器当我按下任何键时我可以检测到按键但是奇怪的事情正在发生我的游戏是扫雷游戏我有一个重新启动按钮基本上可以清除棋盘并重新挖掘它奇怪的是当我用鼠标单击按钮时一切都正常并且面板被提醒但
pandas 数据框的高效扁平化

我有一个熊猫数据框它看起来像这样 pd DataFrame data np arange 1 10 reshape 3 3 index A B C columns A B C 但有 100 行和 100 列我想把它压平使它看起来像这样
将文本从电脑复制并粘贴到 Android Studio 模拟器时出错

大约 2 个月前我能够从电脑剪贴板复制文本并将其粘贴到在 Android Studio 模拟器上运行的应用程序中只需在电脑上执行 ctrl c 并将其粘贴到 TextView 中即可现在我使用的是新版本的Android Studio
钥匙锁实际上锁定了什么资源？

我知道钥匙锁将钥匙锁定在索引中然而钥匙到底意味着什么呢例如如果我在姓氏列上有一个非聚集索引并尝试更新姓氏 Jones 的位置那么我是否会有效锁定表中姓氏为 Jones 的每一行或者索引会被锁定在更高的级别从而阻止访问姓氏不是
在 ListView 中触摸项目时更改行背景颜色

我尝试使用 BaseAdapter 在 ListView 中显示项目我在 BaseAdapter 中尝试以下代码 Override public View getView final int position View convertVi
CSS：为什么“vertical-align：middle”不起作用？

考虑以下示例现场演示在这里 http jsfiddle net cXUnT HTML a img src http img brothersoft com icon softimage s smiley s challenge 13193
根据浏览器宽度显示图像

我有一堆图像想要使用 jquery 显示我有 div 我使用 jquery 根据某些 node id 标准填充 div 例如如果 node id 是 teamA 我会显示图像名称中包含 teamA 文本的图像它可以工作问题是当将图像
地平线检测算法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您能帮我找到有关如何检测图像上的地平线的信息吗它不应该基于遗传算法或神经网络只是发现这个问题很有趣所以我在互联网上为您搜索并提出
调整 G1GC 参数以进行积极的垃圾收集？

我的 JVM 基本上是一个 Spark 执行器它一个接一个地运行任务任务需要大量内存并且在其生命周期内需要大量内存 JConsole 和 JVisualVM 并排报告 https i stack imgur com seZNO png
Meteor：什么时候 this.isSimulation 比 Meteor.isClient 更有用？

this isSimulation的定义 Access inside a method invocation Boolean value true if this invocation is a stub Meteor isClient 的
Django：为什么 Foo.objects.extra(...) 比 Foo.objects.raw 快得多？

所以我试图优化一个相当奇怪的查询但这是一个遗留数据库所以我用我所拥有的来凑合这些是我正在尝试的查询此时它们提供相同的输出 w 是我的查询集 def future schedule request past datetime date
setPluginState(WebSettings.PluginState) 已弃用。我应该怎么办？（网页视图插件）

我正在使用以下代码将我的 Flash 游戏制作成 Android 应用程序它工作得很好但编译器给出了错误类型中的方法 setPluginState WebSettings PluginState WebSettings 已弃用这是代
溢出滚动不适用于位置固定元素 iOS

I have position fixed移动设备尺寸页面最底部的导航栏导航栏本身有一个溢出容器用户可以滚动到右侧以查看其他链接这是一个设计请求在我看来用户体验很差但那是我的 2 美分我在 iOS 设备上测试时遇到的问题是
Google hreflang 语言混淆：我是否必须为页面本身添加 hreflang？

On 谷歌的hreflang文档 https support google com webmasters answer 189077 hl en 在两种语言的示例中它表示假设您有一个英语页面托管在http www example com
了解何时使用 git commit -m 和 git commit -am

我的主要问题是始终这样做是否有意义git commit am代替git add 其次是git commit m 我知道 am 表示它将添加修改后的 TRACKED 文件中的所有更改因此在我没有添加任何新文件的情况下只运行 git co
PHP 中的隔离？

这是我思考了一段时间的事情我正在创建一个应用程序我的用户将在其中上传他们自己的自定义主题这意味着对于任何具有基本 PHP XSS 任何技能的人来说这将是一个很好的机会来引起很多麻烦我想在一种沙盒封闭的环境中运行任何上传的文件该
在巨大列表中查找/搜索的最有效方法（python）[重复]

这个问题在这里已经有答案了我刚刚解析了一个大文件并创建了一个包含 42 000 个字符串单词的列表我想查询针对此列表以检查给定的单词字符串是否属于它所以我的问题是这种查找最有效的方法是什么第一种方法是对列表进行排序 li

在巨大列表中查找/搜索的最有效方法（python）[重复]

在巨大列表中查找/搜索的最有效方法（python）[重复] 的相关文章

随机推荐

热门标签