如何使用 python 有效地找到两个大文件的交集？

2024-05-21

我有两个大文件。它们的内容如下所示：

134430513
125296589
151963957
125296589

该文件包含未排序的 id 列表。某些 id 可能会在单个文件中出现多次。

现在我想找到路口两个文件的一部分。这就是两个文件中都出现的 id。

我只是将这两个文件读成2组，s1 and s2。并通过以下方式获得交集s1.intersection(s2)。但它消耗大量内存并且看起来很慢。

那么有没有更好的或Python式的方法来做到这一点？如果文件包含太多无法读入的 idset内存有限，我能做什么？

编辑：我使用生成器将文件读入两组：

def id_gen(path):
    for line in open(path):
        tmp = line.split()
        yield int(tmp[0])

c1 = id_gen(path)
s1 = set(c1)

所有 id 都是数字。最大id可能是5000000000。如果使用bitarray，会消耗更多内存。

其他人已经展示了更惯用的方法 Python，但如果数据量确实太大，可以使用系统实用程序排序并消除重复项，然后使用 File 是一个返回一行的迭代器这一事实一次，做类似的事情：

import os
os.system('sort -u -n s1.num > s1.ns')
os.system('sort -u -n s2.num > s2.ns')
i1 = open('s1.ns', 'r')
i2 = open('s2.ns', 'r')
try:
    d1 = i1.next()
    d2 = i2.next()
    while True:
        if (d1 < d2):
            d1 = i1.next()
        elif (d2 < d1):
            d2 = i2.next()
        else:
            print d1,
            d1 = i1.next()
            d2 = i2.next()
except StopIteration:
    pass

这可以避免一次有多于一行（对于每个文件）在内存中（并且系统排序应该比任何东西都快） Python 可以做到，因为它针对这一任务进行了优化）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Algorithm

set

如何使用 python 有效地找到两个大文件的交集？的相关文章

GUI 测试工具 PyUseCase 与 Dogtail 相比如何？

GUI测试工具如何Py用例 http pypi python org pypi PyUseCase重命名为故事文本 http pypi python org pypi StoryText 相比于Dogtail http en wikiped
从所有数据帧列中删除子字符串

我有一个单词列表大约 1000 个单词我称之为负面单词 CAST ARTICLES SANITARY JAN CLAUSES SPECIAL ENDORSEMENT 我很快就会用这个单词列表制作一个数据框我还有一个数据框看起来像 F
如何在 Pandas Python 中按 id 对行进行排名

我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
如何通过 python 中的函数运行列表？

我试图通过我创建的函数运行我的列表但不断收到错误我不知道出了什么问题温度 F temp f 19 21 21 21 23 功能 def fahrToCelsius tempFahrenheit return tempFahrenhei
pyCUDA无法打印结果

最近我使用 pip 为我的 python3 4 3 安装 pyCUDA 但我在测试示例代码时发现 https documen tician de pycuda tutorial html getting started https doc
用于在链表中查找结点的生产代码

我在一次采访中被问到这个问题我被要求编写代码用于在 O 1 空间和线性时间的生产环境中在链表其形式为 Y 形式双臂不一定相等中查找结点我想出了这个解决方案我以前在某处见过 1 Measure lengths of both l
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
使用会话在 Django 中将文件从一个视图传递到另一个视图

我当前的工作项目要求我允许用户上传各种格式的文件目前仅处理 CSV 格式然后使用包含的数据来绘制图表Pandas http pandas pydata org 图书馆我决定将图形渲染到模板的最简单方法是为图形创建特定视图然后将图像从
添加边后更新最大流量

考虑我们有一个网络流量并使用 Edmond Karp 算法我们已经拥有网络上的最大流量现在如果我们向网络添加任意边具有一定容量更新最大流量的最佳方法是什么我正在考虑更新关于新边缘的残差网络并再次寻找增强路径直到找到新的最大
Flymake的临时文件可以在系统临时目录下创建吗？

我目前正在使用以下代码在 emacs 中连接 Flymake 和 Pyflakes defun flymake create temp in system tempdir filename prefix make temp file or
Eclipse/PyDev 中未使用导入警告，尽管已使用

我正在我的文件中导入一个绘图包如下所示 import matplotlib pyplot as plt 稍后我会在我的代码中成功使用此导入 fig plt figure figsize 16 10 然而 Eclipse 告诉我未使用的导
将图与热图（可能是对数）配对？

How to create a pair plot in Python like the following but with heat maps instead of points or instead of a hex bin plot
获取多个同名请求参数

我的问题是给定的代码 from flask import Flask request app Flask name app route def hello return str request values get param None a
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
tf.print() vs Python print vs tensor.eval()

看来在Tensorflow中至少有三种方法可以打印出张量的值我一直在读here https www freecodecamp org news debugging tensorflow a starter e6668ce72617 an
实时战略战争游戏人工智能算法

我正在设计一款实时策略战争游戏其中 AI 将负责控制大型六边形地图上的大量单位可能超过 1000 个一个单位有许多行动点可以用于移动攻击敌方单位或各种特殊行动例如建造新单位例如一辆拥有 5 个行动点的坦克可以花费 3 个行动
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
如何有效地比较 pandas DataFrame 中的行？

我有一个 pandas 数据框其中包含雷击记录以及时间戳和全球位置格式如下 Index Date Time Lat Lon Good fix 0 1 20160101 00 00 00 9962692 7 1961 60 7604 1
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM

随机推荐

如何在jquery.repeater中仅在slideUp完成后执行下一个代码

这是原始代码 this slideUp deleteElement itemRemove 上面的代码在 SlideUp 完成之前调用 itemRemove 所以我使用了如下回调函数 this slideUp deleteElement fu
在用户窗体终止/关闭 VBA 时调用数组

我有一个问题我想在用户窗体关闭时将用户窗体的内容存储在数组中我认为我的语法正确但似乎不会在用户窗体初始化时重新填充我尝试将数组放入其自己的模块中但这也不起作用有人愿意启发我吗示例代码 Public Sub DPArrayStu
如何动态更新 ttk.combobox？

我正在 Windows 8 计算机上使用 Python 3 4 和 Tkinter 创建 GUI GUI 顶部有一些条目输入然后是一些组合框我希望组合框从先前输入描述的文本文件中获取选项列表文件名找到必要信息的行分隔符类型等我正
Google App Engine - 节点：找不到模块“firebase-admin”

第一次在这里部署 GAE 应用程序我尝试遵循本教程 https firebase googleblog com 2016 08 sending notifications Between android html https fireba
使用 CQRS 处理中介管道中的错误/异常？

我正在努力追随这个帖子 https lostechies com jimmybogard 2014 09 09 tackling cross cutting concerns with a mediator pipeline 由 Jimmy
如何向命名元组添加字段？

我正在处理命名元组列表我想在创建每个命名元组后添加一个字段看来我可以通过将其作为属性引用来做到这一点如namedtuple attribute foo 但随后它不会添加到字段列表中如果我不对字段列表执行任何操作是否有任何理由不应该
Android Facebook sdk 3.5 分享对话框

您好我正在为 android sdk 3 5 实现 facebook 共享对话框但是我按照指南没有取得任何成功 FacebookDialog shareDialog new FacebookDialog ShareDialogBuild
无法显示由 Fine-uploader 上传到 Amazon s3 的图像

我现在尝试设置fineuploader s3以显示在aws服务器上成功上传的文件的图像如示例页面上所做的那样 http fineuploader com s3 demo http fineuploader com s3 demo 我仍然
“#define for if (false) {} else for”的可能用途是什么？

在另一个问题中我刚刚发现了这个小珍珠C wisdom define for if false else for 这导致 MSVC 对于一个相当有效的语句发出常量表达式警告 for int i 0 i lt 10 i 我明白whyMSV
替换C#字符串中的数字

我正在尝试使用正则表达式对字符串进行一些工作但遇到了一些困难我的目标是用字符替换字符串中的数字特别是如果字符串中有一组数字我想用一个字符替换整个数字组如果只有一个数字我想将其替换为例如如果我有字符串 test12345 tx
使用php插入sql数据库时出错

我有一个带有 MySQL 插入查询的程序 sql INSERT INTO people person id name username password email salt VALUES person id name username p
根据类别 woocommerce 更改同一产品的默认变体值

我正在研究一种根据其所属类别显示同一产品的默认变体值的方法例如我出售一张带有蓝色和红色选项的卡当用户进入一类别时我希望默认值为蓝色如果他属于第二类则该值将为红色我发现了一个钩子woocommerce product def
如何将接口转换为接口切片？

我的输入是interface 而且我知道它可以是任何类型的数组我想读取我输入的元素之一所以我尝试将我的interface 进入一个 interface 但是 go 会给我以下错误恐慌接口转换 interface 是 map stri
将视图文件作为资源嵌入二进制文件中

我正在尝试创建一个带有少量控制器的 Net 库并且我想在多个 Web 项目中重用它们我已经完成一半了但我遇到的问题是每当我将库添加到新的 Web 项目时我需要将所有相应的视图文件单独复制到新项目中每当我更新库时我都需要再次重复
使用来自另一个的 SELECT 更新表，但字段为 SUM(someField)

基本上我有这样的事情 UPDATE Table SET Table col1 other table col1 FROM Table INNER JOIN other table ON Table id other table id 问题是
iphone opencv - 模板匹配

我已经在我的 iphone 项目中实现了这个 OpenCV 构建 http aptogo co uk 2011 09 opencv framework for ios http aptogo co uk 2011 09 opencv fra
PHP别名@函数

我是 PHP 新手看到一些使用前缀调用函数如 mysql ping 的示例我感到很困惑它是做什么用的谷歌搜索搜索没有太大帮助因为被丢弃并且别名不是足够好的关键字抑制错误警告和通知如果你用自定义的方式补充它你可以
Android 中的 java.util.Observable 是线程安全的吗？

Android 中的 java util Observable 是线程安全的吗这文档 http developer android com reference java util Observable html说只有deleteObser
PHP 和 MySQL 的重音字符错误

我的问题是直接通过 PHP 编写的内容是正确重音的但是当重音单词来自 MySQL 时字母会像这样我尝试使用html charset as ISO 8859 1它修复了 MySQL 字母但破坏了其他字母解决这一切的一种方法是设置我
如何使用 python 有效地找到两个大文件的交集？

我有两个大文件它们的内容如下所示 134430513125296589151963957125296589 该文件包含未排序的 id 列表某些 id 可能会在单个文件中出现多次现在我想找到路口两个文件的一部分这就是两个文件中都出现的

如何使用 python 有效地找到两个大文件的交集？

如何使用 python 有效地找到两个大文件的交集？ 的相关文章

随机推荐

热门标签

如何使用 python 有效地找到两个大文件的交集？的相关文章