在大型文本文件中查找重复记录

2024-05-02

我在一台 Linux 机器（Redhat）上，并且有一个 11GB 的文本文件。文本文件中的每一行包含单个记录的数据，并且该行的前 n 个字符包含该记录的唯一标识符。该文件包含略多于 2700 万条记录。

我需要验证文件中不存在具有相同唯一标识符的多个记录。我还需要在 80GB 文本文件上执行此过程，因此任何需要将整个文件加载到内存中的解决方案都是不切实际的。

逐行读取文件，这样您就不必将其全部加载到内存中。

为每一行（记录）创建一个 sha256 哈希值（32 字节），除非您的标识符较短。

将哈希值/标识符存储在numpy.array。这可能是存储它们的最紧凑的方式。 2700 万条记录乘以 32 字节/散列为 864 MB。这应该适合现在像样的机器的内存。

为了加快访问速度，您可以使用第一个，例如2 个字节的哈希值作为 a 的键collections.defaultdict并将其余的哈希值放入值的列表中。这实际上会创建一个包含 65536 个存储桶的哈希表。对于 27e6 条记录，每个存储桶平均包含大约 400 个条目的列表。这意味着比 numpy 数组搜索速度更快，但会使用更多内存。

d = collections.defaultdict(list)
with open('bigdata.txt', 'r') as datafile:
    for line in datafile:
        id = hashlib.sha256(line).digest()
        # Or id = line[:n]
        k = id[0:2]
        v = id[2:]
        if v in d[k]:
            print "double found:", id
        else:
            d[k].append(v)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在大型文本文件中查找重复记录

python

Linux

bash

shell

在大型文本文件中查找重复记录的相关文章

shell脚本中是否有互斥/信号量机制？

PIL Image.size 返回相反的宽度/高度

Python - 用逗号分割，跳过括号内的内容

sudo pip install python-Levenshtein 失败，错误代码 1

如何通过双击在浏览器中打开 ipynb 文件

LaunchAgent 不运行 shell 脚本

matplotlib matshow 标签

具有多个元素的数组的真值是二义性错误吗？ Python

Python：计算数据帧列中所有行中特定字符的实例数

Python 中的 @staticmethod 与 @classmethod

如何在Python和Selenium中通过标签名称或id获取元素[重复]

为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

将输入发送到 python 子进程而不等待结果

无法截取宽度为 0 的屏幕截图

Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

Flask WTForms 使用变量自动填充 StringField

为什么实现 iter 的对象不被识别为可迭代的？

如何禁止 celery 中的 pickle 序列化

在大型文本文件中查找重复记录

在大型文本文件中查找重复记录 的相关文章

在大型文本文件中查找重复记录的相关文章