[编辑:此问题仅适用于 32 位系统。如果您的计算机、操作系统和 python 实现都是 64 位的,那么 mmap-ing 大文件可以可靠地工作并且非常高效。]
我正在编写一个模块,除其他外,它允许对文件进行按位读取访问。这些文件可能很大(数百 GB),因此我编写了一个简单的类,让我将文件视为字符串并隐藏所有查找和读取。
当我写我的包装类时,我不知道映射模块 http://docs.python.org/library/mmap.html。在阅读 mmap 的文档时,我想“太棒了 - 这正是我所需要的,我将取出我的代码并将其替换为 mmap。它可能会更有效,并且删除代码总是好的。”
问题是 mmap 不适用于大文件!这让我感到非常惊讶,因为我认为这可能是最明显的应用。如果文件超过几千兆字节,那么我会得到一个EnvironmentError: [Errno 12] Cannot allocate memory
。这种情况仅发生在 32 位 Python 构建中,因此它似乎耗尽了地址空间,但我找不到任何相关文档。
我的代码只是
f = open('somelargefile', 'rb')
map = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
所以我的问题是我在这里遗漏了一些明显的东西吗?有没有办法让 mmap 在大文件上可移植地工作,或者我应该回到我的天真的文件包装器?
更新:似乎有一种感觉,Python mmap 应该具有与 POSIX mmap 相同的限制。为了更好地表达我的挫败感,这里有一个简单的类,它具有 mmap 的一小部分功能。
import os
class Mmap(object):
def __init__(self, f):
"""Initialise with a file object."""
self.source = f
def __getitem__(self, key):
try:
# A slice
self.source.seek(key.start, os.SEEK_SET)
return self.source.read(key.stop - key.start)
except AttributeError:
# single element
self.source.seek(key, os.SEEK_SET)
return self.source.read(1)
它是只读的,不会做任何花哨的事情,但我可以像使用 mmap 一样执行此操作:
map2 = Mmap(f)
print map2[0:10]
print map2[10000000000:10000000010]
除了对文件大小没有限制之外。其实不是太难...