在Python中修改大型文本文件最后一行的最有效方法

2024-05-05

我需要更新几个超过 2GB 的文件的最后一行，这些文件由无法读取的文本行组成readlines()。目前，它可以通过逐行循环来正常工作。但是，我想知道是否有任何编译库可以更有效地实现这一点？谢谢！

目前的方法

    myfile = open("large.XML")
    for line in myfile:
        do_something()

如果这确实是基于行的（不需要真正的 XML 解析器是最佳解决方案），mmap https://docs.python.org/3/library/mmap.html可以在这里提供帮助。

mmap文件，然后调用.rfind('\n')在生成的对象上（当您确实想要其前面的非空行而不是其后面的空“行”时，可能需要进行调整以处理以换行符结尾的文件）。然后你可以单独切掉最后一行。如果需要就地修改文件，可以调整文件大小以削减（或添加）与切片行和新行之间的差异相对应的字节数，然后写回新行。避免读取或写入超出您需要的文件内容。

示例代码（如有错误请指出）：

import mmap

# In Python 3.1 and earlier, you'd wrap mmap in contextlib.closing; mmap
# didn't support the context manager protocol natively until 3.2; see example below
with open("large.XML", 'r+b') as myfile, mmap.mmap(myfile.fileno(), 0, access=mmap.ACCESS_WRITE) as mm:
    # len(mm) - 1 handles files ending w/newline by getting the prior line
    # + 1 to avoid catching prior newline (and handle one line file seamlessly)
    startofline = mm.rfind(b'\n', 0, len(mm) - 1) + 1

    # Get the line (with any newline stripped)
    line = mm[startofline:].rstrip(b'\r\n')

    # Do whatever calculates the new line, decoding/encoding to use str
    # in do_something to simplify; this is an XML file, so I'm assuming UTF-8
    new_line = do_something(line.decode('utf-8')).encode('utf-8')

    # Resize to accommodate the new line (or to strip data beyond the new line)
    mm.resize(startofline + len(new_line))  # + 1 if you need to add a trailing newline
    mm[startofline:] = new_line  # Replace contents; add a b"\n" if needed

显然在某些系统（例如 OSX）上没有mremap, mm.resize不起作用，因此为了支持这些系统，您可能会拆分with（所以mmap在文件对象之前关闭），并使用基于文件对象的查找、写入和截断来修复文件。下面的例子包括我之前提到的Python 3.1及更早版本的具体调整使用contextlib.closing为了完整性：

import mmap
from contextlib import closing

with open("large.XML", 'r+b') as myfile:
    with closing(mmap.mmap(myfile.fileno(), 0, access=mmap.ACCESS_WRITE)) as mm:
        startofline = mm.rfind(b'\n', 0, len(mm) - 1) + 1
        line = mm[startofline:].rstrip(b'\r\n')
        new_line = do_something(line.decode('utf-8')).encode('utf-8')

    myfile.seek(startofline)  # Move to where old line began
    myfile.write(new_line)  # Overwrite existing line with new line
    myfile.truncate()  # If existing line longer than new line, get rid of the excess

优点mmap优于任何其他方法的是：

无需读取超出行本身的任何文件内容（意味着文件的 1-2 页，其余部分永远不会被读取或写入）
Using rfind意味着你可以让Python在C层（在CPython中）快速完成查找换行符的工作；明确的seeks and read文件对象的 s 可以匹配“仅读取一页左右”，但您必须手动实现换行符的搜索

Caveat: 这种方法行不通（至少，不是没有修改以避免映射超过 2 GB，并在可能无法映射整个文件时处理调整大小）如果您使用的是 32 位系统并且文件太大而无法映射到内存中。在大多数 32 位系统上，即使在新生成的进程中，也只有 1-2 GB 的可用连续地址空间；在某些特殊情况下，您可能拥有多达 3-3.5 GB 的用户虚拟地址（尽管您会丢失一些用于堆、堆栈、可执行映射等的连续空间）。mmap不需要太多的物理RAM，但需要连续的地址空间； 64 位操作系统的巨大好处之一是，除了最荒谬的情况外，您不再担心虚拟地址空间，因此mmap可以解决一般情况下在 32 位操作系统上如果不增加复杂性就无法处理的问题。目前大多数现代计算机都是 64 位的，但如果您的目标是 32 位系统，则绝对需要记住这一点（在 Windows 上，即使操作系统是 64 位，它们也可能已经安装了 32 位版本的 Python）错误，所以同样的问题也适用）。这里还有一个可以在 32 位 Python 上运行的示例（假设最后一行不是 100+ MB 长）（省略closing并为简洁而导入），即使对于大文件：

with open("large.XML", 'r+b') as myfile:
    filesize = myfile.seek(0, 2)
    # Get an offset that only grabs the last 100 MB or so of the file aligned properly
    offset = max(0, filesize - 100 * 1024 ** 2) & ~(mmap.ALLOCATIONGRANULARITY - 1)
    with mmap.mmap(myfile.fileno(), 0, access=mmap.ACCESS_WRITE, offset=offset) as mm:
        startofline = mm.rfind(b'\n', 0, len(mm) - 1) + 1
        # If line might be > 100 MB long, probably want to check if startofline
        # follows a newline here
        line = mm[startofline:].rstrip(b'\r\n')
        new_line = do_something(line.decode('utf-8')).encode('utf-8')

    myfile.seek(startofline + offset)  # Move to where old line began, adjusted for offset
    myfile.write(new_line)  # Overwrite existing line with new line
    myfile.truncate()  # If existing line longer than new line, get rid of the excess

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

IO

在Python中修改大型文本文件最后一行的最有效方法的相关文章

Pygame读取MIDI输入

我参考了Pygame MIDI 文档 https www pygame org docs ref midi html and 这段代码 https stackoverflow com questions 62983509 pygame mi
openpyxl 2.4.2：保存后公式生成的单元格值为空

我使用 openpyxl 打开文件编辑一些单元格并保存更改这是一个例子 import openpyxl book openpyxl load workbook sheet path sheet book active for row i
Matplotlib 标准化颜色条 (Python)

我正在尝试使用 matplotlib 当然还有 numpy 绘制轮廓图它有效它绘制了它应该绘制的内容但不幸的是我无法设置颜色条范围问题是我有很多图并且需要所有图都具有相同的颜色条相同的最小值和最大值相同的颜色我复制并粘贴了在
使用 Django 的 post_save() 信号

我有两张桌子 class Advertisement models Model created at models DateTimeField auto now add True author email models EmailField
用 Python 编写一个无操作或虚拟类

假设我有这样的代码 foo fooFactory create 由于种种原因 fooFactory create 可能无法创建实例Foo 如果可以的话我想要fooFactory create 返回一个虚拟无操作对象这个对象应该是完全惰性
如何自动替换多个文件的文本内容中的字符？

我有一个文件夹 myfolder包含许多乳胶表我需要替换其中每个字符即替换任何minus sign by an en dash 只是为了确定我们正在替换连字符INSIDE该文件夹中的所有 tex 文件我不关心 tex 文件名手动执
NLTK、搭配问题：需要解包的值太多（预期为 2）

我尝试使用 NLTK 检索搭配但出现错误我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al
使用正则表达式解析 Snort 警报文件

我正在尝试使用 Python 中的正则表达式从 snort 警报文件中解析出源目标 IP 和端口和时间戳示例如下 03 09 14 10 43 323717 1 2008015 9 ET MALWARE User Agent Win9
Python：当前目录是否自动包含在路径中？

Python 3 4 通过阅读其他一些 SO 问题似乎如果moduleName py文件位于当前目录之外如果要导入它必须将其添加到路径中sys path insert 0 path to application app folder
唯一的图像哈希值即使 EXIF 信息更新也不会改变

我正在寻找一种方法来为 python 和 php 中的图像创建唯一的哈希值我考虑过对原始文件使用 md5 和因为它们可以快速生成但是当我更新 EXIF 信息有时时区关闭时它会更改总和并且哈希也会更改有没有其他方法可以为这些文
Python While 循环，and (&) 运算符不起作用

我正在努力寻找最大公因数我写了一个糟糕的运算密集型算法它将较低的值减一使用检查它是否均匀地划分了分子和分母如果是则退出程序但是我的 while 循环没有使用 and 运算符因此一旦分子可整除它就会停止即使它不是正确
Python unicode 字符代码？

有没有办法将 Unicode 字符插入 Python 3 中的字符串例如 gt gt gt import unicode gt gt gt string This is a full block s unicode charcode U
phonegap html5 android 同步文件系统 IO

如何使用 PhoneGaps 文件系统 API 同步读写文件有可用的同步包装器吗无法通过提供的 api 同步访问文件从phonegap的实现方式猜测我怀疑您是否可以编写一个插件来同步执行此操作
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
Scrapy 蜘蛛无法工作

由于到目前为止没有任何效果我开始了一个新项目 python scrapy ctl py startproject Nu 我完全按照教程操作创建了文件夹和一个新的蜘蛛 from scrapy contrib spiders import
asyncio - 多次等待协程（周期性任务）

我正在尝试为异步事件循环创建定期任务如下所示但是我收到 RuntimeError 无法重用已等待的协程异常显然 asyncio 不允许等待相同的可等待函数如中讨论的这个错误线程 https bugs python org issu
CSV 在列中查找最大值并附加新数据

大约两个小时前我问了一个关于从网站读取和写入数据的问题从那时起我花了最后两个小时试图找到一种方法来从输出的 A 列读取最大日期值将该值与刷新的网站数据进行比较并将任何新数据附加到 csv 文件而不覆盖旧的或创建重复项目前 100
具有指定置信区间的 Seaborn 条形图

我想在 Seaborn 条形图上绘制置信区间但我已经计算出置信区间如何让 Seaborn 绘制我的置信区间而不是尝试自行计算它们例如假设我有以下 pandas DataFrame x pd DataFrame Group 1 0 5
如何使用 Django (Python) 登录表单？

我在 Django 中构建了一个登录表单现在我遇到了路由问题当我选择登录按钮时表单不会发送正确的遮阳篷我认为前端的表单无法从查看 py 文件所以它不会发送任何 awnser 并且登录过程无法工作该表单是一个简单的静态 html

随机推荐

在单个图中获取 geom_hex 中的观测值 (Shiny)

我正在尝试创建一个十六进制的交互式图用户可以单击给定的十六进制并接收分组在该单击的十六进制中的原始数据帧的所有观察结果的列表下面是一个 MWE 看起来非常接近我的目标我正在使用 Shiny hexbin 和 ggplotly app
Python pandas cumsum() 在达到最大值后重置

我有一个 pandas DataFrame 其中 timedeltas 作为这些增量的累积和在单独的列中以毫秒表示下面提供了一个示例 Transaction ID Time TimeDelta CumSum ms 1 00 00 04
实体框架一对多关系

我的 EF 查询大约需要 3 秒才能获取 10 个玩家因为它获取另一个表的所有 500k 行而不是我需要的少数行这是玩家实体 namespace RocketLeagueStats Database Entities Table pl
如何在 SwiftUI 中管理 AVPlayer 状态

我有 SwiftUI 中的 URL 列表当我点击某个项目时我会呈现一个全屏视频播放器我有一个 EnvironmentObject它处理一些查看器选项例如是否显示时间码我还有一个显示和隐藏时间码的切换开关我只在本例中包含了该切换
复制行并自动递增非身份键 ID 列的 INSERT INTO 语句

给定一个包含三列的表 ID 主键非自动递增 GroupID 一些价值我正在尝试编写一个 SQL INSERT INTO 语句该语句会将具有一个 GroupID 的每一行复制到一个新的 GroupID 中起始表示例 ID GroupI
添加取消上传或中止功能以引导多个文件上传插件

我在用引导多文件上传插件 http blueimp github io jQuery File Upload basic html上传文件我正在使用此链接上的示例现在我想在添加文件按钮之外添加另一个按钮取消上传单击取消上传按
如何判断一个app是原生的还是html5的？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想知道移动应用程序是如何原生或 html5 的有没有什么软件或者网站可以说明这一点如何检测应用程序是本机应用程序还是 html5 您可以使用 w
MySQL记录保存到数据库的当前时间

我正在使用 Zend Framework 1 12 和 Mysql 我想在数据库中添加列该列保存记录插入表中时的当前日期时间有人知道我如何定义此列吗此功能必须在 Mysql 站点上运行而不是在 PHP 站点上运行您必须将列类型更改
使用 html 属性的 DOM 惩罚

我正在考虑使用 HTML5 数据属性来更轻松地编写我的应用程序的第三方脚本因此考虑两种情况页面上有 10 000 个 HTML 元素例如 div Sticker div 还有其他 10 000 个 HTML 元素例如 div St
使用 python 在网络上部署 matlab 应用程序

您好我想使用 python 在网络上部署 matlab 应用程序有没有办法做到这一点我已按照数学工作网站上的文档将我的应用程序转换为 jar 文件 java 类有人能指出我前进的正确方向吗事实上您的 Matlab 代码打包为 J
GTM - 将事件/数据推送到 gtm dataLayer 不发送任何内容到 https://www.google-analytics.com/r/collect?v

我已在我的 chrome 扩展页面中添加了此 gtm 代码由内容脚本和 iframe 注入 function w d s l i w l w l w l push gtm start new Date getTime event gtm
在 OCaml 自定义顶层设置提示

在 OCaml 自定义顶层中有没有一种方法可以通过编程方式设置提示到别的东西我希望能够更改它以响应用户的最后一个自定义功能有点像bash你如何设置PS1 我什至找不到 directive 来更改它谢谢在 toplevel top
Microsoft 认知服务 - 计算机视觉：订阅密钥无效

我正在尝试使用计算机视觉API https azure microsoft com en us services cognitive services computer vision 来自微软的认知服务但是我的钥匙似乎不起作用我使用该
使用光栅重新投影 .tiff 文件：CRSError：无法解析 WKT。 OGR 错误代码 6

我正在尝试使用以下代码将 tiff 文件重新投影到 EPSG 32638 我安装过的版本光栅版本 1 1 5 Numpy 版本 1 18 1 这是我正在使用的代码 https rasterio readthedocs io en late
GNUCobol (OpenCOBOL) 错误：libcob：未找到模块“»”

我正在转换一组为 Microfocus 编译器编写的 COBOL 程序以便与 GnuCobol 一起使用到目前为止我已经取得了一定的成功只需要更改一些特定于微焦点的日期命令并使用 GnuCobol 的 std mf争论我正在使用
无法通过 HTTPS 克隆私有 Github 存储库

我在通过 HTTPS 克隆私有 GitHub 存储库时遇到问题如果我尝试使用以下方式克隆我的存储库 git clone https github com username repository 我收到错误 fatal remote err
com.google.android.gms.games.GamesClient 无法解析

我正在尝试使用 google play 游戏服务开发实时多人游戏并下载了示例 ButtonClicker2000 但 Eclipse ADK 一直抱怨 com google android gms games GamesClient 无法
如何强制浏览器使用 .htaccess 下载目录中的所有文件类型？

我如何告诉浏览器强制下载目录中的所有文件类型而不是在浏览器中呈现它们我已经尝试过这个但没有成功
android studio 中没有flutter SDK

我正在尝试跑步Flutter在 Android studio 上但我有一个解决此错误的问题我正在使用所有东西的最新版本例如 dart 和 flutter 或插件 Flutter 用户应该运行flutter packages get代替
在Python中修改大型文本文件最后一行的最有效方法

我需要更新几个超过 2GB 的文件的最后一行这些文件由无法读取的文本行组成readlines 目前它可以通过逐行循环来正常工作但是我想知道是否有任何编译库可以更有效地实现这一点谢谢目前的方法 myfile open large

在Python中修改大型文本文件最后一行的最有效方法

目前的方法

在Python中修改大型文本文件最后一行的最有效方法 的相关文章

随机推荐

热门标签

在Python中修改大型文本文件最后一行的最有效方法的相关文章