Python：跨文件块边界的正则表达式匹配

2024-02-08

巨大的纯文本数据文件

我使用 python 读取了一个大文件。然后我在该块上应用正则表达式。我想根据一个标识符标签提取相应的值。由于块大小的原因，数据在块边界处丢失。

要求：

必须以块的形式读取文件。
块大小必须小于或等于 1 GiB。

Python 代码示例

identifier_pattern = re.compile(r'Identifier: (.*?)\n')
with open('huge_file', 'r') as f:
    data_chunk = f.read(1024*1024*1024)
    m = re.findall(identifier_pattern, data_chunk)

块数据示例

Good:标签数量等于值数量

标识符：值
标识符：值
标识符：值
标识符：值

由于块大小的原因，您会遇到如下所列的不同边界问题。第三个标识符返回不完整的值，“v”而不是“value”。下一个块包含“alue”。这会导致解析后丢失数据。

Bad:标识符值不完整

标识符：值
标识符：值
标识符：v

如何解决这样的块边界问题？

假设这就是您的确切问题，您可能只需调整正则表达式并逐行读取（这不会将完整文件加载到内存中）：

import re
matches = []
identifier_pattern = re.compile(r'Identifier: (.*?)$')
with open('huge_file') as f:
    for line in f:
        matches += re.findall(identifier_pattern, line)

print("matches", matches)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

boundary

Python：跨文件块边界的正则表达式匹配的相关文章

如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
使用 sed 删除大括号对之间的所有内容

我有一个看起来像这样的字符串 B F blue master F red f k b f k b K black B F green 我想删除匹配的子字符串它可能包含也可能不包含相同顺序的其他子字符串我应该得到 master 作为最终输
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

AWS EB - 将所有流量重定向到 https

我的nodejs应用程序部署在AWS EB上我已经配置了 https 服务器并且工作正常现在我需要将每个非 https 请求重定向到带有 www 的 https 作为前缀如下所示 GET example com gt https ww
Flutter URL 启动器 Google 地图

列表 dart import package flutter material dart import package url launcher url launcher dart class List extends StatefulWi
算法渐近复杂度

我想知道这个过程可以使用大符号在以下算法中返回的最小值和最大值是多少算法是 procedure F 1 n s 0 for i 1 to n j min max i A i n s s j return s 编辑删除了原始答案因为它
我可以为 gtest 中的值参数化测试指定更好的名称吗？

我在 gtest 中使用值参数化测试例如如果我写 INSTANTIATE TEST CASE P InstantiationName FooTest testing Values meeny miny moe 然后在输出中我看到测试名称
延迟加载模块时生成错误

在另一个模块中延迟加载模块时出现构建错误延迟加载在执行 ng 服务时工作得很好角度版本 11 1 2 错误错误构建多个块时必须使用 output dir 选项而不是 output file 要内联动态导入请设置 inline
通过 c# 解析 csproj - 无法解析 ItemGroup

我尝试从 csproj 文件中获取所有 dll 名称但无法获取任何内容因此我尝试使用 liq 查询从 ItemGroup 标记中获取所有元素 var elem doc Descendants Project Where t gt t
将消息放入azure队列

我按照给出的详细信息将消息放入天蓝色队列中Azure Python SDK https github com Azure azure sdk for python 当我尝试将消息放入队列时 from azure storage import
如何使用 Between 子句获取两个日期之间的数据？

我在数据库中有日期字段格式为2012 03 17 19 50 08 023 我想创建一个选择查询它为我提供在March月但我无法实现这一点我正在尝试以下查询 select from OrderHeader where Convert
从函数返回 Axios Promise

有人可以解释一下为什么返回 Axios 承诺允许进一步链接但在应用 axios 后返回then catch 方法不对 Example const url https 58f58f38c9deb71200ceece2 mockapi io
让 Java 为可选返回类型推断 @NotNull

Using OptionalJava 中的 s 不能防止 NPE 因为值仍然可以null Optional
Gmail 历史记录列表未提供完整数据

我正在尝试从 gmail api watch 给出的historyId 获取历史记录 https developers google com gmail api v1 reference users history list https d
在 div 中显示 Adobe pdf

我有一个 pdf 文件用户必须查看该文件并单击我同意按钮如何在 div 中显示 pdf 是的你可以请参阅以下 2007 年线程中的代码 DIV 内的 PDF http www webdeveloper com forum show
如何在Python中使用单独的线程进行异步信号处理

下面是我的测试代码当使用 python2 7 运行时它表明程序在所有生成的线程完成之前不会收到任何信号而在 python3 2 中只有主线程的 sigintHandler 被调用我对 python 如何处理线程和信号感到困惑那么
更改 R 笔记本中的 mathjax 渲染器（使用“self_contained: false”）

我正在创建包含方程的 R 笔记本我在 Windows 10 R 3 5 1 和 rmarkdown 2 1 上使用 RStudio 1 2 5033 当我的 R 笔记本呈现为 HTML 时 MathJax v2 7 2 使用 HTML C
量角器通过名称标签获取元素

目前我正在使用量角器和 Selenium Web 驱动程序我有以下问题我有一个 html 页面我让量角器单击按钮然后弹出一个窗口该窗口包含一个名称为 Description 的文本框
coredata 错误，因为sectionNameKeyPath 或在 NSFetchedResultsController 处对数据进行分组

2011 12 28 10 52 13 633 BadgerNew 663 707 CoreData error NSFetchedResultsController object
如何在 Struts 2 上应用 Spring Security

我已经阅读了各种教程和论坛但没有找到结合 Spring security 和 struts2 来研究编码的工作示例当前的大多数示例都使用 XML 文件中预定义的用户名和密码但未连接到数据库例子 Sample 1 https stac
PyQt：当内容更改时如何处理小部件的自动调整大小

当 qt4 小部件的内容发生变化时我遇到了一些大小问题我将用两个简单的场景来说明我的问题场景一我有一个 QLineEdit 小部件有时当我使用 QLineEdit setText 更改其内容时单行字符串不再适合其当前大小的小部
SQL Server 2005 和 SQL Server 2008 之间是否存在冲突？

我被告知带有 BI 工具的 SQL Server 2005 安装和带有 BI 工具的 SQL Server 2008 不能在同一台计算机上一起工作显然一些事情停止工作这是我的一位团队成员告诉我的由于我是 SQL BI 的新手所以
Python：跨文件块边界的正则表达式匹配

巨大的纯文本数据文件我使用 python 读取了一个大文件然后我在该块上应用正则表达式我想根据一个标识符标签提取相应的值由于块大小的原因数据在块边界处丢失要求必须以块的形式读取文件块大小必须小于或等于 1 GiB Pyth

Python：跨文件块边界的正则表达式匹配

巨大的纯文本数据文件

Python：跨文件块边界的正则表达式匹配 的相关文章

随机推荐

热门标签

Python：跨文件块边界的正则表达式匹配的相关文章