如何高效解析固定宽度文件？

2023-12-31

我正在尝试找到一种有效的方法来解析包含固定宽度行的文件。例如，前 20 个字符代表一列，从 21:30 开始代表另一列，依此类推。

假设该行包含 100 个字符，将一行解析为多个组成部分的有效方法是什么？

我可以对每行使用字符串切片，但如果行很大，那就有点难看了。还有其他快速方法吗？

使用Python标准库struct https://docs.python.org/3/library/struct.html#module-struct模块将相当简单且相当快，因为它是用 C 编写的。下面的代码是如何使用它的。它还允许通过为字段中的字符数指定负值来跳过字符列。

import struct

fieldwidths = (2, -10, 24)
fmtstring = ' '.join('{}{}'.format(abs(fw), 'x' if fw < 0 else 's') for fw in fieldwidths)

# Convert Unicode input to bytes and the result back to Unicode string.
unpack = struct.Struct(fmtstring).unpack_from  # Alias.
parse = lambda line: tuple(s.decode() for s in unpack(line.encode()))

print('fmtstring: {!r}, record size: {} chars'.format(fmtstring, struct.calcsize(fmtstring)))

line = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789\n'
fields = parse(line)
print('fields: {}'.format(fields))

Output:

fmtstring: '2s 10x 24s', recsize: 36 chars
fields: ('AB', 'MNOPQRSTUVWXYZ0123456789')

正如您正在考虑的那样，这是一种使用字符串切片来实现此目的的方法，但担心它可能会变得太难看。它is有点复杂，速度也快，与基于的版本大致相同struct模块——尽管我知道如何加快它的速度（这可能会让额外的复杂性变得值得）。请参阅下面有关该主题的更新。

from itertools import zip_longest
from itertools import accumulate

def make_parser(fieldwidths):
    cuts = tuple(cut for cut in accumulate(abs(fw) for fw in fieldwidths))
    pads = tuple(fw < 0 for fw in fieldwidths) # bool values for padding fields
    flds = tuple(zip_longest(pads, (0,)+cuts, cuts))[:-1]  # ignore final one
    parse = lambda line: tuple(line[i:j] for pad, i, j in flds if not pad)
    # Optional informational function attributes.
    parse.size = sum(abs(fw) for fw in fieldwidths)
    parse.fmtstring = ' '.join('{}{}'.format(abs(fw), 'x' if fw < 0 else 's')
                                                for fw in fieldwidths)
    return parse

line = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789\n'
fieldwidths = (2, -10, 24)  # negative widths represent ignored padding fields
parse = make_parser(fieldwidths)
fields = parse(line)
print('format: {!r}, rec size: {} chars'.format(parse.fmtstring, parse.size))
print('fields: {}'.format(fields))

Output:

format: '2s 10x 24s', rec size: 36 chars
fields: ('AB', 'MNOPQRSTUVWXYZ0123456789')

Update

正如我所怀疑的，有is一种使代码的字符串切片版本更快的方法——在 Python 2.7 中，它与使用的版本的速度大致相同struct，但在 Python 3.x 中使其速度提高 233%（以及其自身的未优化版本，其速度与struct版本）。

上面介绍的版本所做的是定义一个 lambda 函数，该函数主要是在运行时生成一堆切片的限制的推导式。

parse = lambda line: tuple(line[i:j] for pad, i, j in flds if not pad)

这相当于下面的语句，具体取决于值i and j in the for循环，看起来像这样：

parse = lambda line: tuple(line[0:2], line[12:36], line[36:51], ...)

然而，后者的执行速度是后者的两倍多，因为切片边界都是常量。

幸运的是，使用内置函数将前者转换和“编译”为后者相对容易eval()功能：

def make_parser(fieldwidths):
    cuts = tuple(cut for cut in accumulate(abs(fw) for fw in fieldwidths))
    pads = tuple(fw < 0 for fw in fieldwidths) # bool flags for padding fields
    flds = tuple(zip_longest(pads, (0,)+cuts, cuts))[:-1]  # ignore final one
    slcs = ', '.join('line[{}:{}]'.format(i, j) for pad, i, j in flds if not pad)
    parse = eval('lambda line: ({})\n'.format(slcs))  # Create and compile source code.
    # Optional informational function attributes.
    parse.size = sum(abs(fw) for fw in fieldwidths)
    parse.fmtstring = ' '.join('{}{}'.format(abs(fw), 'x' if fw < 0 else 's')
                                                for fw in fieldwidths)
    return parse

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Parsing

如何高效解析固定宽度文件？的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

djangorest框架创建带有密码的用户

使用 django rest framework 3 和 django 1 8 我正在尝试使用 django rest framework ModelViewSerializer 创建用户问题是DRF使用的默认objects create
如何在 PostgreSQL 中对使用 date_trunc 函数的表达式创建索引？

当我尝试在 PostgreSQL 中对类型的表字段的表达式创建索引时date 使用date trunc函数我收到以下错误 functions in index expression must be marked IMMUTABLE 我该如
Webpack 4 devtool 选项不适用于 webpack-dev-server

在我决定发布这个问题之前我做了很多事情作为背景调查所以我的问题是我使用 webpack v4 6 0 和 webpack dev server v3 1 3 他们一起工作得很好但现在我正在尝试为我的应用程序设置源映射似乎开发工具
如何续订 Azure API 管理证书

使用我们的 Azure API 管理端点配置的证书今天过期了显然它的有效期只有一年我们如何更新它我们认为使用 MS 提供的默认 API 管理证书意味着我们不必手动担心更新它但事实似乎并非如此证书过期消息 https i stack
我的 VBA Excel 宏中的防病毒误报

我刚刚遇到了一个更烦人的问题 https stackoverflow com questions 3339136 antivirus false positive in my executable 突然 Windows Defender 开
Netbeans7.1 和 JavaFX 2.0 - FXML 代码完成不起作用

我开始学习 JavaFX 2 0 并安装了 Netbeans 7 1 java 7 02 SDK 其中包含 JavaFX 2 一切似乎都正常示例项目编译并运行良好我的问题是代码完成不适用于 FXML 文件我按 ctrl space
Matlab 快速傅立叶变换 / fft 用于时间和速度

我有一个 2 列向量其中包含数据子集的时间和速度如下所示 5 40 10 37 15 34 20 39 等等我想要对速度进行傅立叶变换以获得频率我将如何使用快速傅里叶变换 fft 来做到这一点如果我的矢量名称是sampleData
Python - 处理混合编码文件

我有一个文件大部分是 UTF 8 但也有一些 Windows 1252 字符我创建了一个表来将 Windows 1252 cp1252 字符映射到其 Unicode 对应字符并希望使用它来修复错误编码的字符例如 cp1252 to
通过使其成为包装器来优化斐波那契数列递归函数

斐波那契数列的递归定义在效率方面存在问题它的定义如下 private fib int n if n lt 2 return n else return fib n 1 fib n 2 假设我们调用 fib 5 这使得 1 次调用 fib
如何在 Amazon OpsWorks 上设置 Chef 的日志输出级别？

我的问题类似于如何在控制台中显示 Opscode Chef bash 命令的输出 https stackoverflow com questions 17813592 how can i display the output of a o
在android中动态地将字体添加到textview中

我是安卓新手我有一个文本视图想为其分配自定义字体我的字体文件 ttf 位于服务器上我必须在代码中使用该文件来动态设置字体即时我不想将文件放在资产文件夹或任何原始文件夹中如何实施从服务器下载字体保存到SD卡 Use Type
修复翻译错误

liferay 门户中有很多地方翻译成我的语言 sk SK 是错误的是否可以用 hook 重写那些不好的翻译任何其他想法都欢迎多谢是的你可以做到 in your liferay hook xml文件添加要覆盖的语言文件的条目就像
嵌套在结构中的 LINQ 和分组依据数据

我的结构大致如下 List
android.view.WindowManager$BadTokenException：无法在 Toast 处添加窗口

当我在我的 Android 应用程序上频繁执行某些操作我的假设是由于 Toast 消息时出现以下错误我没有得到此问题的确切位置我可以从某人那里获得帮助来解决相同问题吗 beginning of crash 10 04 16 13
C# 通用约束问题

我收到以下错误类型 Test ICacheProvider 不能用作类型参数泛型类型或方法中的 TStorageProvider StorageManager Test IFileInfo 没有隐式引用转换自 StorageManag
将 blob 转换为图像流并将其分配给 jLabel

我只是想将数据库中的 blob 字符串转换为字节数组然后在转换后将其转换为缓冲图像然后将其分配给标签这是我的代码 package ims project import java sql import javax swing impor
jQuery 仅获取此元素的父同级元素

我不知道如何写这个请参阅我的标记结构该结构在页面上重复多次 div class module div class archive info span class archive meta open span div div class
Google 地图 fitBounds 无法正常工作

我对 googlemaps fitBounds 函数有疑问 for var i 0 i lt countries length i var country countries i var latlng new google maps Lat
JavaScript 中去除字符串中的所有非数字字符

考虑一个非 DOM 场景您希望使用 JavaScript ECMAScript 从字符串中删除所有非数字字符范围内的任何字符0 9应该保留 var myString abc123 8
如何高效解析固定宽度文件？

我正在尝试找到一种有效的方法来解析包含固定宽度行的文件例如前 20 个字符代表一列从 21 30 开始代表另一列依此类推假设该行包含 100 个字符将一行解析为多个组成部分的有效方法是什么我可以对每行使用字符串切片但如果行很

如何高效解析固定宽度文件？

Update

如何高效解析固定宽度文件？ 的相关文章

随机推荐

热门标签

如何高效解析固定宽度文件？的相关文章