如何在 pandas 中使用 read_fwf 跳过空行？

2024-05-21

I use pandas.read_fwf() http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_fwf.htmlPython pandas 0.19.2 中的函数读取文件fwf.txt其内容如下：

# Column1 Column2
      123     abc

      456     def

#
#

我的代码如下：

import pandas as pd
file_path = "fwf.txt"
widths = [len("# Column1"), len(" Column2")]
names = ["Column1", "Column2"]
data = pd.read_fwf(filepath_or_buffer=file_path, widths=widths, 
                   names=names, skip_blank_lines=True, comment="#")

打印的数据框是这样的：

    Column1 Column2
0   123.0   abc
1   NaN     NaN
2   456.0   def
3   NaN     NaN

它看起来像skip_blank_lines=True参数被忽略，因为数据帧包含 NaN。

有效的组合应该是什么pandas.read_fwf()确保跳过空行的参数？

import io
import pandas as pd
file_path = "fwf.txt"
widths = [len("# Column1 "), len("Column2")]
names = ["Column1", "Column2"]

class FileLike(io.TextIOBase):
    def __init__(self, iterable):
        self.iterable = iterable
    def readline(self):
        return next(self.iterable)

with open(file_path, 'r') as f:
    lines = (line for line in f if line.strip())
    data = pd.read_fwf(FileLike(lines), widths=widths, names=names, 
                       comment='#')
    print(data)

prints

   Column1 Column2
0      123     abc
1      456     def

with open(file_path, 'r') as f:
    lines = (line for line in f if line.strip())

定义一个生成器表达式（即一个可迭代的），它产生文件中删除了空行的行。

The pd.read_fwf函数可以接受TextIOBase对象。你可以子类化TextIOBase以便其readline方法从可迭代对象返回行：

class FileLike(io.TextIOBase):
    def __init__(self, iterable):
        self.iterable = iterable
    def readline(self):
        return next(self.iterable)

将这两者放在一起为您提供了一种操作/修改文件行的方法在将它们传递给之前pd.read_fwf.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

如何在 pandas 中使用 read_fwf 跳过空行？的相关文章

如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

轴标注问题

通过运行我编写的以下 matlab 函数可以互换图中的 x 轴和 y 轴谁能告诉我问题出在哪里或者帮我解决它吗预先感谢您的任何帮助 function axislabeling n x 1 1 n y 1 1 n z zeros n n
Python pip install pyarrow错误，无法执行'cmake'

我尝试在 EMR 集群的主实例上安装 pyarrow 但总是收到此错误 hadoop ip XXX XXX XXX XXX sudo usr bin pip 3 4 install pyarrow Collecting pyarrow Do
用于安装 R 软件包的备用编译器：clang：错误：不支持的选项“-fopenmp”

我正在尝试在 OS X 10 11 6 上使用 R 版本 3 4 0 安装 rJava 包 install packages rJava type source 我收到以下错误 clang o libjri jnilib Rengine o
Spring OAuth2 - JWT 令牌在服务器上工作但不在本地主机上工作？

我看到了myapp能够在服务器上正确处理 OAuth2 JWT 令牌但在本地主机上给出令牌转换错误我的流程如下在服务器上 the myapp就在我们的后面custom api gateway 获取访问令牌通过邮递员我点击了 api
Xamarin - SignalR 挂在连接上

我正在尝试将我的 Xamarin 应用程序连接到托管在 Azure 上的 SignalR 后端我遇到的问题是每次我在 HubConnection 上调用 StartAsync 时它都会挂起客户端并且请求永远不会完成我尝试通过应用程序进
Express URIError：无法解码参数

当请求的参数包含时我将 next js 与自定义 Express 服务器一起使用它会导致此错误 URIError Failed to decode param faker at decodeURIComponent
如何在 Jenkins 构建之前自动合并 Git 分支？

如何在 Jenkins 构建之前自动合并 Git 分支我有 2 个版本一个用于分支master和一个用于生产我想做 Git 合并origin master当我进行生产构建时 Jenkins 上最新的 Git 插件支持这一点刚刚设置C
从Android客户端登录appengine

我正在尝试登录应用程序引擎并访问应用程序引擎中的用户服务API 基本上我希望能够看到谁登录了我的 servlet 我正在使用从 android 获取 authtoken 然后从应用程序引擎获取 ASID 或 SACID cookie 的身份
如何在 UITableViewCell 上使用自定义初始值设定项？

我有一个自定义 UITableViewCell 我想在我的表视图中使用它这是我的单元格代码 class ReflectionCell UITableViewCell IBOutlet weak var header UILabel IBO
在 Go to 函数中通过引用和值传递

我对 Go 中通过引用和值传递有点困惑我已经看到过对类型前面的的解释在类型名称前面表示声明的变量将存储该类型的另一个变量的地址而不是该类型的值类型这对我来说毫无意义在Java中如果我将数据库实例传递给函数我会这样做 da
时间：2019-03-17 标签：c++fstream并发访问

如果从不同的进程线程同时访问文件会发生什么据我所知没有锁定文件的标准方法只有操作系统特定的功能就我而言文件将被经常读取而很少写入现在如果A打开一个文件进行读取 ifstream 并开始读取块和B打开相同的文件进行写入 ofs
如何捕获从 Powershell 运行的控制台 exe 的二进制标准输出？

是否可以让 Powershell 将 exe 的标准输出读入 byte 而不是通常的文本处理行数组我能做的最好的事情是 cmd c foo exe gt foo tmp b io file readallbytes foo tmp del
如何滚动到div内的元素？

我有一个滚动的div我想在点击它时发生一个事件它会强制执行此操作div滚动以查看内部元素我写的JavasCript是这样的 document getElementById chr scrollIntoView true 但这会在滚动时滚
如何使用libxml解析来解析xml数据

这是一个我想使用libxml解析来解析的xml结构我如何获取 campaign 标签的属性值即ID对于图像标签即url and size 如果我使用这些值我可以提取 code 标签和 name 标签的值 static const
SDK尚未初始化，请务必先调用FacebookSdk.sdkInitialize()

我在实现 Facebook SDK 时遇到此错误并且我tried https stackoverflow com questions 15490399 error inflating class com facebook widget l
如何使用 Eloquent 对多列进行平均？

我希望获得相关模型上多个列的平均值如下所示 this gt reviews gt avg communication friendliness 其中沟通和友善度是一系列列名称然而聚合函数似乎只支持单个列名称所以我这样做 attrib
css 计数器在 Internet Explorer 中无法工作以获取隐藏内容 - 如何修复？

我们想要一些编号列表并发现了这个很酷的计数器您可以在 css 中使用它来让浏览器为您计算数字 ol instructions counter reset instructions section ol instructions gt l
Flux + React.js - 操作中的回调是好还是坏？

让我解释一下我最近遇到的问题我有 React js Flux 驱动的应用程序有一个列表显示文章数量注意应用程序中有多个不同的列表和文章详情查看在里面但每个列表只有一个 API 端点它返回文章数组为了显示我需要的详细信息fin
如何连续关闭 2 个模态视图控制器？

我有 2 个以模态方式呈现的视图控制器 A presents B which presents C 当我解雇C时我也想解雇B 但我不知道该怎么做解雇C self dismissModalViewControllerAnimated YE
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读

如何在 pandas 中使用 read_fwf 跳过空行？

如何在 pandas 中使用 read_fwf 跳过空行？ 的相关文章

随机推荐

热门标签

如何在 pandas 中使用 read_fwf 跳过空行？的相关文章