读取Python/Pandas中缺少值的空格分隔文件

2024-05-24

我正在尝试使用 panda 中的 read_csv 在 Python 中读取空格分隔的文件。 它通过指定分隔符=“”来工作。当列中存在某些缺失值时,就会出现问题,因为它通过将缺失值视为分隔符来忽略缺失值。

有办法解决这个问题吗?

1600    1141.0000  020006        600    1141.0000    69.0000   OAUC     0.0000   
   1    1070.5000  020032          1    1070.5000   400.0000            0.0000

可以看到value列中有一个缺失值OAUC。 柱子之间的间距不均匀,这使得它变得更加困难。此外,列是固定的,因此可以发现某些值丢失,但还无法找出丢失的值。


我同意贾斯汀的观点,首先清理干净是确保一切顺利的最佳方法。如果您可以浏览结果来验证质量控制,那么在这种情况下,此技巧可能会完成工作。

pd.read_csv(header=None, sep='\s{1, 7}')

我再说一遍,这不是一个好主意。如果您只想加载一个较小的数据集,它就可以完成这项工作。但如果您无法验证它是否有效,最好使用 read_fwf 并仔细指定 colspecs,或者遵循 Justin 的建议并清理文件。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

读取Python/Pandas中缺少值的空格分隔文件 的相关文章

  • 导入错误:没有名为 _ssl 的模块

    带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
  • 更改自动插入 tkinter 小部件的文本颜色

    我有一个文本框小部件 其中插入了三条消息 一条是开始消息 一条是结束消息 一条是在 单位 被摧毁时发出警报的消息 我希望开始和结束消息是黑色的 但被毁坏的消息 参见我在代码中评论的位置 插入小部件时颜色为红色 我不太确定如何去做这件事 我看
  • 如何使用包含代码的“asyncio.sleep()”进行单元测试?

    我在编写 asyncio sleep 包含的单元测试时遇到问题 我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间 当我尝试使用普通可调用对象运行测试时 这个库非常有用 但我找不到运行包含 asyncio sleep 的测
  • keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

    我目前正在使用 keras 开发 vgg16 模型 我用我的一些图层微调 vgg 模型 拟合我的模型 训练 后 我保存我的模型model save name h5 可以毫无问题地保存 但是 当我尝试使用以下命令重新加载模型时load mod
  • 使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

    问题是当我尝试启动应用程序 app py 时 我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效 整个文件app py coding utf 8 from flask
  • 表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

    这个问题在这里已经有答案了 我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
  • ExpectedFailure 被计为错误而不是通过

    我在用着expectedFailure因为有一个我想记录的错误 我现在无法修复 但想将来再回来解决 我的理解expectedFailure是它会将测试计为通过 但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是 当我
  • 循环中断打破tqdm

    下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
  • 通过数据框与函数进行交互

    如果我有这样的日期框架 氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
  • 如何将 PIL 图像转换为 NumPy 数组?

    如何转换 PILImage来回转换为 NumPy 数组 这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许 我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
  • 在Python中重置生成器对象

    我有一个由多个yield 返回的生成器对象 准备调用该生成器是相当耗时的操作 这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
  • 如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

    给定一个在多个服务器上同时执行的 Django 应用程序 该应用程序如何记录到单个共享日志文件 在网络共享中 而不保持该文件以独占模式永久打开 当您想要利用日志流时 这种情况适用于 Windows Azure 网站上托管的 Django 应
  • 设置 torch.gather(...) 调用的结果

    我有一个形状为 n x m 的 2D pytorch 张量 我想使用索引列表来索引第二个维度 可以使用 torch gather 完成 然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
  • 在 Pandas DataFrame Python 中添加新列[重复]

    这个问题在这里已经有答案了 例如 我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在 如果我想再添加一个名为 Col3 的列 并且该值基于 Col2 式中 如果Col2 gt 1 则Col3为0 否则为1 所以
  • 使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

    我有一个 Pandas 数据框 它有两列 一列 进程参数 列 包含字符串 另一列 值 列 包含相应的浮点值 我需要过滤出部分匹配列 过程参数 中的一组键的子数据帧 并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
  • 在 Python 类中动态定义实例字段

    我是 Python 新手 主要从事 Java 编程 我目前正在思考Python中的类是如何实例化的 我明白那个 init 就像Java中的构造函数 然而 有时 python 类没有 init 方法 在这种情况下我假设有一个默认构造函数 就像
  • 协方差矩阵的对角元素不是 1 pandas/numpy

    我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
  • Python:元类属性有时会覆盖类属性?

    下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
  • 改变字典的哈希函数

    按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
  • PyAudio ErrNo 输入溢出 -9981

    我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

  • 如何制作带边框的半圆角(顶角圆角)文本视图?

    How to make a half rounded Top corner rounded textview or tableview with the borderwidth and borderColor 这并不完美 但你可以这样做 i
  • 创建 Visual Studio 风格的选项/设置对话框

    我目前正在改进 winforms 应用程序的选项对话框 目前我正在使用选项卡控件 我想为类似于 Visual Studio 的设置创建一个表单 对话框 这是怎么做到的 我可以在左侧看到类似树视图的控件 但是他们使用什么控件来显示每个选项页面
  • 将非活动 UIView 捕获为 UIImage

    下面的代码运行良好 但只抓取屏幕上可见的 UIView 如何获取当前未显示的 UIView Thanks Take a screenshot of the view UIGraphicsBeginImageContext View 1 fr
  • 将 Stripe.js 作为 ES 模块导入到 Vue 中

    我正在尝试按照 stripe elements 文档中的说明并将 ES 模块安装到我的 Vue 支付组件中 https stripe com docs stripe js html js 请注意 目前 Stripe 网站 ES 模块安装选项
  • Android 6 权限 - 在“设置”中切换权限并返回应用程序时崩溃

    该应用程序与 Marshmallow 一起运行 打开应用程序后 我切换到 设置 gt 应用程序 gt 我的应用程序 gt 权限 来切换权限 当切换回应用程序时 它崩溃了 从 logcat 中 我发现了这些行 01 18 14 45 35 4
  • antlr4-tool 在 Win10 中失败,并显示:错误:命令失败:哪个 java

    在Win10中运行 为了尝试在Node JS中创建解析器 我安装了ANTLR4工具 npm install save dev antlr4 tool Ran c prj parser node modules bin antlr4 tool
  • 如何检查金字塔(pylons 2)中哪些权限授权失败?

    我为禁止视图添加了一个视图 from pyramid exceptions import Forbidden config add view forbidden view context Forbidden 它重定向到登录屏幕 但现在我添加
  • 利用 Bootstrap 的 typeahead 作为搜索功能

    我的预输入工作得很好 但我对 Javascript 缺乏经验 无法理解如何将输入的结果转换为链接
  • SQL CE本机异常0xc0000005

    当我运行从 ms sql ce 读取一些数据的 net 3 5 cf 应用程序时 有时我会收到带有以下信息的本机异常 ExceptionCode 0xc0000005 ExceptionAddress 0x44746e65 variable
  • SSRS 自动将数据集中的所有列生成到 tablix (Report Builder 3.0)

    有没有一种简单的方法可以自动将数据集中的每个字段 列生成到 SSRS 中的平面表 tablix 中 而不将其设为矩阵 看起来应该很容易 而不是必须将每一列都拖过去 不确定我是否遗漏了一些明显的东西 我的数据集返回大约 180 列 将它们全部
  • 在 C++ GPGPU 库中嵌入 cg 着色器

    我正在编写一个 GPGPU 流体模拟 它使用 C OpenGL Cg 运行 目前 该库要求用户指定着色器的路径 然后从中读取它 我发现必须在我自己的项目和测试中指定这一点非常烦人 因此我希望将着色器内容与其余内容链接起来 理想情况下 我的
  • AudioRecord - 如何将数据放入缓冲区?

    我在使用 AudioRecord 类时遇到一些问题 我想将记录的数据存储在缓冲区中 但我不确定实现这一目标的正确方法是什么 我查阅了大量示例 但大多数都很复杂并且代表了许多不同的方法 我正在寻找简单的一个或简单的解释 这是我的项目的音频设置
  • 获取 SQL 表上的某些百分位值

    假设我有一个表 其中存储用户 他们拥有的红球数量 球总数 蓝色 黄色 其他颜色等 以及红球与球总数的比率 架构如下所示 user id ratio red balls total balls 1 2 2 10 2 3 6 20 我想根据排序
  • 如何编写一个 SQL 查询来计算每月和每年的行数?

    有谁知道如何查询 vbulletin 数据库来生成每月 每年注册数量的报告 以获得如下结果 MM YYYY Count 01 2001 10 02 2001 12 感谢下面的这些答案 我的最终版本有效如下 SELECT COUNT as R
  • Flex 和 crossdomain.xml

    我想知道将 crossdomain xml 添加到应用程序服务器的根目录是否存在任何安全问题 它可以添加到服务器的任何其他部分吗 您是否知道任何不需要服务器放置此文件的解决方法 谢谢 达米安 通过添加 crossdomain xml 主要的
  • python名称错误名称未定义

    在 python3 中运行此代码时出现错误名称未定义 def main D create empty dictionary for x in open wvtc data txt key name email record x strip
  • +entityForName: nil 不是搜索实体名称“Account”的合法 NSManagedObjectContext 参数

    我尝试了很多选择 但找不到解决这个问题的方法 我创建了一个核心数据文件并将实体命名为帐户 创建了一个名为用户名的字符串属性 然后将实体的类编辑为NSManagedObject 不确定这是否正确 现在 以下代码位于我的 LoginViewCo
  • NGXS 状态大小和性能

    Angular 中类似于 redux 的模式给我留下了深刻的印象 并且我迷上了 NGXS 我将其与 NGRX 和 Akita 进行了比较 但选择了 NGXS 我知道 NGXS 存储应用程序中的所有先前状态 因此如果我有一个非常复杂的 UI
  • Java中的整数缓存[重复]

    这个问题在这里已经有答案了 可能的重复 奇怪的Java拳击 https stackoverflow com questions 3130311 weird java boxing 最近我看到一个演示 其中有以下 Java 代码示例 Inte
  • 读取Python/Pandas中缺少值的空格分隔文件

    我正在尝试使用 panda 中的 read csv 在 Python 中读取空格分隔的文件 它通过指定分隔符 来工作 当列中存在某些缺失值时 就会出现问题 因为它通过将缺失值视为分隔符来忽略缺失值 有办法解决这个问题吗 1600 1141