我正在尝试使用 panda 中的 read_csv 在 Python 中读取空格分隔的文件。
它通过指定分隔符=“”来工作。当列中存在某些缺失值时,就会出现问题,因为它通过将缺失值视为分隔符来忽略缺失值。
有办法解决这个问题吗?
1600 1141.0000 020006 600 1141.0000 69.0000 OAUC 0.0000
1 1070.5000 020032 1 1070.5000 400.0000 0.0000
可以看到value列中有一个缺失值OAUC。
柱子之间的间距不均匀,这使得它变得更加困难。此外,列是固定的,因此可以发现某些值丢失,但还无法找出丢失的值。
我同意贾斯汀的观点,首先清理干净是确保一切顺利的最佳方法。如果您可以浏览结果来验证质量控制,那么在这种情况下,此技巧可能会完成工作。
pd.read_csv(header=None, sep='\s{1, 7}')
我再说一遍,这不是一个好主意。如果您只想加载一个较小的数据集,它就可以完成这项工作。但如果您无法验证它是否有效,最好使用 read_fwf 并仔细指定 colspecs,或者遵循 Justin 的建议并清理文件。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)