Pandas 通过正则表达式读取带有字符串分隔符的 CSV

2024-02-19

我正在尝试将格式奇怪的文本文件导入到 pandas DataFrame 中。下面是两个示例行：

LOADED LANE       1   MAT. TYPE=    2    LEFFECT=    1    SPAN=  200.    SPACE=   10.    BETA=   3.474 LOADEFFECT 5075.    LMAX= 3643.    COV=  .13
LOADED LANE       1   MAT. TYPE=    3    LEFFECT=    1    SPAN=  200.    SPACE=   10.    BETA=   3.515 LOADEFFECT10009.    LMAX= 9732.    COV=  .08

首先我尝试了以下方法：

df = pd.read_csv('beta.txt', header=None, delim_whitespace=True, usecols=[2,5,7,9,11,13,15,17,19])

这似乎工作正常，但是当它到达上面的示例行时就变得混乱了，其中后面没有空格LOADEFFECT字符串（您可能需要向右滚动一点才能在示例中看到它）。我得到的结果如下：

632   1   2   1  200  10  3.474  5075.  3643.  0.13
633   1   3   1  200  10  3.515  LMAX=   COV=   NaN

然后我决定使用正则表达式来定义分隔符。经过多次试验和错误运行（我不是正则表达式专家），我设法接近以下行：

df = pd.read_csv('beta.txt', header=None, sep='/s +|LOADED LANE|MAT. TYPE=|LEFFECT=|SPAN=|SPACE=|BETA=|LOADEFFECT|LMAX=|COV=', engine='python')

这几乎可以工作，但是会创建一个NaN由于某种原因，一开始就列了：

632 NaN  1  2  1  200  10  3.474   5075  3643  0.13
633 NaN  1  3  1  200  10  3.515  10009  9732  0.08

此时我想我可以删除第一列，然后就可以了。但是我想知道设置正则表达式以一次性正确解析此文本文件的正确方法是什么。有任何想法吗？除此之外，我确信有一种更智能的方法来解析这个文本文件。我很高兴听到您的建议。

Thanks!

import re
import pandas as pd
import csv
csvfile = open("parsing.txt") #open text file
reader = csv.reader(csvfile)
new_list=[]
for line in reader:
    for i in line:
        new_list.append(re.findall(r'(\d*\.\d+|\d+)', i))

table = pd.DataFrame(new_list)
table # output will be pandas DataFrame with values

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

csv

pandas

Pandas 通过正则表达式读取带有字符串分隔符的 CSV 的相关文章

如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
检查条件并通过 Zend 中的 Regex 识别 url 中的模式

我正在实现 Zend Regex 路由并且必须对 url 执行多次检查例如如果这是我的网址 http localhost application public index php module controller action 这是
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
使用 C# 中的 CsvHelper 将不同文化的 csv 解析为十进制

C 中 CsvHelper 解析小数的问题我创建了一个从 byte 而不是文件获取 csv 文件的类并且它工作正常 public static List
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

在 pymongo 中快速或批量更新

如何在 pymongo 中进行批量更新插入我想更新一堆条目但一次更新一个非常慢几乎相同问题的答案在这里 MongoDB 中的批量更新更新插入 https stackoverflow com questions 4444023 bul
与 CMake 交叉编译时的 Makefile 生成器规范

我有两件事无法弄清楚 1 使用时CMake GUI 我们可以指定makefile生成器我将使用 Debian Linux 交叉编译 Raspberry PI 我找不到相关的生成器我必须选择哪种发电机我有toolchain rpi cm
fscanf 读取最后一个整数两次[重复]

这个问题在这里已经有答案了我有以下简单的程序来读取文本文件 num txt 该文本文件每行包含数字 1 2 3 4 5 当我运行该程序时它打印 5 两次谁能告诉我为什么会发生这种情况以及如何解决它提前致谢 int main void
如何创建自动滚动列表

我正在尝试使用 CSS 动画构建自动滚动列表我现在得到了什么 players webkit transition opacity 0 5s ease out webkit animation autoScrolling 5s linear
Mac Spark-shell 初始化 SparkContext 时出错

我尝试在 Mac OS Yosemite 10 10 5 上使用启动 Spark 1 6 0 spark 1 6 0 bin hadoop2 4 bin spark shell 它有以下错误我也尝试安装不同版本的 Spark 但都有相同的
d3：在transition.tween() 中使用*name* 参数

根据文档transition tween https github com mbostock d3 wiki Transitions tween calling transition tween name factory 为指定的对象注册一
如何检查两个日期时间是否在彼此的特定范围内？

我有两个 datetime64 对象 a 和 b 我想确定它们是否在彼此的特定范围内然而范围并不对称如果a在b的 30到120分钟之间 a比b早半小时到晚2小时之间则两者在期望的范围内我的日期时间对象看起来像 m d Y H M
Swift 惰性和可选属性

和有什么区别Lazy or Optional斯威夫特的财产例如如果有人正在构建一个从侧面进入的导航栏我认为这一切都应该在一个内UIViewController 用户可能永远不会打开菜单但有时他们会 var menu Navigati
在 C++11 中实现递归代理模式

假设我们有一些Foo允许的对象 cout lt lt myFoo 3 myFoo 5 bar 这需要代理设计模式斯科特迈耶斯 Scott Meyers 详细介绍如下 https stackoverflow com questions 2
将 MongoDB 集合移动到另一个集合的更好方法

在我的网络抓取项目中我需要将前一天抓取的数据从mongo collection to mongo his collection 我正在使用此查询来移动数据 for record in collection find his collect
我可以在 .gitignore 文件中包含其他 .gitignore 文件吗？（就像类 C 语言中的 #include 一样）

我有一些文件例如vim gitignore SVN gitignore and CVS gitignore 散布在我的硬盘上我可以简单地将这些 gitignore 文件包含在 gitignore文件在新的 Git 项目中吗 Edit 我
空指针的取消引用

该错误消息到底意味着什么以及如何修复它空指针的取消引用这意味着 self 可以通过 initWithStyle reuseIdentifier 的返回值设为 nil 并且后续对默认值的访问将尝试在 nil 地址处读取因此取消引用这肯
如何避免包含类实现文件？

而不是做 include MyClass cpp 我想要做 include MyClass h 我在网上读到过not这样做被认为是不好的做法简而言之单独编译首先让我们举一些简单的例子 struct ClassDeclaration c
Flink时间特性和AutoWatermarkInterval

在 Apache Flink 中 setAutoWatermarkInterval interval 向下游操作员生成水印以便他们提前事件时间如果水印在指定的时间间隔内没有更改没有事件到达运行时将不会发出任何水印另一方面如果在下
如何将列表附加到 pandas 列、系列？

假设我有以下数据框 d col1 1 2 col2 3 4 df pd DataFrame data d 我想延长col1带数组xtra 然而这会出错 xtra 3 4 df col1 append xtra 我怎样才能追加xtra to
如何从 Swift 中的 valueChanged 事件获取触摸坐标

背景 I ve 以前学过的 https stackoverflow com a 34764356 3681880如何使用手势识别器或continueTrackingWithTouch获取当前触摸位置的持续更新然后使用它们执行如下操作然而
如何获取CodeAttribute中的属性值

我写了一个方法来按属性获取属性值 public string GetAttributeValueByNameAttributeAndProperty CodeClass cc string nameAttribute string name
如何在 Jenkins 的 url 中传递 credentialID

我正在使用这个命令 sh git push https userid passwd innersource com scm raghu demo git 但我想使用 credentialsId f0079d43 9522 4133 9601
在 Ruby 中冻结变量不起作用 [重复]

这个问题在这里已经有答案了我正在学习 Ruby 并且在使用时发现了有趣的行为Object freeze带变量的方法在我冻结一个变量之后或者Fixnum or Array 我还是可以修改的这很奇怪因为就我而言这不应该发生而且Ty
Pandas 通过正则表达式读取带有字符串分隔符的 CSV

我正在尝试将格式奇怪的文本文件导入到 pandas DataFrame 中下面是两个示例行 LOADED LANE 1 MAT TYPE 2 LEFFECT 1 SPAN 200 SPACE 10 BETA 3 474 LOADEFFEC

Pandas 通过正则表达式读取带有字符串分隔符的 CSV

Pandas 通过正则表达式读取带有字符串分隔符的 CSV 的相关文章

随机推荐

热门标签