将带有多个分隔符的文本导入 pandas

2023-11-27

我有一些数据看起来像这样：

c stuff
c more header
c begin data         
 1 1:.5
 1 2:6.5
 1 3:5.3

我想将其导入到 3 列数据框中，其中列例如

a , b, c
1,  1, 0.5
etc

我一直在尝试将数据读入“：”上拆分的两列，然后将第一列拆分为“”。不过我觉得这很烦人。有没有更好的方法直接在导入时进行排序？

现在：

data1 = pd.read_csv(file_loc, skiprows = 3, delimiter = ':', names = ['AB', 'C'])
data2 = pd.DataFrame(data1.AB.str.split(' ',1).tolist(), names = ['A','B'])

然而，由于我的数据有领先空间，这使得情况变得更加复杂......

我觉得这应该是一个简单的任务，但目前我正在考虑逐行阅读它并在导入之前使用一些查找替换来清理数据。

一种方法可能是使用 python 引擎允许的正则表达式分隔符。例如：

>>> !cat castle.dat
c stuff
c more header
c begin data         
 1 1:.5
 1 2:6.5
 1 3:5.3
>>> df = pd.read_csv('castle.dat', skiprows=3, names=['a', 'b', 'c'], 
                     sep=' |:', engine='python')
>>> df
   a  b    c
0  1  1  0.5
1  1  2  6.5
2  1  3  5.3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

import

pandas

csv

将带有多个分隔符的文本导入 pandas 的相关文章

Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
AWK：递归下降 CSV 解析器

响应一个BASH 中的递归下降 CSV 解析器 https codereview stackexchange com questions 11727 need some advice or help with translation and
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

在 VBA 中调用子程序

这是我的简化脚本 Sub SomeOtherSub Stattyp As String Daty and the other variables are defined here CatSubProduktAreakum Stattyp D
CodeContracts：布尔条件计算结果为常量值，为什么？

我收到此警告但无法找出问题所在 CodeContracts 警告布尔条件 d1 Count d2 Count 始终计算为常量值如果它或其否定出现在源代码中您可能有一些死代码或多余的代码查看代码如下 public static
检查 ArrayList 中是否存在某个值

如何检查某个值是否存在于ArrayList List
按字典值将 NSDictionary 键排序到 NSArray 中

我见过很多按键对字典进行排序然后获取值的示例但是我将如何按值排序 e g blue 12 red 50 white 44 我希望这些按数字降序排列为 red 50 white 44 blue 12 我尝试获取一个排序的 nsarray
Xcode9 警告项-90704，错误 ITMS-90022

ERROR ITMS 90022 Missing required icon file The bundle does not contain an app icon for iPhone iPod Touch of exactly 120
iOS 6 shouldAutorotate：没有被调用

我一直在互联网上寻找解决方案但一无所获我正在尝试使我的 iOS 5 应用程序兼容 iOS 6 我无法让方向的东西正常工作我无法检测到轮换何时即将发生这是我正在尝试的代码 BOOL shouldAutorotate return NO
按其他数据帧列中不存在的值过滤数据帧[重复]

这个问题在这里已经有答案了用这个稍微敲一下我的头我怀疑答案很简单给定两个数据帧我想过滤第一个数据帧其中一列中的值不存在于另一个数据帧的列中我想在不求助于成熟的 Spark SQL 的情况下执行此操作因此只需使用 DataFra
在将预测四舍五入到类别后，如何在 keras 中计算回归模型的准确性？

如何在 keras 中创建和显示回归问题的准确度指标例如在将预测四舍五入到最接近的整数类之后虽然对于回归问题准确度本身并没有按照惯例有效定义但要确定ordinal数据的类标签适合将问题视为回归但是计算准确度指标也会很方便无
GIT：推送到远程服务器时“git-upload-pack：找不到命令”

所以我正在使用 GIT 尝试将代码推送到我的远程服务器在共享的 UNIX 主机上我不允许拥有自己的环境变量 SSH 帐户被阻止并且没有 sudo 访问权限成功在我的 home 中安装 git 尝试将代码推送到服务器返回 bash g
ncurses 到外壳并返回弄乱密钥

我有这个 ncurses 应用程序正在执行标准配方暂时退出 ncurses 运行外部编辑器 shell 无论什么然后在完成后返回 ncurses 这几乎可以工作除了 ncurses 的前几个按键之后得到的显然是假的 ncurses
Ruby 中的有限矩阵

怎么来的Matrix类没有方法来编辑其向量和组件吗似乎矩阵内的所有内容都可以读取但不能写入我错了吗有没有第三方优雅的Matrix 类似的类允许我删除行并有意编辑它们如果没有这样的课程请通知我我将停止搜索班级设计师Matrix一
在将用户输入的 PHP 代码传递给 eval() 之前验证它

在将字符串传递给 eval 之前我想确保语法正确并允许两个函数 a 和 b 四个运算符括号数字 1 2 1 1 我该如何做到这一点也许它与 PHP Tokenizer 有关我实际上正在尝试制作一个简单的公式解释器因此 a 和
瓦提尔。滚动到页面的某一点

我正在尝试在网站上自动进行在线调查但每次都会收到此错误 Selenium WebDriver Error UnknownError unknown error Element is not clickable at point 561 8
如何使用maven部署带有依赖jar的Applet并对其进行签名？

有人可以告诉我 pom 文件应该是什么样子来创建一个带有小程序的 jar 文件该文件依赖于其他一些 jar 是否可以将一个 jar 作为小程序以及如何对其进行签名如果你想要你的课程and出现在的依赖项一个 jar 文件你应该使用组装
Chrome 开发工具设置中没有“覆盖”页面

如何在我的设置中启用覆盖面板我打开 Chrome 浏览器它就消失了我浪费了大部分时间试图让它工作但谷歌上有 0 个答案谢谢 Chrome 让我的设置消失酷仿真面板是新的覆盖面板
Gmail 上下文小工具

我想问题一是现在是否真的可以为 gmail 创建一个上下文小工具在过去的两天里我仔细阅读了非常过时的文档以及我能找到的关于该主题的每个论坛帖子我已经尝试了所有方法但什么也没看到甚至没有任何可能为我指明正确方向的错误消息提示
绑定变量和替换变量（我使用 && 输入）之间有什么区别？

这两个变量声明有什么区别 1 num number num 2 variable num1 number 因为在这两种情况下我都可以参考num通过使用 num or num在其他文件中也对于绑定变量 num1 此外我还有一个困惑以下任
C# 数组从一行中拆分获取最后一项

我知道这可以获取数组的第一项 string aString hello all this is a test string firstItemOfSplit aString Split new char 0 firstItemOfSplit
如何使用 JPA 设置 Eclipselink？

The Eclipselink 文档说我需要在 pom xml 中包含以下条目才能使用 Maven 获取它
将带有多个分隔符的文本导入 pandas

我有一些数据看起来像这样 c stuff c more header c begin data 1 1 5 1 2 6 5 1 3 5 3 我想将其导入到 3 列数据框中其中列例如 a b c 1 1 0 5 etc 我一直在尝试将数据读

将带有多个分隔符的文本导入 pandas

将带有多个分隔符的文本导入 pandas 的相关文章

随机推荐

热门标签