Pandas：将 WinZipped csv 文件转换为数据框

2024-02-25

我有几个 WinZipped csv 文件，想将它们作为 Pandas 数据框读取。问题是两个解压缩选项（“gzip”或“bz2”）似乎都不起作用。该文件如下所示：

00000000011!00023011!89011!200812
00000000012!00023011!89011!200812
00000000013!00023011!89011!200812

所以看来我必须使用 Python 的 zipfile 模块解压缩文件，读入行并根据读入的内容创建一个数据帧。我考虑这样做的方式是创建一个字典列表，如下所示：

[
    {"header1": 00000000011, "header2": 00023011, "header3": 89011, "header4": 200812}, 
    {"header1": 00000000012, "header2": 00023011, "header3": 89011, "header4": 200812},
    ...
]

然后将其转换为数据框，如下所示http://pandas.pydata.org/pandas-docs/stable/dsintro.html#from-a-list-of-dicts http://pandas.pydata.org/pandas-docs/stable/dsintro.html#from-a-list-of-dicts.

然而，这似乎涉及大量的手动操作线 - 有没有更好的方法来做到这一点？

您只需解压缩该文件：

with zipfile.ZipFile('/path/to/file', 'r') as z:
    f = z.open('member.csv')
    table = pd.io.parsers.read_table(f, ...)

The filepath_or_buffer参数为read_table接受任何类似文件的参数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas：将 WinZipped csv 文件转换为数据框的相关文章

如何同时运行多个功能[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有以下代码 my func1 my func2 my func3 my func4 my func5 是否可以同时计算函数的数据而
从内存地址创建python对象（使用gi.repository）

有时我需要调用仅存在于 C 中的 gtk gobject 函数但返回一个具有 python 包装器的对象之前我使用过基于 ctypes 的解决方案效果很好现在我从 PyGtk import gtk 切换到 GObject intro
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
使用 Boto3 超时的 AWS Lambda 函数

我已经解决了我自己的问题但无论如何我都会发布它希望能节省其他人几个小时我在 AWS 上有一个无服务器项目使用 Python 将记录插入到 kinesis 队列中但是当我使用 boto3 client kinesis 或 put
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
使用 Pandas 从 csv 文件读取标题信息

我有一个包含 14 行标题的数据文件在标头中有经纬度坐标和时间的元数据我目前正在使用 pandas read csv filename delimiter header 14 读取文件但这只是获取数据我似乎无法获取元数据有人知道
使用 Tkinter 打开网页

因此我的应用程序需要能够打开其中的单个网页并且它必须来自互联网并且未保存特别是我想使用 Tkinter GUI 工具包因为它是我最熟悉的工具包最重要的是我希望能够在窗口中生成事件例如单击鼠标但无需实际使用鼠标有什么好的方法
如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

我有多个 pandas 数据框为了简单起见假设我有三个 gt gt df1 col1 col2 id1 A B id2 C D id3 B A id4 E F gt gt df2 col1 col2 id1 B A id2 D C id
使用 scikit 时 scipy.sparse 矩阵的缩放问题

在使用 scikit learn 解决机器学习问题时我需要在使用 SVM 进行训练之前对 scipy sparse 矩阵进行缩放但在文档 http scikit learn org stable modules preprocessin
在 Python 中从 Excel 复制 YEARFRAC() 函数

因此我使用 python 来自动执行一些必须在 Excel 中执行的重复任务我需要做的计算之一需要使用yearfrac 这在Python中被复制了吗 I found this https lists oasis open org arc
Pandas 字典键到列[重复]

这个问题在这里已经有答案了我有一个像这样的数据框 index column1 e1 u c680 5 u c681 1 u c682 2 u c57 e2 u c680 6 u c681 2 u c682 1 u c57 e3 u c68
使用 python 脚本更改 shell 中的工作目录

我想实现一个用户态命令它将采用其参数之一路径并将目录更改为该目录程序完成后我希望 shell 位于该目录中所以我想实施cd命令但需要外部程序可以在 python 脚本中完成还是我必须编写 bash 包装器 Example t
Python脚本从字母和两个字母组合生成单词

我正在编写一个简短的脚本它允许我使用我设置的参数生成所有可能的字母组合例如 b a 参数单词 5 个字母第三第五个字母 b a 第一个字母 ph sd nn mm 或 gh 第二第四个字母任意元音 aeiouy 和 rc 换句
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
如何检测一个二维数组是否在另一个二维数组内？

因此在堆栈溢出成员的帮助下我得到了以下代码 data needle s which is a png image base64 code goes here decoded data decode base64 f cStringIO
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
为什么从 openAI 导入 Universe 模块时出现“无效语法”错误

当我导入时universe来自 openAI 的模块我收到以下错误 Traceback most recent call last File
SQLAlchemy 与 count、group_by 和 order_by 使用 ORM

我有几个函数需要使用 count group by 和 order by 进行一对多连接我使用 sqlalchemy select 函数生成一个查询该查询将返回一组 id 然后我对其进行迭代以对各个记录执行 ORM 选择我想知道是否有
Tkinter 将鼠标点击绑定到框架

我一定错过了一些明显的东西我的 Tkinter 程序中有两个框架每个框架在网格布局中都有一堆标签我想将鼠标点击绑定到其中一个而不是另一个我目前使用 root bind

随机推荐

如何从值获取 C# Enum 描述？ [复制]

这个问题在这里已经有答案了我有一个带有如下描述属性的枚举 public enum MyEnum Name1 1 Description Here is another HereIsAnother 2 Description Last on
*ngFor 循环定义次数而不是在数组上重复的方法？ [复制]

这个问题在这里已经有答案了有没有办法让 ngFor 循环指定的次数而不必总是遍历数组例如我想要一个列表重复5次循环就像C 中的那样 for int i 0 i lt 4 i 期望的结果 ul li span 1 span li l
什么是“握手期间收到 close_notify”错误

我正在编写一段代码来使用 Java HttpsURLConnection 连接到 http 服务器服务器位于代理后面请在下面找到我正在使用的代码 private void setSSLProperties if isSSLRequire
将焦点设置到 PanoramaItem

有没有办法将焦点设置到 Silverlight for Windows Phone 7 中的 PanoramaItem 我试过了 piResults Focus 其中 piResults 是 PanoramaItem 的名称我还尝试将焦点
我可以将 JavaScript 函数存储在数组中吗？

如何将函数存储在具有命名属性的数组中以便我可以像这样调用 FunctionArray DoThis or even FunctionArray integer Note 我不想使用eval 需要记住的重要一点是函数是 JavaScrip
在默认的 Haskell Stack 项目中构建多个可执行文件

我用的是默认的stack new设置一个将服务器和客户端作为单独的可执行文件的项目我改变了package yaml以看似正确的方式提交文件截至 2020 年 4 月 21 日没有用户指南 https github com sol hp
如何通过xml文档在swagger中设置示例？

例如这里是我的注册模型和设置注释但它仍然没有以大张旗鼓的方式显示它的显示是这样的用户名字符串代替用户名 Jasmin public class RegisterViewModel
Gmail API 在 Xcode 7 上的快速入门说明不起作用

跟进Xcode 7 Swift 2 中的 Gmail API iOS https stackoverflow com questions 32799371 gmail api ios in xcode 7 swift 2 34774797
绘制国债收益率曲线，如何使用 matplotlib 叠加两条收益率曲线

我正在尝试创建一个图表国债收益率曲线 http www treasury gov resource center data chart center interest rates Pages Historic Yield Data Visu
SQL 添加一周的总和行并在最后添加总计

我有一个表其中包含 numberofCalls Date CallsNotRecieved 等列我需要一种方法来获取一个月的记录但在每个星期六结束时我必须显示一周的总计毕竟我必须显示本月的总计在 SQL Server 中可以吗有
ruby通过重复字符或空格分割字符串

我如何分割这个字符串 6885558 8866887777 gt 6 88 555 8 88 66 88 7777 我尝试过这个但从来没有成功过 ruby 1 8 7 p334 020 gt 111133 split d 1 gt 1 3
棘轮存储用户连接并在服务器实例之外发送消息

我一直在跟随教程here http socketo me 并使棘轮服务器正常工作我的聊天课程目前或多或少与教程相同因此没有必要在这里展示这一点因为我的问题更多是关于实施策略在我附加的问题中用户正在寻找如何获取特定用户的连接对象在
j2me数据库查询包括条件

我正在使用 J2ME 创建一个应用程序为了连接我正在使用的数据库唱片店 http docs oracle com javame config cldc ref impl midp2 0 jsr118 javax microedition
使用方程为矩阵元素赋值时出错

我使用 ejml 方程在 Java 中有几行简单的代码如下所示 eq process T zeros 2 3 eq process T 1 1 10 eq process T 1 0 1 eq process T 1 2 8 最后一行不起
将代码作为参数传递给方法

我有一个方法列表它们几乎做同样的事情除了一些差异 void DoWork string parameter1 string parameter2 Common code Custom code Common code 我想通过从另一个方
如何指定系统默认的衬线和无衬线字体系列？

当我十多年前学习 CSS 时使用默认字体无论这意味着什么的标准也是唯一方法是 font family serif font family sans serif 然后去年苹果添加了一个新系统字体的自定义语法 https sta
PIP 随机失败“无法找到满足要求的版本”，且具有相同的requirements.txt

作为 CI 测试的一部分我们安装了一个 virtualenv 其中包含来自常量 requests txt 文件的一些 pip 包由于requirements txt文件没有改变这个安装过程有时会随机失败没有明显的原因而且每次都是不
在 C++ 中将整数存储到 char* 中

我正在编写一些返回整数的代码然后需要使用 ncurses 库中的 printw 输出该整数但是由于 printw 只接受 char 我不知道如何输出它本质上有没有办法将整数存储到 char 数组中或者使用 printw 输出整数
如何将一个分支的内容复制到另一个分支？

我有 develop 和 InitialPomChanges 分支我想将开发分支的所有内容复制到InitialPomChanges分支假设您想用开发中的内容覆盖 InitialPomChanges 的所有内容即您希望 InitialP
Pandas：将 WinZipped csv 文件转换为数据框

我有几个 WinZipped csv 文件想将它们作为 Pandas 数据框读取问题是两个解压缩选项 gzip 或 bz2 似乎都不起作用该文件如下所示 00000000011 00023011 89011 200812 000000

Pandas：将 WinZipped csv 文件转换为数据框

Pandas：将 WinZipped csv 文件转换为数据框 的相关文章

随机推荐

热门标签

Pandas：将 WinZipped csv 文件转换为数据框的相关文章