Pandas 中允许重复列

2024-05-20

我将一个大的 CSV（包含股票财务数据）文件分割成更小的块。 CSV 文件的格式不同。像 Excel 数据透视表之类的东西。第一列的前几行包含一些标题。

公司名称、ID 等在以下列中重复。因为一家公司有多个属性，而不是一家公司只有一栏。

在前几行之后，列开始类似于典型的数据帧，其中标题位于列而不是行中。

无论如何，我想做的是让 Pandas 允许重复的列标题，而不是让它在标题后添加“.1”、“.2”、“.3”等。我知道 Pandas 本身不允许这样做，有解决方法吗？我尝试在 read_csv 上设置 header = None 但它引发了一个标记化错误，我认为这是有道理的。我只是想不出一个简单的方法。

import pandas as pd

csv_path = "C:\\Users\\ThirdHandBD\\Desktop\\Data Splitting\\pd-split\\chunk4.csv"

#df = pd.read_csv(csv_path, header=1, dtype='unicode', sep=';', low_memory=False, error_bad_lines=False)
df = pd.read_csv(csv_path, header = 1, dtype='unicode', sep=';', index_col=False)
print("I read in a dataframe with {} columns and {} rows.".format(
len(df.columns), len(df)
))

filename = 1

#column increment
x = 30 * 59

for column in df:
    loc = df.columns.get_loc(column)
    if loc == (x * filename) + 1:
        y = filename - 1
        a = (x * y) + 1
        b = (x * filename) + 1
        date_df = df.iloc[:, :1]
        out_df = df.iloc[:, a:b]
        final_df = pd.concat([date_df, out_df], axis=1, join='inner')
        out_path = "C:\\Users\\ThirdHandBD\\Desktop\\Data Splitting\\pd-split\\chunk4-part" + str(filename) + ".csv"
        final_df.to_csv(out_path, index=False)
        #out_df.to_csv(out_path)
        filename += 1

# This should be the same as df, but with only the first column.
# Check it with similar code to above.

EDIT:

From, https://github.com/pandas-dev/pandas/issues/19383 https://github.com/pandas-dev/pandas/issues/19383, I add:

        final_df.columns = final_df.iloc[0]
        final_df = final_df.reindex(final_df.index.drop(0)).reset_index(drop=True)

所以，完整代码：

import pandas as pd

csv_path = "C:\\Users\\ThirdHandBD\\Desktop\\Data Splitting\\pd-split\\chunk4.csv"

#df = pd.read_csv(csv_path, header=1, dtype='unicode', sep=';', low_memory=False, error_bad_lines=False)
df = pd.read_csv(csv_path, header = 1, dtype='unicode', sep=';', index_col=False)
print("I read in a dataframe with {} columns and {} rows.".format(
len(df.columns), len(df)
))

filename = 1

#column increment
x = 30 * 59

for column in df:
    loc = df.columns.get_loc(column)
    if loc == (x * filename) + 1:
        y = filename - 1
        a = (x * y) + 1
        b = (x * filename) + 1
        date_df = df.iloc[:, :1]
        out_df = df.iloc[:, a:b]
        final_df = pd.concat([date_df, out_df], axis=1, join='inner')
        out_path = "C:\\Users\\ThirdHandBD\\Desktop\\Data Splitting\\pd-split\\chunk4-part" + str(filename) + ".csv"
        final_df.columns = final_df.iloc[0]
        final_df = final_df.reindex(final_df.index.drop(0)).reset_index(drop=True)
        final_df.to_csv(out_path, index=False)
        #out_df.to_csv(out_path)
        filename += 1

# This should be the same as df, but with only the first column.
# Check it with similar code to above.

现在，整个第一行都消失了。但是，预期输出是将标题行替换为重置索引，而不包含“.1”、“.2”等。

截屏：

SimFin ID 行不再存在。

我就是这样做的：

    final_df.columns = final_df.columns.str.split('.').str[0]

参考：https://pandas.pydata.org/pandas-docs/stable/text.html https://pandas.pydata.org/pandas-docs/stable/text.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas 中允许重复列的相关文章

Python：json_normalize pandas 系列给出 TypeError

我在 pandas 系列中有数万行像这样的 json 片段df json IDs lotId 1 Id 123456 date 2009 04 17 bidsCount 2 IDs lotId 2 Id 123456 date 2009 0
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
使用 scikit 时 scipy.sparse 矩阵的缩放问题

在使用 scikit learn 解决机器学习问题时我需要在使用 SVM 进行训练之前对 scipy sparse 矩阵进行缩放但在文档 http scikit learn org stable modules preprocessin
列表推导式和 for 循环中的 Lambda 表达式[重复]

这个问题在这里已经有答案了我想要一个 lambda 列表作为一些繁重计算的缓存并注意到这一点 gt gt gt j for j in lambda i for i in range 10 9 9 9 9 9 9 9 9 9 9 Alt
我可以用关闭的文件对象做什么？

当您打开文件时它存储在一个打开的文件对象中该对象使您可以访问该文件的各种方法例如读取或写入 gt gt gt f open file0 gt gt gt f
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
Pandas 合并指标自定义值

在 pandas 合并期间将指示器更新为更友好的消息的最快方法是什么默认indicator True yields left only right only both 我想更新为Only present in last month s d
Python在没有pandas的情况下解码excel表

我正在尝试在 python 中读取 excel 文件而不使用pandas or xlrd 我一直在尝试将结果转换为bytes to utf 8没有任何成功 xls 文件中的数据 colA colB colC spc 1D0 20190705
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
Flymake的临时文件可以在系统临时目录下创建吗？

我目前正在使用以下代码在 emacs 中连接 Flymake 和 Pyflakes defun flymake create temp in system tempdir filename prefix make temp file or
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
数据损坏 C++ 和 Python 之间的管道

我正在编写一些代码从 Python 获取二进制数据将其通过管道传输到 C 对数据进行一些处理在本例中计算互信息度量然后将结果通过管道传输回 Python 在测试时我发现如果我发送的数据是一组尺寸小于 1500 X 1500 的 2
如何在引发异常时将变量传递给异常并在异常时检索它？

现在我只有一个空白的异常类我想知道如何在引发变量时给它一个变量然后在 try except 中处理它时检索该变量 class ExampleException Exception pass 为其构造函数提供一个参数将其存储为属性然后
类返回语句不打印任何输出

我正在学习课程但遇到了问题return语句它是语句吗我希望如此程序什么也没有打印出来它只是结束而不做任何事情 class className def createName self name self name name def
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
超过两个点的Python相对导入

是否可以使用路径中包含两个以上点的模块引用就像这个例子一样 Project structure sound init py codecs init py echo init py nix init py way1 py way2 py w
Tkinter 将鼠标点击绑定到框架

我一定错过了一些明显的东西我的 Tkinter 程序中有两个框架每个框架在网格布局中都有一堆标签我想将鼠标点击绑定到其中一个而不是另一个我目前使用 root bind

随机推荐

Facebook 应用程序无法获取会话

我正在 Heroku 上为 Facebook 开发一个非常基本的 PHP 应用程序它显示非常基本的用户信息如姓名个人资料图片但该应用程序在 getToken 方法中停止我在登录我的个人资料后尝试了该应用程序但仍然出现相同的消息
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
如何强制从本机代码打开 Android 软键盘？

我有一个游戏当用户触摸屏幕时它使用从 C 到 Java 的回调来强制打开软键盘 Java代码很简单是这样的 this inputMethodManager toggleSoftInput InputMethodManager SHOW
更改 R 中 ggplot geom_polygon 的颜色方案

我正在使用地图库和 ggplot 的 geom polygon 创建地图我只是想将默认的蓝色红色紫色配色方案更改为其他颜色我对 ggplot 非常陌生所以如果我没有使用正确的数据类型请原谅我使用的数据如下所示 gt head
带有整数字符串的枚举

我有一个公众号enum像这样 public enum occupancyTimeline TwelveMonths FourteenMonths SixteenMonths EighteenMonths 我将用它来DropDown菜单如下
dart json.encode(data) 不能接受其他语言

我目前正在使用 Dart 进行 Web 开发使用mockclient实现服务但是出现以下错误下面的实现代码是一个继承mockClient的内存web api服务调用client send 并返回结果的代码 test value是j
Html Helper“操作”未定义，Asp.NET Core 2.2

我是 ASP NET Core MVC 的新手我会在这个问题前说我已经阅读了其他类似的问题但它们与我遇到的问题并不完全相同我正在尝试实现动态左侧导航其中每个按钮都是从我的数据库加载的当我打电话时 Html Action NavMe
如何按照编写的顺序迭代 javascript 对象属性

我发现了代码中的一个错误我希望通过最少的重构工作来解决该错误此错误发生在 Chrome 和 Opera 浏览器中问题 var obj 23 AA 12 BB iterating through obj s properties for
如何将 android.net.Uri 转换为 java.net.URL？ [复制]

这个问题在这里已经有答案了有没有办法从Uri to URL 我正在使用的库需要这个它only接受一个URL但我需要在我的设备上使用图像如果该方案的Uri is http or https new URL uri toString 应该
ASMX Web 服务 - 返回带有属性的用户定义的类

嘿我正在尝试从 Web 方法返回用户定义的类该类具有属性和或方法给出以下网络方法 WebMethod public List
Weblogic 10.3.6 SharedLibrary 错误未解析的 Web 应用程序库引用

我正在尝试将共享库部署为网络应用程序并可以访问另一个网络应用程序中的库我的应用服务器是WebLogic 10 3 6 我的jdk是1 6 JRockit 我的带有共享库的 WebApp 称为 clares shared 0 1 0 BU
JPA 中所有命名查询的列表

我想获取应用程序中所有 NamedQueries 的列表并且我还想在运行时一般调用它们是否有一个选项可以获取列表以及某种元数据一般来说是某种反射另一个线程为 NHibernate 提供了某种解决方案即使使用 Hibernate 作
如何对 JSON 类型列进行分组/选择（PG::UndefinedFunction: 错误: 无法识别 json 类型的等式运算符）

我想做
更改 en.yml 文件中的属性名称不起作用

我更改了 ruby on Rails 项目中 en yml 文件中的属性名称按钮工作正常但字段属性并没有改变这是我的模型 class Enr AffordableWarmth lt ActiveRecord Base self tab
在java中实现你自己的阻塞队列

我知道这个问题之前已经被问过并回答过很多次了但我只是无法根据互联网上找到的示例找出窍门例如this http tutorials jenkov com java concurrency blocking queues html or t
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
所有编程语言都是按顺序读取的吗？

我似乎无法找到对此的直接答案使用多个搜索引擎给我的结果非常模糊或者只回答了一半的问题那么详细来说当您编写一个程序并对其进行编译解释时计算机是按时间顺序顺序读取每一行还是默认情况下跳过 Example 使用 C 风格的源代码因
将对象转换为哈希，然后将其保存到用户的列

找不到任何接近我想做的事情我想将一个对象存储到用户的列中该列采用数组的形式 postgres def change add column users interest string array true default end 我有另一
在 VS 2012 中创建并运行 MVC 5 项目

由于某种原因我的 Visual Studio 2013 预览版无法创建 MVC 5 项目由于 MVC 项目现已在 CodePlex 中开源我想知道是否有一种简单的方法可以在我的 Visual Studio 2012 Ultimate
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行

Pandas 中允许重复列

Pandas 中允许重复列 的相关文章

随机推荐

热门标签

Pandas 中允许重复列的相关文章