使用 Pandas 递归地将 CSV 编辑到子目录

2023-12-21

我有一系列子目录文件夹，每个文件夹都有一个“_Invoice.csv”。

/Invoice List/
              Invoice1folder/
                             ..._Invoice.csv
              Invoice2folder/ 
                             ..._Invoice.csv
              Invoice5folder/
                             ..._Invoice.csv
              Invoice9folder/
                             _Invoice.csv

对于每个“_Invoice.csv”，我都有列 [A、B、C、D]。我试图递归搜索所有子目录文件夹，打开每个“_Invoice.csv”文件并将列减少到仅 [A，C]，然后将其另存为“_Invoice_Reduced.csv”。

"_Invoice.csv"       "_Invoice_Reduced.csv"
 A B C D        =>              A C
 1 2 3 4        =>              1 3

我目前的尝试是：

import pandas as pd
import os

columns_to_keep = ['A','C']
final_form= pd.DataFrame()

for file in os.listdir():
    if file.endswith('*_Invoice.csv'):
        df = pd.read_csv(file)
        df = df.loc[;columns_to_keep]
        df = df.to_csv(f'{file.name}_Invoice_Reduced.csv')
   if file.endswith('*_Invoice_Reduced.csv'):
        df = pd.read_csv(file)
        final_form= final_form.append(df, ignore_index=True)

TLDR：我正在尝试创建一个脚本，该脚本会进入每个子目录，减少预先存在的 CSV，减少 CSV 的列并保存子集。然后在读取完所有子目录后，将缩减的文件合并到一个 big_frame 中。

有什么想法吗？

这样就可以完成工作了。

而不是打开、删除列、保存并继续；我选择仅使用减少的列打开，保存此减少的 DataFrame，然后附加到df。这将导致所有减少的文件都堆叠在这个 DataFrame 中。

Using path = "."从当前目录开始

from pathlib import Path
import pandas as pd


df = pd.DataFrame()
columns_to_keep = ['A','C']
path = "."
pattern = "*_Invoice.csv"

for file in Path(path).rglob(pattern):
    output_file = "{}/{}{}".format(file.parent, file.stem, "_Reduced.csv")
    _df = pd.read_csv(file, usecols=columns_to_keep)
    _df.to_csv(output_file, sep=",", index=False, header=True)
    df = pd.concat([df, _df])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

csv

使用 Pandas 递归地将 CSV 编辑到子目录的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

为什么需要对 μop 进行分层？

In Intel CPU 中的 MicroFusion 作者丹尼斯巴赫瓦洛夫 https easyperf net blog 2018 02 15 MicroFusion in Intel CPUs 他说 Unlamination fo
PowerShell 5.1 - 如何卸载当前使用的模块

我们在一个部署 PowerShell 脚本中使用一些 PowerShell 模块使用以下命令我们将模块即 XXXX 安装到 C Program Files WindowsPowerShell Modules 中 Install Mod
为什么 Espresso 的 registerIdlingResources 被弃用，以及什么取代了它？

我正在使用 Espresso for Android 进行 UI 测试并遵循 Google 的代码示例 https github com googlesamples android testing blob master ui espre
有多少数据加载到 L2 和 L3 缓存中？

如果我有这门课 class MyClass short a short b short c 我有这段代码对上面的内容执行计算 std vector
为 gmaps4rails 制作地图标记直接链接 onclick

当前信息窗口显示为单击地图标记时发生的情况如下所示 google maps event addListener marker click function infowindow open Gmaps map map marker 我如
使用 pandas 将行插入 Microsoft SQL Server 会引发精度错误

我正在尝试将数据插入到 mssql 数据库中我需要快速方法因此我将 fast executemany 参数设置为 true 上传在大多数情况下工作正常但如果其中一列是带有时区的日期时间则会崩溃并引发 pyodbc Error HY1
如何转换泛型类型以适应另一个泛型方法

我在A类中有一个方法 public IList
SET-ting ALLOW_SNAPSHOT_ISOLATION ON 有何含义？

我应该跑吗 ALTER DATABASE DbName SET ALLOW SNAPSHOT ISOLATION OFF 如果暂时不使用快照事务 TX 隔离 iso 换句话说首先为什么要启用它为什么默认情况下不启用在 SQL Serv
如何在 Material UI 中应用自定义主题？

阅读本教程后我尝试将自定义主题应用到我的 React 组件 http www material ui com customization themes http www material ui com customization them
CSS 垂直对齐属性不起作用

嘿我有以下 CSS 代码 parent position absolute top 50px left 50px width 400px height 160px padding 10px border 2px solid border
我们是否可以让一个 Google Cloud 功能监听多个主题？

因此我们可以设置云函数来监听一个主题如下图所示我们是否可以让一个函数监听多个主题例如我可以让一个函数通过电子邮件向我发送错误如果我可以使用此函数来侦听多个主题每个主题将报告一个特定的过程错误那么我不必为每个执行相同操作的主题
为什么这个计算字符串长度的 C 程序会给出错误的输出？

我写了这个程序它接受string作为输入并返回它的长度 include
使用 vagrant、hhvm 和 Ubuntu 14.04 安装 Composer

在我的 vagrant 配置脚本结束时我尝试使用以下命令安装作曲家 sudo curl sS https getcomposer org installer php sudo mv composer phar usr local bin
从 Sinatra 发送 DELETE 请求

我正在尝试开发一个 RESTful Sinatra 应用程序现在我知道如何响应删除请求例如 delete user id do id do something in the model end 我感兴趣的是如何执行该方法我无法拥有执
如何根据 R 中的 gee、lme、glmer 和 gamm4 拟合的新数据绘制预测？

我使用各种函数来拟合离散计数数据以进行比较我使用 GEE 模型拟合geepack 线性混合效应模型log count using lme nlme GLMM 使用glmer lme4 和 GAMM 使用gamm4 gamm4 in R 我
GitHub Action - 定义作业之间的工作流级别环境变量

我想在我的 Github Actions Workflow 内的作业之间定义和设置环境变量下面的工作流程是我尝试过的但不幸的是环境变量GIT PR SHA SHORT and E2E GIT PR SHA不工作是否可以 name Gi
HashMap 将所有键复制到 HashMap 并将值初始化为零

什么是最好的方法只需循环并输入键和零或者是否有另一种更优雅或现有的库方法我也在使用 Google 的 guava java 库它是否有任何有用的功能想检查是否有类似于列表或地图的复制方法的东西putAll http downloa
如何访问 JPA 中的鉴别器列

I have DisseminationArea作为子类Feature使用以下代码 Entity Table name features Inheritance strategy InheritanceType JOINED Discrim
使用 Jquery 为 Div 一个接一个地制作动画

我正在尝试对多个 div 进行动画处理在页面加载时按顺序淡入当我单击转到另一个页面时我也想反向执行此操作按顺序淡出我该如何在 jquery 中进行设置很难给你一个例子因为 jQuery 有很多动画方法但这里有一个简单的例子
使用 Pandas 递归地将 CSV 编辑到子目录

我有一系列子目录文件夹每个文件夹都有一个 Invoice csv Invoice List Invoice1folder Invoice csv Invoice2folder Invoice csv Invoice5folder Invo

使用 Pandas 递归地将 CSV 编辑到子目录

使用 Pandas 递归地将 CSV 编辑到子目录 的相关文章

随机推荐

热门标签

使用 Pandas 递归地将 CSV 编辑到子目录的相关文章