如何将单个 CSV 文件分割为按字段分组的多个较小文件？

2023-11-30

我有来自世界银行千年发展目标的大量数据集（CSV 格式）。数据显示如下：

Country Code   Country Name   Indicator
ABW            Aruba          % Forest coverage
ADO            Andorra        % Forest coverage
AFG            Afghanistan    % Forest coverage
...
ABW            Aruba          % Literacy rate
ADO            Andorra        % Literacy rate
AFG            Afghanistan    % Literacy rate
...
ABW            Aruba          % Another indicator
ADO            Andorra        % Another indicator
AFG            Afghanistan    % Another indicator

该文件当前大小为 8.2MB。我将为这些数据编写一个 Web 界面，并且我想按国家/地区对数据进行切片，以便我可以发出 ajax 请求，以便为每个国家/地区加载单独的 CSV。

我不知道如何以编程方式或使用任何工具来执行此操作。我不一定需要 Python，但这是我最了解的。我不一定需要完整的脚本，但我很高兴提供有关如何解决此问题的一般指示。

我正在使用的原始数据源位于此处：

http://duopixel.com/stack/data.csv

单线：

awk -F "," 'NF>1 && NR>1 {print $0 >> ("data_" $1 ".csv"); close("data_" $1 ".csv")}' data.csv

这将创建名为的新文件data_ABW等，包含适当的信息。这NR>1部分跳过标题行。然后，对于每一行，它appends整行（$0) 到名为Data_$1, where $1替换为该行第一列中的文本。最后，close语句确保没有太多打开的文件。如果你没有那么多国家，你可以摆脱这个并显着提高命令的速度。

为了回答下面@Lenwood的评论，要在每个输出文件中包含标头，您可以这样做：

awk -F "," 'NR==1 {header=$0}; NF>1 && NR>1 {if(! files[$1]) {print header >> ("data_" $1 ".csv"); files[$1]=1}; print $0 >> ("data_" $1 ".csv"); close("data_" $1 ".csv")}' data.csv

（你可能必须避开感叹号...）第一个新部分NR==1 {header=$0};仅将输入文件的第一行存储为变量header。然后，另一个新部分if(! files[$1]) ... files[$1]=1};使用关联数组files跟踪所有内容是否已将标头放入给定文件中，如果没有，则将其放入其中。

请注意，这会附加文件，因此如果这些文件已经存在，它们将被添加到其中。因此，如果您在主文件中获取新数据，您可能需要在再次运行此命令之前删除这些其他文件。

（以防不明显，如果您希望文件的命名类似于data_Aruba你可以改变$1 to $2.)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

如何将单个 CSV 文件分割为按字段分组的多个较小文件？的相关文章

与 iexact 一起使用时，Django get_or_create 无法设置字段

我想用name iexact with get or create尽可能避免用户输入字段的重复我的提供者模型有一个名称字段我在其中使用get or create 查找工作正常但在第一次创建实例时如下面的 p1 Timber 示例名
具有多处理功能的 Python 代码无法在 Windows 上运行

以下简单的绝对初学者代码在 Ubuntu 14 04 Python 2 7 6 和 Cygwin Python 2 7 8 上运行 100 但在 Windows 64 位 Python 2 7 8 上挂起我使用另一个片段观察到了同样的情况
Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
KFold 和 ShuffleSplit CV 有什么区别？

看起来 KFold 每次迭代对象时都会生成相同的值而 Shuffle Split 每次都会生成不同的索引它是否正确如果是这样其中一个相对于另一个有什么用处 cv cross validation KFold 10 n folds 2
Python：记录垃圾收集器

我有一个 python 应用程序有一些性能问题我想将垃圾收集器的事件特别是何时调用添加到我的日志中是否可以 thanks http docs python org library gc html gc set debug http
Python + PostgreSQL + 奇怪的ascii = UTF8编码错误

我有包含字符的 ascii 字符串 x80 代表欧元符号 gt gt gt print x80 当将包含该字符的字符串数据插入数据库时我得到 psycopg2 DataError invalid byte sequence for enc
为什么导入 pdb 时出现此错误？ “模块”对象没有属性“ascii_letters”

尝试调试我的代码我正在导入库pdb import sys from subprocess import check call import pdb functions if name main Code 我收到此错误 File reg p
conda 无法从 yml 创建环境

我尝试运行下面的代码来从 YAML 文件创建虚拟 Python 环境我在 Ubuntu 服务器上的命令行中运行代码虚拟环境名为 py36 当我运行下面的代码时我收到下面的消息环境也没有被创建这个问题是因为我有几个必须使用 pip
html 解析器 python

我正在尝试解析一个网站我正在使用 HTMLParser 模块问题是我想解析第一个 a href 评论后但我真的不知道该怎么做所以我在文档中发现有一个函数叫做handle comment 但我还没有找到如何正确使用它我有以下内容 i
如何找到列表S的所有分区为k个子集（可以为空）？

我有一个唯一元素列表比方说 1 2 我想将其拆分为 k 2 个子列表现在我想要所有可能的子列表 1 2 1 2 2 1 1 2 我想分成 1 1 2 我怎样才能用 Python 3 做到这一点更新我的目标是获取 N 个唯一数字列表的
Python 正则表达式部分匹配或“hitEnd”

我正在编写一个扫描器因此我将任意字符串与正则表达式规则列表进行匹配如果我可以模拟 Java hitEnd 功能不仅知道正则表达式何时不匹配还知道何时匹配这将非常有用 can t匹配当正则表达式匹配器在决定拒绝输入之前到达输入末尾
如何使用循环将十进制转换为二进制？

我想编写一个程序将十进制数 0 到 9 转换为二进制数我可以编写如何使用重复除法将十进制数转换为二进制数的代码但是我在创建一个以二进制格式打印十进制数字 0 到 9 的循环时遇到了麻烦这是我的代码 number 0 remaind
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
在 matplotlib 中使用 yscale('log') 时缺少误差线

在某些情况下当使用对数刻度时 matplotlib 会错误地显示带有误差条的图假设这些数据例如在 pylab 内 s 19 0 20 0 21 0 22 0 24 0 v 36 5 66 814250000000001 130 177
为什么“return self”返回 None ？ [复制]

这个问题在这里已经有答案了我正在尝试获取链的顶部节点getTopParent 当我打印出来时self name 它确实打印出了父实例的名称然而当我回来时self 它返回 None 为什么是这样 class A def init sel
如何在C++中列出Python模块的所有函数名称？

我有一个 C 程序我想导入一个 Python 模块并列出该模块中的所有函数名称我该怎么做我使用以下代码从模块中获取字典 PyDictObject pDict PyDictObject PyModule GetDict pModule
Jupyter Notebook：没有名为 pandas 的模块

我搜索了其他问题但没有找到任何有帮助的内容大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中我试图导入 pandas import pandas as pd 但我收到以下错误 Modul
为什么 bot.get_channel() 会产生 NoneType？

我正在制作一个 Discord 机器人来处理公告命令当使用该命令时我希望机器人在特定通道中发送一条消息并向用户发送一条消息以表明该命令已发送但是我无法将消息发送到频道我尝试了这段代码 import discord import
Powershell 使用 ConvertFrom-Csv 解析带有换行符的管道 CSV 数据

当尝试解析字段内带有换行符的 CSV 数据时 ConvertFrom Csv 将无法正常工作这是一个例子 test csv name address John Doe 123 Easy Way Apt 10 Somewhere USA J
Python 枚举子集迭代

我想迭代以下枚举的子集 class Items enum Enum item1 0 item2 1 item3 2 item4 3 item5 4 item6 5 item7 6 item8 7 说我想 for item in Items

随机推荐

从脚本启动 Spring boot 应用程序

使用普通的 spring mvn 命令我可以从命令行启动 spring boot 应用程序并使用 Control c 终止它不过我已经创建了一堆服务稍后我将对其进行 dockerize 现在它们是由 mvn 生成的普通 java j
JSTree 拖放问题

我将 JSTree 与 ASP net 一起使用为树生成的 html 看起来像 ul li a href node 1 a li li a href node 2 a li li a href node 3 a li li a href
升级到 JSF 2.2 后，#{cc.clientId} 在错误的组合中进行评估

我有一个用 JSF 2 0 PrimeFaces 3 4 编写的标签库现在我正在尝试更新到 JSF 2 2 和 PrimeFaces 4 0 但我意识到传递给组件的属性值是在复合组件中计算的这会导致渲染的 id 错误 enum xhtm
Cygwin 和 Apache Pig - 令人困惑的伪 grunt>

我正在尝试在运行 Vista 操作系统的 Windows PC 上安装 Apache Pig 以便将其用作学习工具我不打算在这台机器上使用 Pig 进行任何严肃的数据处理单节点单 JVM x local设置是我想要的我有 Windo
始终显示 JavaFX ListView 的垂直滚动条

ListView 似乎已经有一个滚动条我希望滚动条始终可见原因是因为我在其上放置了一个标题并在滚动条和标题之间的角落放置了一个按钮如何让ListView滚动条始终显示您可以将其放入适当大小的 JScrollPane 中并将 JS
如何在运行时更改注释/Hibernate 验证规则？

如果有一个带有某些字段的 Java 类我想使用 Hibernate Validator 进行验证现在我希望我的用户能够在运行时配置进行哪些验证例如 public class MyPojo NotEmpty String void ge
我需要 iOS 设备来“存档”Xcode 项目吗？

我是一名 iOS 开发新手试图推出我的第一个应用程序我在 StackOverflow 上挖掘了很长时间来寻找答案但没有成功有3个关键点需要牢记我实际上并没有 iOS 设备到目前为止我只是使用模拟器来测试该应用程序我也有所有证书
具有自动高度属性的用户控件

我想创建将显示文本的用户控件我需要一种在运行时调整控件大小的方法以便它调整高度以显示所有文本我创建了如下所示的控件正如你所看到的我使用以下方法绘制了图标和文本TextRenderer DrawText 不幸的是当我调整控件大小
如何 static_assert 该类型对于 c++20 中的模板非类型参数是可行的

我有一个类型TimeDuration 现在是文字类型我可以将它用作非类型模板参数这种用法与类型定义相距甚远编译方面因此如果有人修改TimeDuration这样它就不再是字面意思了很久以后才会注意到所以我把static assert
C ：为一个函数参数发送不同的结构

我有一个使用 OpenGL 绘制圆的函数我想向它传递一个包含 x 和 y 坐标以及半径的结构问题是同一个函数必须与 3 个不同的结构一起使用所有结构都包含坐标半径和绘图函数不使用的其他一些内容有没有办法让 3 个不同的结构只有一个
使 firebase 的 sendPasswordResetEmail 更安全

在使用包含身份验证的 firebase 的网站上我正在实现忘记密码功能返回状态为sendPasswordResetEmail 如果用户提供的电子邮件没有与其关联的帐户则为 400 如果电子邮件确实有帐户则返回 200 这意味着攻
构建 Archive 时未找到 Apple 框架

我正在尝试使用 RealityKit 向现有应用程序添加对 AR 功能的可选支持该应用程序可以在 iOS 10 和 iOS 13 设备上正常构建和运行并且仅在后者中启用可选功能但是当我为通用 iOS 设备构建或尝试存档时出现错误N
仅对一列进行分组和求和

所以我有一个数据框 df1 看起来如下所示 A B C 1 foo 12 California 2 foo 22 California 3 bar 8 Rhode Island 4 bar 32 Rhode Island 5 baz 15
WPF 数据绑定到接口而不是实际对象 - 可以进行强制转换吗？

假设我有一个这样的界面 public interface ISomeInterface 我还有几个实现这个接口的类 public class SomeClass ISomeInterface 现在我有一个 WPF 列表框使用自定义 Dat
无法使用 Android Auto 'android.car' 库 - 抛出 RuntimeException: Stub

我正在尝试读取运行 Android Auto 和 Android Automotive 的汽车的外部温度传感器为了阅读SENSOR TYPE ENV OUTSIDE TEMPERATURE使用汽车物业经理我需要包括android car图
bash 中不区分大小写的文件名搜索和检索

我想获取 github 存储库的自述文件以进行进一步处理问题是文件名可能有不同的大小写例如readme md or Readme md or README md etc 我想找到自述文件的哪个变体并在 shell 变量中检索该文件名以
在

如何将单个 CSV 文件分割为按字段分组的多个较小文件？

如何将单个 CSV 文件分割为按字段分组的多个较小文件？ 的相关文章

随机推荐

如何将单个 CSV 文件分割为按字段分组的多个较小文件？的相关文章