使用 join/awk/sed 合并 CSV 文件

2024-04-15

您能帮我找到 bash 命令，该命令会将以下 cvs 文件“template.csv + file1.csv + file2.csv + file3.csv + ... + fileX.csv”加入/合并到“ouput.csv”中吗？。

对于 template.csv 中的每一行，连接 fileX.csv 中列出的关联值（如果存在），如下所示：

模板.csv：

header
1
2
3
4
5
6
7
8
9

文件1.csv：

header,value1
2,value12
3,value13
7,value17
8,value18
9,value19

文件2.csv：

header,value2
1,value21
2,value22
3,value23
4,value24

文件3.csv：

header,value3
2,value32
4,value34
6,value36
7,value37
8,value38

输出.csv：

header,value1,value2,value3
1,,value21,
2,value12,value22,value32
3,value13,value23,
4,,value24,value34
5,,,
6,,,value36
7,value17,,value37
8,value18,,value38
9,value19,,

我的模板文件包含 35137 行。
我已经开发了一个 bash 脚本来执行此合并（基于“do while”等），但性能一点也不好。太长，无法生成output.csv。我确信可以使用 join、awk 来执行相同的操作，...但我不知道如何...

重要更新

我的真实文件的第一列包含日期时间而不是简单的数字...因此脚本必须考虑日期和时间之间的空格...抱歉更新！

现在应使用以下 csv 文件作为示例来设计脚本：

模板.csv：

header
2000-01-01 00:00:00
2000-01-01 00:15:00
2000-01-01 00:30:00
2000-01-01 00:45:00
2000-01-01 01:00:00
2000-01-01 01:15:00
2000-01-01 01:30:00
2000-01-01 01:45:00
2000-01-01 02:00:00

文件1.csv：

header,value1
2000-01-01 00:15:00,value12
2000-01-01 00:30:00,value13
2000-01-01 01:30:00,value17
2000-01-01 01:45:00,value18
2000-01-01 02:00:00,value19

文件2.csv：

header,value2
2000-01-01 00:00:00,value21
2000-01-01 00:15:00,value22
2000-01-01 00:30:00,value23
2000-01-01 00:45:00,value24

文件3.csv：

header,value3
2000-01-01 00:15:00,value32
2000-01-01 00:45:00,value34
2000-01-01 01:15:00,value36
2000-01-01 01:30:00,value37
2000-01-01 01:45:00,value38

输出.csv：

header,value1,value2,value3
2000-01-01 00:00:00,,value21,
2000-01-01 00:15:00,value12,value22,value32
2000-01-01 00:30:00,value13,value23,
2000-01-01 00:45:00,,value24,value34
2000-01-01 01:00:00,,,
2000-01-01 01:15:00,,,value36
2000-01-01 01:30:00,value17,,value37
2000-01-01 01:45:00,value18,,value38
2000-01-01 02:00:00,value19,,

$ cat tst.awk
BEGIN { FS=OFS="," }
NR == FNR { key[++numRows] = $1 }
{ fld[$1,ARGIND] = $NF }
END {
    for (rowNr=1; rowNr<=numRows; rowNr++) {
        for (colNr=1; colNr<=ARGIND; colNr++) {
            printf "%s%s", fld[key[rowNr],colNr], (colNr<ARGIND ? OFS : ORS)
        }
    }
}

$ awk -f tst.awk template.csv file1.csv file2.csv file3.csv
header,value1,value2,value3
2000-01-01 00:00:00,,value21,
2000-01-01 00:15:00,value12,value22,value32
2000-01-01 00:30:00,value13,value23,
2000-01-01 00:45:00,,value24,value34
2000-01-01 01:00:00,,,
2000-01-01 01:15:00,,,value36
2000-01-01 01:30:00,value17,,value37
2000-01-01 01:45:00,value18,,value38
2000-01-01 02:00:00,value19,,

上面使用 GNU awk 进行ARGIND，对于其他 awk，只需添加一行：FNR==1 { ++ARGIND }.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

csv

join

awk

sed

使用 join/awk/sed 合并 CSV 文件的相关文章

执行命令而不将其保留在历史记录中[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案在进行软件开发时经常需要在命令行命令中包含机密信息典型示例是将项目部署到服务器的凭据设置为环境变量当我不想将某些命令存储在命令历史记
shell中如何分割字符串

我有一个变量作为 string ABC400p2q4 我怎样才能分开ABC400 and p2q4 我需要将它分成两个变量结果我得到 echo var1 ABC400 echo var2 p2q4 可以用任何字母字符代替 ABC 可以用任
如何制作 Bash 脚本来查找项目中未使用的图像？

如何制作一个 Bash shell 脚本它可以识别所有 jpg gif 和 png 文件然后识别文件夹中任何文本文件中哪些文件未通过 url href 或 src 链接这就是我开始的但我最终得到了与我想要的相反的结果我不想知道引用
AWK：递归下降 CSV 解析器

响应一个BASH 中的递归下降 CSV 解析器 https codereview stackexchange com questions 11727 need some advice or help with translation and
MySQL 查询到 CSV [重复]

这个问题在这里已经有答案了有没有一种简单的方法来运行MySQL查询来自linux命令行并以csv格式输出结果这就是我现在正在做的事情 mysql u uid ppwd D dbname lt lt EOQ sed e s g tee l
R 中用于调用 sed、rsync、ssh 等的 system() 的替代方案：函数是否存在，我应该编写自己的函数，还是我错过了重点？

最近我发现了base files命令与其他命令一起使用例如getwd write lines file show dir等等似乎有许多 bash 函数的 R 等价物我还在 R 中编写了一些函数来简化对ssh and rsync通过
对 CSV 文件中的列进行分组并连接另一列的值

我刚刚开始使用 PowerShell 在任何地方都找不到这个问题的答案尝试编写一个脚本来导入 CSV 文件并搜索该文件以查看是否有任何名称相同如果名称相同我想将所有这些值写在同一行上并且只显示名称一次例如 Name Number
Hibernate JOIN FETCH - 对象在结果集中出现多次

我正在使用 Spring JPA 和 Hibernate 构建 REST API 我搜索了 2 天但没有找到任何解决方案来解决这个问题在某些查询中我有多个 JOIN FETCH 子句当我执行查询时我的结果集中多次出现父对象实际上
从网络源获取 R 中的数据作为数据框

我正在尝试使用 RCurl 包将一些空气污染背景数据作为 data frame 直接加载到 R 中该网站有 3 个下拉框用于在下载 csv 文件之前选择选项如下图所示我试图从下拉框中选择 3 个值并使用下载 CSV 按钮将数据作
如何将复杂的 csv 文件导入到 Matlab 中的数值向量

我想知道我们应该如何读取由字符串双精度数和字符等组成的复杂 csv 文件例如您能否提供一个可以在此 csv 文件中提取数值的成功命令 Click here http www ecb europa eu stats money yc d
如何根据标签将单个 XML 文件拆分为多个

我有一个带有标签的 XML 文件我想像这样分割文件
如何在 iPhone 应用程序中使用正则表达式以 , （逗号）分隔字符串

我必须读取包含三列的 csv 文件在解析 csv 文件时我得到了这种格式的字符串克里斯托弗巴斯为心爱的国家哭泣期末论文电子邮件受保护 cdn cgi l email protection 我想将三列的值存储在一个数组中所以我使
我如何在使用sequelize的包含模型中使用限制

我想从关注模型中获取限制为 2 的用户图像 Models const Follow connector define Follow no type Sequelize INTEGER primaryKey true autoIncremen
“/bin/bash -l”无效选项

好吧我正在尝试在我们的超级计算机上运行隐藏为一项作业的串行 MPI 作业主要提交脚本基本上如下所示 bin bash l PBS l nodes 4 ppn 8 walltime 24 00 00 cat PBS NODEFILE un
SQL Join 列上类似于另一列[重复]

这个问题在这里已经有答案了可能的重复 mysql连接查询使用like https stackoverflow com questions 1930809 mysql join query using like 我想要进行连接其中一列包含
Windows 10 上的 LibPNG 构建问题

我试图在 Windows 10 上构建 libpng 以获取 win32 二进制文件但我认为有一个与 awk 解析带有 CRLF 行结尾的文件相关的问题我尝试使用 dos2unix 命令转换文件但没有成功结果相同在 make 命令
终端关闭时 bash 收到的信号

使用 trap 来捕获信号如下所示 i 1 while i lt 33 do trap echo i gt gt log txt i done 并强行关闭终端那么log txt中的内容就是 redhat linux下 1 18 1 17
导出到 CSV 时 Gridview 出现空行

这个问题是由进一步讨论引发的这个问题 https stackoverflow com questions 6674555 export gridview data into csv file 6674589 noredirect 1 com
SQL 连接两个没有关系的表

我有具有相同结构的不同表我想通过其中一列将它们连接起来问题是他们不共享该专栏中的信息 Table 1 Type A Name Value Table 2 Type B Name Value 结果表在单列中 nameFromA name
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for

随机推荐

UWP SerialDevice.FromIdAsync 在 Windows 10 上抛出“未找到元素”（HRESULT 异常：0x80070490）

我想在 Xamarin Forms 应用程序中打开连接的蓝牙设备上的串行端口这是代码我简化了它以说明问题 string l gdsSelector SerialDevice GetDeviceSelector var l ardiDev
C89：有符号/无符号不匹配

有符号无符号不匹配一定是不好的吗这是我的程序 int main int argc char argv unsigned int i for i 1 i lt argc i signed unsigned mismatch here ar
对于具有分组变量的 case_when，dplyr v1.1.0 运行时速度要慢得多

Using case when in a mutate与 v1 0 10 相比 v1 1 0 中使用分组变量的调用要慢得多该代码可以工作但它导致我维护的许多包的速度大幅减慢请参阅here https www r project org
创建PDO查询时参数中的数组

我可以在参数中使用几行吗 Example SELECT id city id FROM an objects WHERE city id IN arrCity arr城市 1 2 3 4 5 6 但现在我已经这样做了 SELECT id c
使用 C# 的另一个进程的内存使用情况和执行时间？

我需要通过另一个应用程序加载的应用程序的内存使用情况和处理时间我正在使用 C 目前我正在使用Process WorkingSet获取内存使用情况相似地Process TotalProcessTime以获得执行时间但它没有提供任何价值
单选按钮组中的选定值未保留在 AngularJS 中

我的角度页面中有单选按钮组下面是我的代码 span span
如何在同一张图中绘制多个线性回归

鉴于以下情况 import numpy as np import pandas as pd import seaborn as sns np random seed 365 x1 np random randn 50 y1 np rando
PHP 在我的程序上表现得很奇怪[重复]

这个问题在这里已经有答案了今天我开始编写一个小的 PHP 代码它让我感到困惑所以我把车停在这里
使用 3 维向量的问题

如何在 C 中使用 3 维向量 vector
jQuery 在 Laravel 5 中无法正常工作

我创建了一个 Web 应用程序它接受用户输入查询 API 使用 PHP 处理数据然后使用 jQuery 和 D3 将其呈现为一系列图表我最初以程序方式设置它但此后一直使用 Laravel 框架来实现它我遇到的问题是 JavaSc
列出文件夹中的所有文件 - 文件的完整路径

我有一个文件夹C Name Folder 我有几个文件我需要显示该文件夹中文件的完整文件路径它应该以以下格式显示所有文件C Name Folder file txt 我的代码如下 string filePaths Directory G
我正在开发 Firefox 扩展，想要计算网页文本框的总数，那么如何计算文本框？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在开发 Firefox 扩展想要计算网页文本框的总数那么如何使用 javascript 计算文本框选择它们并计数length va
将大型 SVN 存储库迁移到 git

我有一个大型 SVN 存储库大约 140GB 其中包含许多项目并且不遵循 svn 推荐的目录结构从所有这些数据包括二进制文件发布版本和依赖项来看我真正关心的是特定路径与其他所有数据相比该路径实际上具有非常小的历史记录到目
您将如何设计数据库以允许用户定义模式[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案如果您必须创建一个应用程序例如博客应用程序那么创建数据库模式相对简单你必须创建一些表 tblPosts tblAttachments tb
BigQuery中有新数据时触发云功能

我想在新数据导入 BigQuery 表时触发 Cloud Function 理想情况下我想提取已插入的所有行一列是 ISIN 这可能吗如何实现 2022 年 6 月更新第二代 Cloud Functions 支持Eventarc h
Razor _Layout.cshtml 中的嵌入代码

我正在开发一个 MVC3 Razor Web 应用程序它从 java 内容管理系统获取其页面装饰由于此装饰由每个页面共享我已将 CMS 内容的检索放入 Layout cshtml 文件中但我对我实现的代码并不完全满意 The fir
使用 codeigniter 活动记录获取单个字段输出的值

以下函数应该从数据库中读取给定资产代码的名称但它会触发错误尝试获取非对象的属性 function sban name asset this gt db gt select name this gt db gt from asset ty
如何从 Magento 的报价中删除项目？

在结账过程中我有时想以编程方式从会话的报价中删除项目所以我尝试了这段代码 quote Mage getSingleton checkout session gt getQuote all quote items quote gt get
阅读时的 mv()

在 Linux ext3 文件系统上如果在读取文件时对同一个文件文件描述符调用 mv 会发生什么情况这实际上是一道考试题我只能说 CPU 捕获 OS 进行中断处理等等等等如果操作系统人员可以帮助我我将不胜感激 D Linux
使用 join/awk/sed 合并 CSV 文件

您能帮我找到 bash 命令该命令会将以下 cvs 文件 template csv file1 csv file2 csv file3 csv fileX csv 加入合并到 ouput csv 中吗对于 template csv 中

使用 join/awk/sed 合并 CSV 文件

使用 join/awk/sed 合并 CSV 文件 的相关文章

随机推荐

热门标签

使用 join/awk/sed 合并 CSV 文件的相关文章