使用 awk 解析 csv 并忽略字段内的逗号

2023-12-31

我有一个 csv 文件，其中每一行定义给定建筑物中的一个房间。除了房间之外，每行都有一个地板区域。我想要提取的是所有建筑物的所有楼层。

我的文件看起来像这样...

"u_floor","u_room","name"
0,"00BDF","AIRPORT TEST            "
0,0,"BRICKER HALL, JOHN W    "
0,3,"BRICKER HALL, JOHN W    "
0,5,"BRICKER HALL, JOHN W    "
0,6,"BRICKER HALL, JOHN W    "
0,7,"BRICKER HALL, JOHN W    "
0,8,"BRICKER HALL, JOHN W    "
0,9,"BRICKER HALL, JOHN W    "
0,19,"BRICKER HALL, JOHN W    "
0,20,"BRICKER HALL, JOHN W    "
0,21,"BRICKER HALL, JOHN W    "
0,25,"BRICKER HALL, JOHN W    "
0,27,"BRICKER HALL, JOHN W    "
0,29,"BRICKER HALL, JOHN W    "
0,35,"BRICKER HALL, JOHN W    "
0,45,"BRICKER HALL, JOHN W    "
0,59,"BRICKER HALL, JOHN W    "
0,60,"BRICKER HALL, JOHN W    "
0,61,"BRICKER HALL, JOHN W    "
0,63,"BRICKER HALL, JOHN W    "
0,"0006M","BRICKER HALL, JOHN W    "
0,"0008A","BRICKER HALL, JOHN W    "
0,"0008B","BRICKER HALL, JOHN W    "
0,"0008C","BRICKER HALL, JOHN W    "
0,"0008D","BRICKER HALL, JOHN W    "
0,"0008E","BRICKER HALL, JOHN W    "
0,"0008F","BRICKER HALL, JOHN W    "
0,"0008G","BRICKER HALL, JOHN W    "
0,"0008H","BRICKER HALL, JOHN W    "

我想要的是所有建筑物的所有楼层。

我正在使用 cat、awk、sort 和 uniq 来获取此列表，尽管我在建筑物名称字段中遇到“，”问题，例如“BRICKER HALL，JOHN W”，并且它导致我的整个 csv 生成失败。

cat Buildings.csv | awk -F, '{print $1","$2}' | sort | uniq > Floors.csv

如何让 awk 使用逗号但忽略字段 "" 之间的逗号？或者，有人有更好的解决方案吗？

根据提供的答案建议使用 awk csv 解析器，我能够得到解决方案：

cat Buildings.csv | awk -f csv.awk | awk -F" -> 2|"  '{print $2}' | awk -F"|" '{print $2","$3}' | sort | uniq > floors.csv

在那里我们想要使用csv awk http://lorance.freeshell.org/csv/程序，然后从那里我想使用“ -> 2|”这是基于 csv awk 程序的格式化。那里的 print $2 仅打印 csv 解析的内容，这是因为程序打印原始行，后跟“ -> #”，其中 # 是从 csv 解析的计数。（即列。）从那里我可以将这个 awk csv 结果拆分为“|” whcih 是它替换逗号的内容。然后排序、uniq 并通过管道输出到文件就完成了！

谢谢您的帮助。

gawk -vFPAT='[^,]*|"[^"]*"' '{print $1 "," $3}' | sort | uniq

这是一个很棒的 GNU Awk 4 扩展，您可以在其中定义字段模式而不是字段分隔符模式。对 CSV 有奇效。（docs http://www.gnu.org/software/gawk/manual/html_node/Splitting-By-Content.html)

预计到达时间（感谢米奇斯）：要删除周围的引号，gsub("^\"|\"$","",$3);如果有更多字段$3要以这种方式处理，只需循环它们即可。
请注意，这种简单的方法不能容忍格式错误的输入，也不能容忍引号之间的某些可能的特殊字符 - 覆盖所有这些将超出整洁的单行代码的范围。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

csv

awk

使用 awk 解析 csv 并忽略字段内的逗号的相关文章

从 tsv 文件 python 中提取数据

我有一个 TSV 文件如下所示 A B C D D 1 E 2 S D F G H 2 B 4 我想以这种方式将内容写入另一个 tsv 文件 A B C D D 1 A B C D E 2 S D F G H 2 S D F G B 4
导出 CSV 文件时出现编码问题

我正在使用 Asp net mvc 生成 CSV 文件但在处理葡萄牙语中的特殊字符时遇到问题我使用以下代码返回文件 public FileContentResult RelMatriculas RelRematriculaVM mode
使用 SED 将单词的第一个字母大写

如何将单词的第一个字母替换为大写字母例如 Trouble me Gold rush brides into Trouble Me Gold Rush Brides 这一行应该做到这一点 sed e s b u 1 g
如何使用 SQLPLUS 假脱机到 CSV 格式的文件？

我想将一些查询提取为 CSV 输出格式不幸的是我无法使用任何奇特的 SQL 客户端或任何语言来做到这一点我必须使用SQLPLUS 我该怎么做您还可以使用以下内容尽管它确实在字段之间引入了空格 set colsep separate
在 bash 中将 kB 和 GB 转换为 MB

我使用 awk 和 sed 来获取表中的分区列表及其大小我想用它来计算各个表的每日增量这是我的输出现在我正在努力将所有大小转换为 MB 匹配第二个字段中的数字并根据 MB 或 GB 字符串相乘的最佳 bash 方法是什么 201706
循环访问多个 CSV 文件并生成多个输出

我正在编写一些 python 脚本它打开 csv 文件定义数据帧运行一些分析例如聚合数据拆分列查找平均值等并将分析的输出绘制在图表上输出将是一个图形 png 文件和一个 csv 文件并在原始文件名末尾添加单词 ANALY
OpenCV 机器学习算法的 CSV 格式

OpenCV 中的机器学习算法似乎使用以 CSV 格式读取的数据参见示例这个 cpp文件 https code ros org trac opencv browser trunk opencv samples c tree engine
如何从 Unix 文件中删除空行

我需要从输入文件中删除所有空白行并写入输出文件这是我的数据如下 11216 33 1032747 64310 1 0 0 1 878 0 0 0 1 1 1 087 5 1 1 18 JAN 13 000603221321 11216 3
如何使用 PowerShell 将多个文本文件的列合并到一个 csv 文件中？

我有多个测量文件每个文件包含一列数字数据 Update 该脚本应该适用于可变数量的测量文件数据1 dat 1 0 2 0 3 0 数据2 dat 10 0 20 0 30 0 数据N dat 1 1 1 如何使用以下命令将这些数据文件合
如何在 T-SQL 中将 CSV 转换为记录集？

在我的存储过程中我传递一个过滤器使用 WHERE Column IN 子句作为参数参数值以 CSV 形式给出将此 CSV 转换为记录集的最佳方法是什么例子 SELECT FROM Employee WHERE Name IN J
Bash：将字符串添加到文件末尾而不换行

如何将字符串添加到文件末尾而不换行例如如果我使用 gt gt 它将添加到文件末尾并换行 cat list txt yourText1 root host 37 echo yourText2 gt gt list txt root hos
awk 脚本中出现“BEGIN 块必须有操作部分”错误

这是我的代码 bin sh filename usr bin find name INSTANCE log echo filename is filename awk BEGIN print Processing file filename
awk 在循环中使用时不打印任何内容[重复]

这个问题在这里已经有答案了我有一堆使用 file 1 a 1 txt 格式的文件如下所示 A 1 B 2 C 3 D 4 并使用以下命令添加包含每个文件名称的新列 awk print FILENAME NF t 0 file 1 a 1
使用 C# 中的 CsvHelper 将不同文化的 csv 解析为十进制

C 中 CsvHelper 解析小数的问题我创建了一个从 byte 而不是文件获取 csv 文件的类并且它工作正常 public static List
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
AWS Athena csv 元数据分隔符在首次查询使用后发生更改

我想向 athena 查询 s3 csv 文件源 csv 文件描述分隔符 system information val1 val2 val3 val4 val5 在此基础上我在 athena 中创建表 Create external t
将多个 csv 文件连接成具有相同标头的单个 csv

我目前正在使用以下代码导入 6 000 个 csv 文件带标题并将它们导出到单个 csv 文件带单个标题行 import csv files from folder path r data US market merged data
Windows 10 上的 LibPNG 构建问题

我试图在 Windows 10 上构建 libpng 以获取 win32 二进制文件但我认为有一个与 awk 解析带有 CRLF 行结尾的文件相关的问题我尝试使用 dos2unix 命令转换文件但没有成功结果相同在 make 命令
使用 Pandas 从 csv 文件读取标题信息

我有一个包含 14 行标题的数据文件在标头中有经纬度坐标和时间的元数据我目前正在使用 pandas read csv filename delimiter header 14 读取文件但这只是获取数据我似乎无法获取元数据有人知道
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for

随机推荐

由于证书不同，无法将更新的 APK 上传到 Google Play [重复]

这个问题在这里已经有答案了我正在使用 Android Studio 构建我的 Android 项目当我将 APK 上传到 Google Play 时尽管使用了相同的密钥库我将其用于我的应用程序的早期版本上传失败您上传的 APK 使
Google RE2 正则表达式转义句点和下划线错误

我正在尝试验证username具有以下特征的字符串不以a开头 or 不以a结尾不允许两个连续仅小写letter characters and numbers 我的代码是username matches a z0 9 在线使用正则表达
java.time 中是否有类与 Joda-Time Interval 相当？

我正在评估将我的项目从使用中迁移乔达时间 http www joda org joda time to the java time包 http docs oracle com javase 8 docs api java time pack
使用 onbeforeunload 事件，选择停留在此页面时 url 发生变化

重写问题我正在尝试创建一个页面如果用户离开该页面前往其他链接网站或关闭窗口选项卡我想显示onbeforeunload汉德勒说we have a great offer for you 如果用户选择leave the page它应
如何像谷歌Chrome浏览器一样拆分选项菜单

如何像chrome浏览器一样拆分菜单如图所示这是我的实际代码 menu menu
传单自定义控制位置：中心

我们正在连接一个眼动仪来控制传单地图平移缩放等我们希望有一个出现在地图中心的自定义控件用于菜单功能目前传单不支持位置 center 支持左上等想法我知道这是一个老话题但无论如何这是我的解决方法添加一些CSS leafle
Azure 数据工厂和日志分析

我想在 ADF 中对输入数据执行一些验证检查并且任何验证失败都希望捕获到 Azure 日志分析中有人可以指导我如何通过 Azure 数据工厂将自定义日志捕获到日志分析中吗任何示例数据流管道都会非常有帮助谢谢库马尔如果我理解正确
利用字符串向量中的余弦相似度来过滤掉相似的字符串

我有一个字符串向量向量的某些字符串可能超过两个在它们包含的单词方面彼此相似我想过滤掉与向量的任何其他字符串具有超过 30 余弦相似度的字符串在被比较的两个字符串中我希望保留包含更多单词的字符串也就是说我只想要那些与原始向量的
请建议针对表行跨度和列跨度问题的 XSLT 代码
我应该使用 window.variable 还是 var？

我们有很多设置 JS 代码用于定义面板按钮等这些代码将在许多其他 JS 文件中使用通常我们会做这样的事情 grid js var myGrid 组合 js var myCombo 然后在我们的应用程序代码中我们应用程序 js
如何获取 Gradle 项目的所有配置列表？

我正在尝试获取所有有效值的列表 configuration的旗帜依赖洞察 https docs gradle org current userguide tutorial gradle command line html sec depen
如何在没有实体和 JPA 存储库的情况下在 Spring 中运行本机 SQL 查询？

我正在尝试在 Spring 应用程序中运行一些本机 SQL 查询我没有实体或JpaRepository班级我知道这很奇怪但这是一个微服务只是收集两个计数查询并将其发送到 Kafka 相信我我所需要的只是查询中的这两个整数我运行这
使用 JNI 在 C++ 中调用方法？

所以我一直在研究 JNI 调用以便我可以与一些预先编写的 C 程序进行交互我不了解任何 C 但我正在尝试学习一些基础知识我刚刚尝试对 JNI 方法之外的方法进行简单调用但总是收到以下错误错误 c3861 myMethod 找不到标
CORS / xhr.getRequestHeaders

问候我正在尝试使用 CORS http www w3 org TR 2009 WD cors 20090317 access control allow methods header http www w3 org TR 2009 WD
Java regex - 从匹配文本中获取行号

它基于我的上一个问题 https stackoverflow com questions 34758621 java get text from jtextarea by number line 对于我的情况我想从正则表达式模式中获取行数
为什么不重用“ASP.NET_SessionId”？

我是 ASP NET 新手我不明白为什么不重用 ASP NET SessionId 据我了解每次用户从服务器请求页面时 IIS 都会为他创建一个 ASP NET SessionId 并将其放入用户浏览器的 cookie 中我在这里读到
C# 4.0 编译器崩溃

此代码示例 http pastie org 2757961无法编译有什么解决办法吗 using System using System Collections Generic using System Linq using System
如何对mysql数据库中的电子邮件进行加密但仍然能够查询它们？

我想使用加密将用户的电子邮件地址存储在 MySQL 数据库中以确保如果数据库遭到破坏这些地址不会被公开我相信如果我用 mysql 加密它们AES ENCRYPT https dev mysql com doc refman 5 1 e
查看当前页面时预加载第二页

假设我的网站有 5 页内容当访问者查看第一页时是否可以预加载接下来的两页这样当他们单击第二页或第三页的链接时它就会立即出现当然你可以有一些像这样的隐形容器 HTML div a href page2 html Go secon
使用 awk 解析 csv 并忽略字段内的逗号

我有一个 csv 文件其中每一行定义给定建筑物中的一个房间除了房间之外每行都有一个地板区域我想要提取的是所有建筑物的所有楼层我的文件看起来像这样 u floor u room name 0 00BDF AIRPORT TEST 0

使用 awk 解析 csv 并忽略字段内的逗号

使用 awk 解析 csv 并忽略字段内的逗号 的相关文章

随机推荐

热门标签

使用 awk 解析 csv 并忽略字段内的逗号的相关文章