在终端中根据括号或圆括号（仅限顶级）分割文本文件

2024-03-19

我有几个文本文件 (utf-8)，我想在 shell 脚本中处理它们。它们的格式并不完全相同，但如果我只能将它们分解成可食用的块，我就可以处理它。这可以用 C 或 python 编程，但我不喜欢。

编辑：我用 C 编写了一个解决方案；看我自己的答案。我认为这可能是最简单的方法。如果您认为我错了，请根据我下面的答案中更复杂的示例输入来测试您的解决方案。

——jcxz100

为了清楚起见（并且能够更轻松地调试），我希望将块保存为子文件夹中的单独文本文件。

所有类型的输入文件都包含：

垃圾线路
包含垃圾文本的行，后跟开始方括号或圆括号 - 即 '[' '{' '
有效载荷线
带有嵌套在顶级对中的方括号或圆括号的行；也被视为有效负载
带有结束括号或括号的有效负载行 - 即 ']' '}' '>' 或 ')' - 后面可能跟着一些东西（垃圾文本和/或新有效负载的开始）

我想仅根据匹配对来分解输入顶层方括号/圆括号。这些对内的有效负载不得更改（包括换行符和空格）。顶级对之外的所有内容都应作为垃圾丢弃。

必须考虑双引号内的任何垃圾或有效负载atomic（作为原始文本处理，因此内部的任何括号或圆括号也应被视为文本）。

下面是一个示例（仅使用 {} 对）：

junk text
"atomic junk"

some junk text followed by a start bracket { here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
} trailing junk
intermittent junk
{
   payload that goes in second output file    }
end junk

...抱歉：有些输入文件确实如此混乱。

第一个输出文件应该是：

{ here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
}

...和第二个输出文件：

{
   payload that goes in second output file    }

Note:

我还没有完全决定是否有必要keep输出中的一对开始/结束字符，或者它们本身是否应作为垃圾丢弃。我认为保留它们的解决方案是更通用的。
同一输入文件中可以混合使用多种类型的顶级括号/圆括号对。
注意：输入文件中有 * 和 $ 字符，因此请避免混淆 bash ;-)
我更喜欢可读性而不是简洁性；但速度不会呈指数级下降。

必备品：

文本内有反斜杠转义的双引号；最好应该处理它们（我有一个 hack，但它并不漂亮）。
该脚本不应该突破垃圾和/或有效负载中不匹配的方括号/圆括号对（注意：在原子内部，它们must被）允许！）

更远的好东西：

我还没有看到它，但可以推测某些输入可能用单引号而不是双引号来表示原子内容......或者甚至是两者的混合。
如果可以轻松修改脚本以解析类似结构但具有不同开始/结束字符或字符串的输入，那就太好了。

我可以看到这很拗口，但我认为如果我将其分解为更简单的问题，它不会给出一个可靠的解决方案。

主要问题是正确分割输入 - 其他所有内容都可以被忽略或通过黑客“解决”，所以随意忽略锦上添花和更遥远的美好事物.

Given:

$ cat file
junk text
"atomic junk"

some junk text followed by a start bracket { here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
} trailing junk
intermittent junk
{
   payload that goes in second output file    }
end junk

这个 perl 文件会将您描述的块提取到文件中block_1, block_2, etc:

#!/usr/bin/perl
use v5.10;
use warnings;
use strict;

use Text::Balanced qw(extract_multiple extract_bracketed);

my $txt;

while (<>){$txt.=$_;}  # slurp the file

my @blocks = extract_multiple(
    $txt,
    [
        # Extract {...}
        sub { extract_bracketed($_[0], '{}') },
    ],
    # Return all the fields
    undef,
    # Throw out anything which does not match
    1
);
chdir "/tmp";
my $base="block_";
my $cnt=1;
for my $block (@blocks){ my $fn="$base$cnt";
                         say "writing $fn";
                         open (my $fh, '>', $fn) or die "Could not open file '$fn' $!";
                         print $fh "$block\n";
                         close $fh;
                         $cnt++;}

现在的文件：

$ cat block_1
{ here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
}

$ cat block_2
{
   payload that goes in second output file    }

Using Text::Balanced是强大的并且可能是最好的解决方案。

You can用一个 Perl 做这些块regex https://regex101.com/r/3DtI1N/1:

$ perl -0777 -nlE 'while (/(\{(?:(?1)|[^{}]*+)++\})|[^{}\s]++/g) {if ($1) {$cnt++; say "block $cnt:== start:\n$1\n== end";}}' file
block 1:== start:
{ here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
}
== end
block 2:== start:
{
   payload that goes in second output file    }
== end

但这比使用像这样的适当的解析器要脆弱一些Text::Balanced...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

split

terminal

在终端中根据括号或圆括号（仅限顶级）分割文本文件的相关文章

这个 bash 重定向运算符是什么？ “<<！”

我看到了以下 bash 代码 at 19 00 lt
为 bash 脚本输出的每一行添加自脚本启动以来的时间前缀

标题中的主要问题我想为脚本输出的每一行添加自脚本开始以来的时间前缀背景我使用 GNU 并行来运行作业其中一些会产生输出大多数不会我想在每个任务的输出行前面加上自该任务开始以来的时间您可以在顶部添加一行bash像这样的脚本 bi
使用 awk 处理多个文件

我必须使用 awk 处理大量 txt 文件每个文件 1600 万行我必须阅读例如十个文件 File 1 en sample 1 200 en n sample 2 10 en sample 3 10 File 2 en sample 1
如何在 Linux 中隐藏 wget 输出？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我不想在使用时看到任何消息wget 我想抑制它通常在屏幕上产生的所有输出我该怎么做你为什么不使用 q From man wget q
如何在 Linux/Unix 上根据文件类型添加文件扩展名？

这是一个关于 Unix shell 脚本任何 shell 的问题但任何其他标准脚本语言解决方案也将受到赞赏我有一个充满文件的目录其中文件名是这样的哈希值 fd73d0cf8ee68073dce270cf7e770b97 fec8
在 bash 中将 kB 和 GB 转换为 MB

我使用 awk 和 sed 来获取表中的分区列表及其大小我想用它来计算各个表的每日增量这是我的输出现在我正在努力将所有大小转换为 MB 匹配第二个字段中的数字并根据 MB 或 GB 字符串相乘的最佳 bash 方法是什么 201706
相当于 Python 中的 set -o pipelinefail 吗？

我有一些 Python 脚本每个脚本都大量使用排序 uniq ing 计数 gzipping 和gunzipping 以及 awking 第一次运行我使用的代码subprocess call 是的我知道安全风险这就是为什么我说这是第一
带有制表符分隔文本文件的 StreamReader

我对这篇文章有类似的要求使用文本文件在运行时填充 Gridview https stackoverflow com questions 13971165 populate gridview at runtime using textfil
brew install python，但随后：“python-2.7.6 已安装，只是未链接”

免责声明菜鸟操作系统 10 8 5 当我在 bash 中安装 python 时我得到了这个警告和错误 https i stack imgur com TBgBT png Warning Could not link python Un
创建证书以通过 bash 在 Mac OS X 上签署 GDB

我正在尝试通过以下方式在 Mac OS X 上安装 gdblink1 http www patosai com blog post installing gdb on mac os x yosemite and link2 http ntr
sed 将带空格的行插入到特定行

我在开头有一行空格例如 Hello world 我想将此行插入到文件中的特定行例如将 hello world 插入下一个文件 hello world result hello hello world world 我正在使用这个 sed
如何 grep 文件中不区分大小写的字符串？

我有一个文件file1其结尾为Success OR success 我想要grep为了这个词success以一种不区分大小写的方式我写了以下命令但它区分大小写 cat file1 grep success 我怎样才能改变它以便它ret
Bash：检查是否给出了参数（例如是否有参数“-a”？）

我有一个脚本它应该接受 2 个参数 s 和 d 如果未给出 d 参数我想删除我的调试文件与 s 相同如何检查 1 或 2 是否为 s 或 d 舒尔有两个参数我可以做到蛮力 if test 1 d test 2 d then rm
如何为用户启用包括 sudo 在内的系统范围功能？

我想为以下对象创建一个全局别名killprocessatport所以我最后放入 etc bash bashrc fuserfunction fuser KILL k n tcp 1 alias killprocessatport fuser
大括号语法 ${var%.*} 是什么意思？

我正在查看一些旧代码并遇到了以下语法 extractDir downloadFileName tmp 我发现搜索的唯一信息是指命令列表但这只是一个变量这个大括号语法在 bash 中意味着什么在这种背景下它是一个参数替换 http w
bash while 循环的布尔表达式中的 -lt 意味着什么？

我猜测它代表小于基于输出但是我在哪里可以找到有关此语法的文档 bin bash COUNTER 0 while COUNTER lt 10 do echo The counter is COUNTER let COUNTER COUNTE
如何使用 Bash 编写二进制文件？

我的问题是我需要创建一个包含以下确切字节的文件 48 00 49 00 我不能使用C perl 其他脚本语言目标是嵌入式设备我使用 awk 尝试过在桌面上它确实有效 awk BEGIN printf c c c c 48 00 49
使用 sed 查找并替换包含非转义字符的变量

我可以使用它来查找 fly 的所有实例并将其替换为文件中的 insect sed i s fly insect g animals txt 如何找到 BASH 变量并将其替换为另一个 BASH 变量例如 name echo fly ca
unix 下日期字段排序

我有包含数十万条记录的文本文件其中一个字段是日期字段有没有办法根据日期字段对文件进行排序 09 APR 12 04 08 43 632279000 AM 19 MAR 12 03 53 38 189606000 PM 19 MAR 12
正则表达式删除块注释也删除 * 选择器

我正在尝试使用 bash 从 css 文件中删除所有块注释我有以下 sed 命令的正则表达式 sed r s w s w d 这可以很好地去除块注释例如 This is a comment this is another comment

随机推荐

Selenium：指向默认 Chrome 会话

虽然我意识到这不是好的做法我有一个用例我需要将 Selenium 驱动程序指向连接到我的默认 Chrome 会话配置文件我的默认配置文件在这里 Library Caches Google Chrome Default 这是我
在 Swift 中从字符串创建 ZIP 文件

let data InPractiseThisWillBeAReheallyLongString createDir let docsDir FileManager default urls for documentDirectory in
为什么连接到indexedDB时，有时会在onupgradeneeded之前调用onsuccess？

我在使用 IndexedDB 时遇到问题在 Firefox 18 上当我创建新数据库时 onsuccess方法同时被调用有onupgradeneeded 在 Chrome 24 上这是我想要的行为 onsuccess方法仅在之后调用o
android.os.Looper 中的方法 myLooper 未使用协程进行模拟

我想在 JUnit 中对协程进行一些测试但遇到了一些问题代码很简单 Test fun coroutineTest runBlocking Unconfined doesnt work too runBlocking delay 1000
在 Tapestry 5.3 中链接多个选择组件（Ajax 更新）

我正在使用 Tapestry 5 3 7 并且我想使用 Ajax 链接选择表单元素如果我在选择元素中选择一个选项则另一个选择会根据您的第一个选择出现选择另一个元素我尝试了挂毯文档中的示例并针对我的项目进行了调整尽管我的自定义代码非
单元测试错误“未将对象引用设置为对象的实例。”

在我的控制器中我想测试控制器是否正在调用存储库方法这是方法控制器 HttpGet public ActionResult GetModulePropertyName string moduleTypeValue var temp mod
如何根据日历将 JSON 数据分组到杂草中？

我正在做一些 d3JS 编程来生成带有 JSON 数据的图形 test date 1 5 2014 allocated 14 14 unallocated 7 14 date 1 6 2014 allocated 10 38 unalloc
使用 Cordova 3.7 从 iOS 8 上的 www 文件夹加载资源 (file://)

我有一个混合应用程序可以使用 Cordova 3 7 和 jQuery Mobile 1 3 2 在 iOS 7 上完美运行我正在 iOS 8 上测试它但它坏了我使用绝对路径请求应用程序的每个页面视图使用file 协议例如 f
如何在 Windows 上模拟 iPad 浏览器

如何在windows下模拟iPad浏览器我知道用户代理字符串并且我知道浏览器宽度高度屏幕宽度高度我相信如果您模拟 iPad 的用户代理并适当设置窗口大小您就可以使用 Safari Windows 从 apple com 下载
如何在 UML 属性中指定枚举文字作为默认值？

我目前使用 EMF UML Implementation 进行一些模型转换在我的模型转换中我创建了一个具有一些属性的 uml 类这些属性是我也创建的枚举类型某些属性应该获得默认值默认值应该是枚举文字现在的问题是如何将枚举文字获
如何在 jQuery 中将值从一个页面传递到另一个页面

我有两个 jQuery 页面 Page1 和 Page2 并且我能够在 Page1 中获取输入 The somval 1000 第 1 页用户输入某个值我已经存储了该值 var val somval 现在在第二页中我需要获取第1页中so
使用 keycloak 进行 Spring Boot 测试

我正在尝试运行简单的单元测试 Keycloak 以正确的方式配置我测试了它我的 mvc 应用程序正在连接并且用户已通过身份验证但现在我尝试测试我的控制器即使我使用 spring slices keycloak 适配器被调用并给我错
.htaccess 当某些文件不存在时重定向到 404 页面

我使用自己的 MVC 系统已经有一段时间了它运行得很好我在我的 htaccess 中使用它 RewriteEngine On RewriteCond REQUEST FILENAME d RewriteCond REQUEST FILE
在 unix 中操作字符串来创建目录

我想将一个单词作为输入并在 unix shell 中使用该单词的字母创建连续的目录我尝试了 sed awk 和 Fold 命令但没有获得任何有用的结果有什么建议吗例如如果输入是hello 它应该创建h e l l o目录就像一个
防止 tomcat 在部署时启动应用程序

有什么方法可以告诉Tomcat不要自动启动我想要部署的应用程序吗我想手动执行此操作 In CATALINA HOME conf server xml
使用插值时添加换行符

我有一些用于警报消息框的 html 使用插值我可以重复使用相同的 html 来显示多个不同的警报消息它看起来像这样 p myAlertMessage p 现在我想显示一条包含换行符的较长警报消息但是我似乎无法以任何会引入换行符的方式
有没有一种简单的方法可以从 Kotlin 中的对象列表中获取数组？

我希望能得到一个name列表中的数组MSetting 目前我用代码A来做但是太复杂了有没有简单的方法呢 Code A fun getName aList List
如何安全地回显文字字符串“%I”？

我怎样才能回显字符串 I以安全的方式独立于是否echo命令行被放置在for I loop 例如在命令提示符中 cmd gt gt gt rem echo is outside of for scope so this works gt
为什么将模型上传到 HuggingFace 存储库的速度如此之慢？

我有一个问题我正在尝试将模型推送到 HuggingFace 存储库问题是它说上传过去 16 小时而这只是 pytorch model bin 文件大约 850MB 我用的是LFS 我尝试手动将文件添加到存储库这需要很长时间我不愿
在终端中根据括号或圆括号（仅限顶级）分割文本文件

我有几个文本文件 utf 8 我想在 shell 脚本中处理它们它们的格式并不完全相同但如果我只能将它们分解成可食用的块我就可以处理它这可以用 C 或 python 编程但我不喜欢编辑我用 C 编写了一个解决方案看我自己的答

在终端中根据括号或圆括号（仅限顶级）分割文本文件

在终端中根据括号或圆括号（仅限顶级）分割文本文件 的相关文章

随机推荐

热门标签

在终端中根据括号或圆括号（仅限顶级）分割文本文件的相关文章