sed one-liner - 查找关键字周围的分隔符对

2024-01-03

我通常使用大型 XML 文件，并且通常通过以下方式进行字数统计：grep确认某些统计数据。

例如，我想确保至少有五个实例widget通过以下方式在单个 xml 文件中：

cat test.xml | grep -ic widget

此外，我只是希望能够记录以下行widget出现在，即：

cat test.xml | grep -i widget > ~/log.txt

然而，我真正需要的关键信息是 XML 代码块widget出现在。示例文件可能如下所示：

<test> blah blah
  blah blah blah
  widget
  blah blah blah
</test>

<formula>
  blah
  <details> 
    widget
  </details>
</formula>

我试图从上面的示例文本中获得以下输出，即：

<test>widget</test>

<formula>widget</formula>

实际上，我正在尝试获取具有最高级别标记标签的单行，这些标记标签适用于围绕任意字符串的 XML 文本/代码块，widget.

有没有人对通过命令行单行实现这一点有任何建议？

谢谢。

使用两者的一种不优雅的方式sed and awk:

sed -ne '/[Ww][Ii][Dd][Gg][Ee][Tt]/,/^<\// {//p}' file.txt | awk 'NR%2==1 { sub(/^[ \t]+/, ""); search = $0 } NR%2==0 { end = $0; sub(/^<\//, "<"); printf "%s%s%s\n", $0, search, end }'

Results:

<test>widget</test>
<formula>widget</formula>

解释：

## The sed pipe:

sed -ne '/[Ww][Ii][Dd][Gg][Ee][Tt]/,/^<\// {//p}'
## This finds the widget pattern, ignoring case, then finds the last, 
## highest level markup tag (these must match the start of the line)
## Ultimately, this prints two lines for each pattern match

## Now the awk pipe:

NR%2==1 { sub(/^[ \t]+/, ""); search = $0 }
## This takes the first line (the widget pattern) and removes leading
## whitespace, saving the pattern in 'search'

NR%2==0 { end = $0; sub(/^<\//, "<"); printf "%s%s%s\n", $0, search, end }
## This finds the next line (which is even), and stores the markup tag in 'end'
## We then remove the slash from this tag and print it, the widget pattern, and
## the saved markup tag

HTH

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

bash

sed

grep

sed one-liner - 查找关键字周围的分隔符对的相关文章

unix 下日期字段排序

我有包含数十万条记录的文本文件其中一个字段是日期字段有没有办法根据日期字段对文件进行排序 09 APR 12 04 08 43 632279000 AM 19 MAR 12 03 53 38 189606000 PM 19 MAR 12
如何从 PHP 输出 XML 字符串

我正在获取一个 XML 字符串并在 PHP 中对其进行编辑以便在访问 PHP 文件时最终输出编辑后的 XML 字符串我一直在尝试使用 echo 和 print 来输出 XML 文档但它只打印最里面标签内的数据我希望它的功能就像直接加
在 Python 中按标题将 docx 拆分为单独的文件

我想编写一个程序来获取我的 docx 文件迭代它们并根据标题将每个文件拆分为多个单独的文件每个 docx 中都有几篇文章每篇文章都有一个标题 1 及其下方的文本因此如果我的原始 file1 docx 有 4 篇文章我希望将其分
Linq to XML - 更新/更改 XML 文档的节点

我有 2 个问题 1 我已经开始使用 Linq to XML 我想知道是否可以通过 Linq 更改 XML 文档我的意思是有没有类似的东西 XDocument xmlDoc XDocument Load sample xml updat
Bash 中所有匹配的^单词^替换^？

为了澄清我正在寻找一种方法来执行global搜索并替换先前使用的命令 word replacement 似乎只替换了第一场比赛有没有一些set我无法选择的选项尝试这个 echo oneone oneone gs one two Rep
将 JSON 导出到环境变量

如果我有这样的 JSON hello1 world1 testk testv 我想将每个键值对导出为环境变量如何通过 shell 脚本来做到这一点例如当我在终端上写时 echo hello1 world1应该打印其他键值对吗注意上
在 Bash Linux 中，如果给定进程运行时间超过指定时间，如何获取通知？

我一切顺利我的程序在大约 N 秒内完成 maybe deadlock 但有时会随机发生死锁导致程序永远挂起为了调试这个我想按照以下方式运行该程序如何调试罕见的死锁 https stackoverflow com questions
JAXB：如何注释类以使它们属于不同的命名空间？

我希望有JAXB 注释的类将是编组解组到不同的 XML 命名空间我需要的是这样的
Slurm：提交到多个节点时出错（“slurmstepd：错误：execve（）：python：没有这样的文件或目录”）

我有一个 bash 脚本submit sh用于向 Slurm 服务器提交训练作业其工作原理如下正在做 bash submit sh p1 8 config file 将提交一些对应的任务config file至 8 个 GPU 分区p1
使用 XSLT 将 XML 转换为 SQL

由于我无法控制的原因我将获得一个 XML 文件和一个 XSLT 文件该文件可以将 XML 文件转换为 SQL 代码或错误现在让我们假设我们可以信任提供 XML 文件的人不会在 XML 中包含危险的构造我什至不知道是否应该使用 Sim
批量删除文件名中包含 BASH 中特殊字符的子字符串

我的目录中有一个文件列表 opencv calib3d so2410 so opencv contrib so2410 so opencv core so2410 so opencv features2d so2410 so opencv
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
执行命令而不将其保留在历史记录中[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案在进行软件开发时经常需要在命令行命令中包含机密信息典型示例是将项目部署到服务器的凭据设置为环境变量当我不想将某些命令存储在命令历史记
比较两个文件的单列

我有两个文件每个文件都有两列并用空格分隔我想找到两个文件中第 2 列不相同的行并将它们输出到第三个文件 file A 1 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 2 BBBBBBBBBBBBBBBBBBBBBB
以不敏感的方式在 bash 中查找路径

假设一条路径像 home albfan Projects InSaNEWEBproJECT 尽管事实上不使用这样的名称有没有办法以不敏感的方式检查路径我遇到了这个解决方案但如果可能的话我想找到一个内置或 gnu 程序 functio
C# xml序列化必填字段

我需要将一些字段标记为需要写入 XML 文件但没有成功我有一个包含约 30 个属性的配置类这就是为什么我不能像这样封装所有属性 public string SomeProp get return someProp set if som
如何制作 Bash 脚本来查找项目中未使用的图像？

如何制作一个 Bash shell 脚本它可以识别所有 jpg gif 和 png 文件然后识别文件夹中任何文本文件中哪些文件未通过 url href 或 src 链接这就是我开始的但我最终得到了与我想要的相反的结果我不想知道引用
将 PHP 短开放标签替换为

我有大量多年来编写的 php 文件我需要将所有短开放标签正确替换为正确的显式开放标签 change

在 byobu 选项卡中启动命令的脚本

我已经使用 screen 来启动服务器进程以便稍后我可以在需要时附加并再次分离以继续执行其他操作它工作得很好但我最近发现了 byobu 我真的很喜欢它我想使用相同类型的脚本来运行服务器但我想将其附加到 byobu 选项卡而不是屏
在 .gitconfig 中隐藏 GitHub 令牌

我想将所有点文件存储在 GitHub 上包括 gitconfig 这需要我将 GitHub 令牌隐藏在 gitconfig 中为此我有一个 gitconfig hidden token 文件这是我打算编辑并放在隐藏令牌的 git 下

随机推荐

不能从静态上下文引用非静态类[重复]

这个问题在这里已经有答案了可能的重复为什么我会收到无法从静态上下文引用的非静态变量 https stackoverflow com questions 10301907 why do i get non static variable
使用 RSpec 测试密码长度验证

我正在编写一些单元测试以确保用户模型的密码长度不能小于 8 个字符我从用户模型开始 class User lt ActiveRecord Base validates password length gt minimum gt 90 t
如何使用 dbml 文件连接 oracle 数据库？

我认为将 Oracle 与 LINQ 结合使用的最佳方法是手动将数据库表映射到 dbml 文件中我对吗当我做到了之后然后呢如何将数据库与 dbml 文件连接除了 MSSQL 之外还有用于数据库的第 3 方 Linq 提供程序 L
将 Git (TortoiseGit) 工具栏添加到 Visual Studio 的解决方案 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有人知道如何在 Visual Studio 2010 中创建工具栏以与 Git TortoiseGit
使用java代码更改animateLayoutChanges属性

我正在开发一个使用布局更改动画的 Android 应用程序我想知道的是有没有人知道如何使用java代码更改 andorid animateLayoutChanges 探测器我目前的价值是 android animateLayoutCh
在函数内调用时使用 png 函数不起作用

我有一个函数可以执行一些操作然后根据条件进行绘图 f lt function n rand lt rnorm n no lt seq len n df lt data frame no no rand rand if n gt 10 pn
类型错误：路径必须是字符串或缓冲区 MEAN 堆栈

我在前端使用 Angular 5 在后端使用 Node 并使用 Mongo 作为数据库现在我试图将图像保存到数据库但不断收到此错误我不知道我是在正面还是背面犯了错误因为这是我第一次处理文件我做了我的研究但它主要指向 Angula
如何覆盖 Apache Flink 中的配置值？

我正在尝试将 Apache Flink 的指标收集到 Prometheus 中 Flink 文档说我需要将以下行添加到我的 flink conf yaml 中 metrics reporter promgateway class org a
如何在 datagridview 中动态创建列并为其及其行分配标题？

我正在使用 datagridview 但没有使用任何数据源我想动态地给它分配值创建我自己选择的列数和行数并命名它们另外我想将图像添加到单元格而不是数据至于更改列文本我们可以使用 grid Columns 0 HeaderText
为什么“std::vector”的大小是 16 字节？

我使用 memcpy 将 std vectors 的内容复制到原始数组对于 int float double 等数据类型它运行良好当我开始复制布尔向量时我遇到了一个问题即我得到了奇怪的值首先我开始为浮点向量进行测试输出 std
EF4：LINQ 2 实体查询在 C# 中有效，但在 VB 中无效

编辑我在下面留下了原始问题并提供了更多上下文和代码来重现问题下面的简短版本包含了问题的本质简短版本下面的查询抛出 System NotSupportedException 无法转换类型 System Linq IOrderedQu
VBA 使用 format() 或 CDate() 将字符串转换为日期时出现问题

如果以前曾问过这个问题请为我指出正确的方向我似乎无法用我的谷歌搜索技能找到任何有用的东西我有以下代码它读取这样的字符串停电开始日期 05 10 11 23 59 EST并提取日期信息即 05 10 11 23 59 sStart
JQuery 类选择器在removeClass后仍然触发

我正在创建一个小型投票机制通过 AJAX 发送快速数据库时间戳一系列带有投票类别的按钮是投票的触发器而下面的文本显示该特定项目有多少投票从单击事件运行 AJAX 方法后我删除了投票类以便该项目中不能有多个投票然而我的
为什么 clang 在 Scons 下不显示颜色输出？

使用 Scons 构建时我可以将其配置为使用 clang 如下所示 env CXX clang 但是它似乎没有保留 clang 输出的颜色信息我怎样才能让 scons 保留颜色根据铿锵文档 http clang llvm org d
使用 g++ 编译 C++ 时，“隐藏构造函数”警告是什么意思？

使用以下代码 include
如何打印 .net 中的文本文件

如何在 vb net 中打印 txt 文件希望不使用任何第三方 See 如何在vb net中打印批处理文件 https stackoverflow com questions 4435644 how to print batch file
Git 中的插入和删除是什么？

当我运行 git 命令时git commit or git log shortstat部分输出如下所示 2 files changed 3 insertions 11 deletions 一个的含义是什么插入 or a deletion 它
Maven 为同一个项目生成两个不同的 WAR 文件

我有一个 Maven Web 服务项目由两个不同的服务类 testClass1 和 testClass2 组成我想要为同一项目的两个类创建两个不同的 WAR 文件目前我正在为这两个服务生成单个 WAR 文件如何为同一个项目生成两个不
用于 Java 的非阻塞 io Web 服务器/框架

有谁知道任何用于java的node js风格的网络服务器框架我意识到在处理 Web 请求时具有非阻塞回调行为需要 Web 服务器级别的深入支持我对 Node js 感兴趣但是当我有一个最终保存数据的 Web 服务器时我想利用 Ja
sed one-liner - 查找关键字周围的分隔符对

我通常使用大型 XML 文件并且通常通过以下方式进行字数统计 grep确认某些统计数据例如我想确保至少有五个实例widget通过以下方式在单个 xml 文件中 cat test xml grep ic widget 此外我只是希望能

sed one-liner - 查找关键字周围的分隔符对

sed one-liner - 查找关键字周围的分隔符对 的相关文章

随机推荐

热门标签

sed one-liner - 查找关键字周围的分隔符对的相关文章