通过特定分隔符删除字符串

2024-05-17

我的文件中有几列，其中第二列有“：”分隔符，我想删除第二列中的第一个、第三个和第四个字符串，并将第二个字符串留在该列中。但我有正常的分隔符空间，所以我不知道。

input:

--- 22:16050075:A:G 16050075 A G
--- 22:16050115:G:A 16050115 G A
--- 22:16050213:C:T 16050213 C T
--- 22:16050319:C:T 16050319 C T
--- 22:16050527:C:A 16050527 C A

desired output:

--- 22 16050075 16050075 A G
--- 22 16050115 16050115 G A
--- 22 16050213 16050213 C T
--- 22 16050319 16050319 C T
--- 22 16050527 16050527 C A

Wrong:
cat df.txt | awk -F: '{print $1, $3, $6, $7, $8}'

--- 22 A
--- 22 G
--- 22 C
--- 22 C
--- 22 C

但我做不到。 awk和sed命令可以做到吗？

谢谢。

只需使用POSIX兼容的split()功能于$2 as

awk '{split($2,temp,":"); $2=temp[2];}1' file
--- 16050075 16050075 A G
--- 16050115 16050115 G A
--- 16050213 16050213 C T
--- 16050319 16050319 C T
--- 16050527 16050527 C A

在分隔符上拆分第 2 列:，更新$2所需元素的值（temp[2]）并打印其余字段（{}1基于重建所有单独的字段FS并打印出来）。

推荐使用多个分隔符，因为它会改变各个字段的绝对位置，而split()可以轻松保留位置并提取所需的值。

对于添加新列的更新要求，只需执行

awk '{split($2,temp,":"); $2=temp[1] FS temp[2];}1' file
--- 22 16050075 16050075 A G
--- 22 16050115 16050115 G A
--- 22 16050213 16050213 C T
--- 22 16050319 16050319 C T
--- 22 16050527 16050527 C A

或者如果你有GNU awk/gawk你可以使用它的gensub()对于正则表达式（使用POSIX字符类[[:digit]]) 基于提取为

awk '{$2=gensub(/^([[:digit:]]+):([[:digit:]]+).*$/,"\\1 \\2","g",$2);}1' file
--- 22 16050075 16050075 A G
--- 22 16050115 16050115 G A
--- 22 16050213 16050213 C T
--- 22 16050319 16050319 C T
--- 22 16050527 16050527 C A

The gensub(/^([[:digit:]]+):([[:digit:]]+).*$/,"\\1 \\2","g",$2)部分仅捕获由以下分隔的前两个字段:与捕获组\\1 and \\2并按原样打印其余字段。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

bash

awk

sed

通过特定分隔符删除字符串的相关文章

Ruby：在 Ubuntu 上安装 rmagick

我正在尝试在 Ubuntu 10 04 上安装 RMagick 看起来here https stackoverflow com questions 1482823 is there an easy way to install rmagic
链接错误：命令行中缺少 DSO

我对 Linux 使用 Ubuntu 14 04 LTS 64 位相当陌生来自 Windows 并且正在尝试移植我现有的 CUDA 项目当通过链接时 usr local cuda bin nvcc arch compute 30 co
如何在 Linux 和 C 中使用文件作为互斥体？

我有不同的进程同时访问 Linux 中的命名管道并且我想让此访问互斥我知道可以使用放置在共享内存区域中的互斥体来实现这一点但作为一种家庭作业我有一些限制于是我想到的是对文件使用锁定原语来实现互斥我做了一些尝试但无法使其发挥作
在 x86 汇编语言中获取文件大小的简单方法

假设我已经在汇编中打开了一个文件并且在寄存器 eax 中有该文件的文件句柄我将如何获取文件的大小以便为其分配足够的缓冲区空间我在这里研究了另一个讨论建议使用sys fstat 28 系统调用来获取文件统计信息但无法实现它 My a
正则表达式删除块注释也删除 * 选择器

我正在尝试使用 bash 从 css 文件中删除所有块注释我有以下 sed 命令的正则表达式 sed r s w s w d 这可以很好地去除块注释例如 This is a comment this is another comment
来自守护程序的错误响应：加入会话密钥环：创建会话密钥：超出磁盘配额

我尝试在我的服务器上安装 docker 使用本教程 https docs docker com install linux docker ce ubuntu 我想远程运行 docker 镜像并使用 portainer Web 界面来管理一切
Python 3.4.3 subprocess.Popen 在没有管道的情况下获取命令的输出？

我试图将命令的输出分配给变量而不让命令认为它正在通过管道传输原因是如果正在通过管道传输则相关命令会给出未格式化的文本作为输出但如果从终端运行则会给出颜色格式化的文本我需要获取这种颜色格式的文本到目前为止我已经尝试了一些事情
使用 shell=True 将 PATH 设置为 bitbake 的“source”在 Python 中没有效果

下面是shell脚本中的代码 source proj common tools repo etc profile d repo sh repo project init branch repo project sync source pok
为什么 fork 炸弹没有使 android 崩溃？

这是最简单的叉子炸弹我在许多 Linux 发行版上执行了它但它们都崩溃了但是当我在 android 终端中执行此操作时即使授予后也没有效果超级用户权限有什么解释为什么它没有使 Android 系统崩溃吗一句话 ulimit Li
如何才能将 TCP 连接返回到同一端口？

机器是 RHEL 5 3 内核 2 6 18 有时我在 netstat 中注意到我的应用程序有连接建立了 TCP 连接本地地址 and 国外地址是一样的其他人也报告了同样的问题症状与链接中描述的相同客户端连接到本地运行的服务器的端口
grep 排除文件的数组参数

我想从我的文件中排除一些文件grep命令为此我使用参数 exclude excluded file ext 为了更容易阅读我想使用包含排除文件的 bash 数组 EXCLUDED FILES excluded file ext 然后将
vmsplice() 和 TCP

在原来的vmsplice 执行有人建议 http lwn net Articles 181169 如果您的用户态缓冲区是管道中可容纳的最大页面数的 2 倍则缓冲区后半部分成功的 vmsplice 将保证内核使用缓冲区的前半部分完成但事
Slurm：提交到多个节点时出错（“slurmstepd：错误：execve（）：python：没有这样的文件或目录”）

我有一个 bash 脚本submit sh用于向 Slurm 服务器提交训练作业其工作原理如下正在做 bash submit sh p1 8 config file 将提交一些对应的任务config file至 8 个 GPU 分区p1
批量删除文件名中包含 BASH 中特殊字符的子字符串

我的目录中有一个文件列表 opencv calib3d so2410 so opencv contrib so2410 so opencv core so2410 so opencv features2d so2410 so opencv
在内核代码中查找函数的最佳方法[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我开始浏览内核代码遇到的一件事是如何跟踪函数调用结构定义等有没有一种好的方法可以快速跳转到函数定义并退出我尝试过 Source N
为什么 Linux 原始套接字的 RX 环大小限制为 4GB？

背景我试图mmap 我的原始套接字的 RX 环形缓冲区64 bitLinux 应用程序我的环由 4096 个块组成每个块大小为 1MB 总共 4GB 请注意每个 1MB 块中可以有许多帧如果您好奇请参阅此文档了解背景信息 htt
以不敏感的方式在 bash 中查找路径

假设一条路径像 home albfan Projects InSaNEWEBproJECT 尽管事实上不使用这样的名称有没有办法以不敏感的方式检查路径我遇到了这个解决方案但如果可能的话我想找到一个内置或 gnu 程序 functio
如何制作 Bash 脚本来查找项目中未使用的图像？

如何制作一个 Bash shell 脚本它可以识别所有 jpg gif 和 png 文件然后识别文件夹中任何文本文件中哪些文件未通过 url href 或 src 链接这就是我开始的但我最终得到了与我想要的相反的结果我不想知道引用
相当于Linux中的导入库

在 Windows C 中当您想要链接 DLL 时您必须提供导入库但是在 GNU 构建系统中当您想要链接 so 文件相当于 dll 时您就不需要链接为什么是这样是否有等效的 Windows 导入库注意我不会谈论在 Win
FileOutputStream.close() 中的设备 ioctl 不合适

我有一些代码可以使用以下命令将一些首选项保存到文件中FileOutputStream 这是我已经写了一千遍的标准代码 FileOutputStream out new FileOutputStream file try BufferedOu

随机推荐

动态突出显示时向
添加项目符号点？

Update 例子 p Text Text p 在示例中是否可以选择第二个文本单词 p 元素并单击按钮仅动态添加项目符号点到选定的单词有没有可能在一个 p p Text p 突出显示从 p 元素并添加项目符号点到按钮上动态单击的
从子目录文件夹中删除尾部斜杠 Apache 1.3.42 DirectorySlash Off .htaccess

我正在尝试从 Apache 1 3 42 中的子目录文件夹中删除尾部斜杠但是命令DirectorySlash Off当我尝试将规则添加到我的 Apache 版本时不支持 htaccess file 目前我的链接行为如下 www exam
检测到的包版本超出依赖性约束：Microsoft.AspNetCore.App 2.1.1

我正在尝试使用以下命令在我的 API 中安装一些软件包 Install Package Microsoft EntityFrameworkCore SqlServer 它抛出一个错误如下所示 NU1608 Detected package
如何在EditText中显示格式化文本？

现在我正在编写简单的笔记应用程序我需要在 EditText 中显示格式化的单独选定文本 I tried EditText et EditText findViewById R id edittext String string int s
如何在 Bitbucket-Pipelines 中保存工件

我是竹子新手我尝试做的就是收集所有 dacpac在构建过程中创建的文件 image microsoft dotnet latest pipelines default step script Modify the commands bel
org.hibernate.MappingException：实体映射中序列的增量大小设置为 [10]，而 ... 大小为 [1]

更新到 Spring Boot 2 2 和相关的 Hibernate 5 4 x 时我们遇到了问题我们确实有以下序列生成器 Id GeneratedValue strategy GenerationType SEQUENCE genera
WKWebView 未打开自定义 URL 方案（js 在新窗口中打开自定义方案链接）

我有一个WKWebView在我的应用程序中我不使用UIWeb视图因为由于某种奇怪的原因它无法正确打开包含大量 JS 代码的网页当我点击链接时自定义 url 方案 scm 它确实nothing My code void viewDid
异步回调在哪个线程上运行？

我正在做几个HttpWebRequest BeginGetResponse调用并在回调方法中BeginGetResponse 我正在调用一个事件处理程序在EventHandler中有测试下载是否成功的逻辑如果没有它会尝试重新下载
使用 www 和裸域来指向我的 heroku 应用程序

我无法将 www domain org 和 domain org 设置为指向 Heroku Rails 应用程序我做了从 www 到 www example org herokudns com 的 CNAME 它工作正常我的 www e
从 NavigationController 中删除 ViewController 后 AVPlayer 继续播放

因此我在项目中使用 ARC 当我添加 AVPlayerLayer 时它工作得很好但当我从 UINavigationItem 中弹出 UIViewController 时视频继续在后台播放有谁知道你会如何处理这个问题这似乎是一件很
使用 ggplot 构面时增加闪亮的绘图大小

有没有办法增加绘图窗口的大小shiny取决于在一个中使用的面的数量ggplot图也许使用垂直滚动例如使用下面的示例当输入为 A 有三个方面情节看起来不错当选项 B 选择绘图数量会增加但绘图窗口保持相同大小导致绘图太小是否有
带有 CUDA 的 Tensorflow：导入错误

我已经按照 NVIDIA 教程中的说明一步步安装了 TensorFlow Ubuntu 16 04 桌面版 GTX 970 http www nvidia com object gpu accelerated applications te
Git：发送电子邮件而不提交

我有一个项目我做了更改并想使用 git send email 功能将它们发送给另一个用户我发现它可以通过发送补丁来工作由git format patch每次提交是否可以只发送diff的我不想先提交然后发送补丁是否有gitfo
HTML5 视频：使用 Blob URL 流式传输视频

我有一个 Blob 数组实际上是二进制数据我可以表达它但是效率最高我现在正在使用 Blob 但也许Uint8Array或者有什么会更好每个 Blob 包含 1 秒的音频视频数据每秒都会生成一个新的 Blob 并将其附加到我的数
在 C# 中选择动态创建的列表框项目

我动态创建了一个Listbox并用一些项目填充它在输入一个点后Textbox我想展示Listbox以便用户可以使用箭头键选择任何项目到目前为止我已经做了所有事情当用户在其中输入一个点时Textbox The Listbox显示但方向
获取 System.Drawing.Font 宽度？

我正在使用 Net 工具进行一些 2D 绘图 System Drawing Font uses a GetHeight 返回以像素为单位的高度我缺少一个GetWidth 检索宽度我应该用什么 Use Graphics MeasureSt
如何在MAMP中设置环境变量？

如何在 MAMP 版本 3 3 中设置环境变量我可以在我的 PHP 应用程序中使用它我已经更新了 Applications MAMP Library bin envvars and envvars std file并添加以下行 Lice
找不到模块“Yesod”

我有以下代码 LANGUAGE TypeFamilies QuasiQuotes MultiParamTypeClasses TemplateHaskell OverloadedStrings module Simple where imp
汇总表中各列的字符值比例

在这种数据框中 df lt data frame w1 c A A B C A w2 c C A A C C w3 c C A B C B 我需要计算所有列中字符值的列内比例有趣的是以下代码适用于大型实际数据集但对上述玩具数据会引发错
通过特定分隔符删除字符串

我的文件中有几列其中第二列有分隔符我想删除第二列中的第一个第三个和第四个字符串并将第二个字符串留在该列中但我有正常的分隔符空间所以我不知道 input 22 16050075 A G 16050075 A G 22 16050

通过特定分隔符删除字符串

通过特定分隔符删除字符串 的相关文章

随机推荐

热门标签

通过特定分隔符删除字符串的相关文章