awk：一个文本文件中的词频，如何输出到myFile.txt？

2023-11-29

给定一个 .txt 文件用空格分隔的单词，例如：

But where is Esope the holly Bastard
But where is

And awk 函数 :

cat /pathway/to/your/file.txt | tr ' ' '\n' | sort | uniq -c | awk '{print $2"@"$1}'

我得到了以下输出在我的控制台中：

1 Bastard
1 Esope
1 holly
1 the
2 But
2 is
2 where

如何进入打印到 myFile.txt ？我实际上有 30 万行，近 200 万字。最好将结果输出到文件中。

编辑：使用的答案（@Sudo_O）：

$ awk '{a[$1]++}END{for(k in a)print a[k],k}' RS=" |\n" myfile.txt | sort > myfileout.txt

你的管道效率不是很高，你应该在里面完成整个事情awk反而：

awk '{a[$1]++}END{for(k in a)print a[k],k}' RS=" |\n" file > myfile

如果您希望按排序顺序输出：

awk '{a[$1]++}END{for(k in a)print a[k],k}' RS=" |\n" file | sort > myfile

您的管道给出的实际输出是：

$ tr ' ' '\n' < file | sort | uniq -c | awk '{print $2"@"$1}'
Bastard@1
But@2
Esope@1
holly@1
is@2
the@1
where@2

注意：使用cat这里没用，我们可以重定向输入<. The awkscript 也没有意义，它只是颠倒单词的顺序和单词的频率，并用一个分隔符@。如果我们放弃awk脚本的输出更接近所需的输出（但是请注意前面的间距并且它是未排序的）:

$ tr ' ' '\n' < file | sort | uniq -c 
      1 Bastard
      2 But
      1 Esope
      1 holly
      2 is
      1 the
      2 where

我们可以sort再次删除前导空格sed:

$ tr ' ' '\n' < file | sort | uniq -c | sort | sed 's/^\s*//'
1 Bastard
1 Esope
1 holly
1 the
2 But
2 is
2 where

但就像我一开始提到的让awk处理它：

$ awk '{a[$1]++}END{for(k in a)print a[k],k}' RS=" |\n" file | sort
1 Bastard
1 Esope
1 holly
1 the
2 But
2 is
2 where

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

shell

awk

frequencyanalysis

wordfrequency

awk：一个文本文件中的词频，如何输出到myFile.txt？的相关文章

Linux 上的 Pervasive ODBC 错误 [01000][unixODBC][驱动程序管理器]无法打开 lib '/usr/local/psql/lib/odbcci.so'：找不到文件

我正在尝试让 Pervasive v10 客户端 ODBC 在 Centos 6 上运行据我所知没有 64 位 ODBC 客户端因此我必须使用 32 位客户端我终于成功安装了它但尝试使用时出现以下错误 isql v mydsn 0
如何在linux中以编程方式获取dir的大小？

我想通过 C 程序获取 linux 中特定目录的确切大小我尝试使用 statfs path struct statfs 但它没有给出确切的大小我也尝试过 stat 但它返回任何目录的大小为 4096 请建议我如何获取 dir 的确切大小
如何阻止ubuntu在使用apt安装或更新软件包时弹出“Daemons using outdatedlibraries”？ [关闭]

Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案我最近新安装了 Ubuntu 22 04 LTS 我发现每次使用 apt 安装或更新软件包时它都会询问我有关Which servic
从 ttyUSB0 写入和读取，无法得到响应

我对 Linux tty 不太有经验我的环境是带有丰富 USB 串行的 Raspbian 什么有效 stty F dev ttyUSB0 38400 cu l dev ttyUSB0 s 38400 cu to dev ttyUSB0作品
.net-core：ILDASM / ILASM 的等效项

net core 是否有相当于 ILDASM ILASM 的功能具体来说我正在寻找在 Linux 上运行的东西因此为什么是 net core ildasm 和 ilasm 工具都是使用此存储库中的 CoreCLR 构建的 https
Bash - 在与当前终端分开的另一个终端中启动命令的新实例

我有一个简单的 bash 脚本 test sh 设置如下 bin bash args if args 0 check capture then watch n 1 ls lag home user capture0 watch n 1 ls
配置tomat的server.xml文件并自动生成mod_jk.conf

我在用apache 2 2 15 and tomcat6 6 0 24 on CentOS 6 4并希望使用 tomcat 服务器的功能通过添加以下内容自动生成 mod jk conf 文件
每次重新运行终端时，我都必须输入 export PATH=~/anaconda/bin:"$PATH"

我已经安装了 Anaconda for Mac 但出现了一些问题当我输入命令时which conda or which ipython I get conda not found and ipython not find 然后我找到这个命
在生产服务器上使用 Subversion 使文件生效的最佳方法是什么？

目前我已经设置了 subversion 这样当我在 Eclipse PDT 中进行更改时我可以提交更改它们将保存在 home administrator 中项目文件该文件具有 subversion 推荐的 branches tags
如何在 *nix 中登录时运行脚本？

我知道我曾经知道如何做到这一点但是如何在 unix 中登录时运行脚本 bash 可以 From 维基百科 Bash http en wikipedia org wiki Bash 28Unix shell 29 当 Bash 启动时它
Linux 为一组进程保留一个处理器（动态）

有没有办法将处理器排除在正常调度之外也就是说使用sched setaffinity我可以指示线程应该在哪个处理器上运行但我正在寻找相反的情况也就是说我想从正常调度中排除给定的处理器以便只有已明确调度的进程才能在那里运行我还知道
使用 gdb 调试 Linux 内核模块

我想知道 API 在内核模块中返回什么从几种形式可以知道这并不是那么简单我们需要加载符号表来调试内核模块所以我所做的就是 1 尝试找到内核模块的 text bss和 data段地址 2 在 gdb 中使用 add symbol f
从实时 tcpdump 捕获中提取唯一的 IP

我使用以下命令从实时 tcpdump 捕获中输出 IP sudo tcpdump nn q ip l awk print 3 fflush stdout gt gt ips txt 我得到以下输出 192 168 0 100 50771 1
如何使用 UNIX shell 脚本删除平面文件的页眉和页脚记录？

我有一个平面文件如下所示如何使用 UNIX shell 脚本从文件中删除页眉和页脚并重写同一文件 9 20050427 HEADER RECORD 0000000 00000 000000000 123456 00 654321 DAT
复制目录内容

我想将目录 tmp1 的内容复制到另一个目录 tmp2 tmp1 可能包含文件和其他目录我想使用C C 复制tmp1的内容包括模式如果 tmp1 包含目录树我想递归复制它们最简单的解决方案是什么我找到了一个解决方案来打开目录并读
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
x86-64 AMD 上 CALL 指令的操作数生成

以下是示例程序 objdump 的输出 080483b4
在 macOS 上使用 find 时出现“非法选项”错误

我试图列出末尾仅带有字母 R 的文件我用了find在 macOS 终端中如下所示 find type f name R 但我收到消息说illegal option t 第一个参数find是它应该开始寻找的路径路径表示当前目录 find
ansible unarchive 模块如何查找 tar 二进制文件？

我正在尝试执行一个 ansible 剧本该剧本的任务是利用unarchive模块因为我是在 OSX 上执行此操作所以我需要使用它gnu tar 而不是bsd tar通常与 OSX 一起提供因为BSD tar 不受官方支持 https
测试 bash shell 脚本[重复]

这个问题在这里已经有答案了有人可以解释一下如何测试 bash shell 脚本吗例如我有一个 sh 文件其中包含此代码 bin sh for file in txt do mv file basename file txt doc

随机推荐

隐式参数：如何在函数签名中编码？

继令人惊叹的启发之后question TravisBrown 关于使用 shapeless 枚举 ADT 我留下了以下代码片段 implicitly EnumerableAdt Foo values 我想将其封装在一个方法中这样我就不必
有没有办法在ggplot2中保持对尺寸比例的绝对控制

我想根据特定字段的值指定点的大小但是我希望能够拥有跨越一系列独立生成的图表的大小比例本质上我希望能够说 X 单位的值应该用大小 Y 的点来显示下面是一个例子 library ggplot2 df 1 lt data frame x c
C# 事件，那个 null 是怎么回事？

我真的无法理解在引发事件时这个空测试是什么说我有这个代码 class ballClass public event EventHandler BallInPlay public void onHit if BallInPlay null
如何在 Asp.net Core Web Api 中使用 Newtonsoft.Json 作为默认值？

我是新来的ASP Net Web Api 核心我一直在使用ASP Net MVC在过去的几年里我总是写一个ActionFilter并使用JSON Net for Serializing数据进入JSON 所以通过这种方式我取代了微软的J
修改 android.server.BluetoothService.java 以更新配对设备的缓存 service_channel_no 以打开与其的多个连接（在多个通道上）

我被困在一个地方我的 Android 手机三星 Galaxy 必须打开 2 个或更多到我的 PC 服务器的连接这是一个配对设备为此我在 PC 上使用 UUID 启动 SDP 服务器 00001101 0000 1000 80
NSTextField 和 AutoLayout：自动增长高度 -> 以编程方式

如果我在界面生成器中创建一个标签并通过不适合其当前大小的代码设置一个字符串则标签将垂直增长以适合其大小太棒了除了 x 和 y 约束之外 Xcode 还创建一个包含拥抱和压缩阻力的 NSContentSizeLayoutConstrai
如何访问比赛中的捕获？

我正在尝试解析 csv 文件并且正在尝试访问 Perl6 中的原始正则表达式中的名称正则表达式事实证明是零正确的做法是什么 grammar rsCSV regex TOP s
更新从变量中减去的字段[重复]

这个问题在这里已经有答案了从变量值中减去字段值的正确语法是什么 Example field1 100 variable1 10 我想使用 codeigniter 的活动记录从 field1 中减去变量 1 我当前的代码如下所示 this
Wordpress - 在类别存档中使用 wp_query - 如何显示适当的类别？

我在类别存档中使用 wp query 以便可以使用 meta query 忽略具有某些元值的帖子问题是由于我使用的是wp query 它似乎忽略了当前正在查看的类别并显示所有类别有没有办法检索用户正在查看的类别可能由 url 定义
使用 Javascript 访问通过 Twig 传递的变量

我有一个控制器它将数组传递给树枝模板我想在该页面上编写的脚本中使用该模板我该怎么做呢我在我的 twig 模板中尝试过但只有当它是一个字符串时才有效你可能必须json encode数组试试这个
根据会话状态更改变量内容时出错

我正在尝试编写一个脚本根据会话状态和页面 URL 中的 ID 例如 www example com profile php id 1 更改可验证内容以便它显示一组如果他们未登录并查看其他人的个人资料则为另一内容如果已登录并在自己的个
OCR 中的草书字符分割

我做了一个OCR application for handwritten normal characters 对于我所使用的字符分割histogram profile method 这成功地适用于普通的英文字符我使用水平投影进行线分割使
创建具有来自单独表行的列特征的数据框

我有一个描述性的辅助表其行指定变量的特征其中varCat描述变量类别 rept稍后实施该类别的重复次数以及form他们的数据格式 require dplyr require tidyr require purrr descr lt t
如何通过 JavaScript 在 Calendly 中预填“电话号码”？ “位置”字段不起作用

我在 Calendly 中有一个电话呼叫一对一事件类型我想为其提供自定义的嵌入脚本根据文档我发现location参数字段可用于通过 URL 预填充电话号码但它不适用于这种嵌入代码它不会预填充内联小部件其他所有内容都会进入并
顶部和底部带有双箭头的 Div

我不是 CSS 专家我会很努力地为我的 div 实现以下形状然后我想在中间插入文本我怎样才能获得这个形状下面是我的一些尝试 div class triangle down white style height 400px try d
使用 javascript 从 sharepoint 人员选择器检索电子邮件地址

我正在使用 SharePoint 2007 我在布局文件夹中有一个自定义 aspx 页面其中包含人员选择器 PeopleEditor 控制用户可以输入n控制中的用户数量我想使用 JavaScript 从人员选择器控件中检索用户的电子邮
Hibernate TransientPropertyValueException 保存数据时

我正在尝试使用 hibernate 将数据插入数据库这是我执行该操作的方式 session beginTransaction pojo StuDetails stu new StuDetails stu setFName f name s
本地 HTML 文件无法正确加载到 Dash 应用程序中

我尝试将本地 html 文件嵌入到基本的 Dash 应用程序中我使用了这个代码link并将路径替换为我的本地相对路径破折号应用程序与 html 本地页面位于同一文件夹中 html Iframe src random example ht
在 Python 中对请求应用重试

我有一个 URL 列表我想使用 Python 对其执行 HTTP Get 请求grequests module 某些 URL 不会返回正常状态在这种情况下我想重试该 URL 我可以使用一个队列来做到这一点该队列存储所有尚未尝试过
awk：一个文本文件中的词频，如何输出到myFile.txt？

给定一个 txt 文件用空格分隔的单词例如 But where is Esope the holly Bastard But where is And awk 函数 cat pathway to your file txt tr n so

awk：一个文本文件中的词频，如何输出到myFile.txt？

awk：一个文本文件中的词频，如何输出到myFile.txt？ 的相关文章

随机推荐

热门标签

awk：一个文本文件中的词频，如何输出到myFile.txt？的相关文章