Ubuntu 终端 - 使用 gnu parallel 读取文件夹中所有文件中的行

2024-02-02

我正在尝试计算 Ubuntu 下一个非常大的文件夹中所有文件的行数。

这些文件是 .gz 文件，我使用

zcat * | wc -l

计算所有文件中的所有行，而且很慢！

我想使用多核计算来完成这项任务并发现this https://www.gnu.org/software/parallel/man.html#EXAMPLE:-Count-the-differences-between-all-files-in-a-dir关于 Gnu 并行，

我尝试使用这个 bash 命令：

parallel zcat * | parallel --pipe wc -l

并且核心并没有全部工作我发现作业启动可能会导致重大开销，并尝试使用批处理

parallel -X zcat * | parallel --pipe -X wc -l

没有改进，

我如何使用所有核心来计算文件夹中所有文件的行数，因为它们都是 .gz 文件，并且需要在计算行数之前解压缩（之后不需要保持它们未压缩）

谢谢！

如果您有 150,000 个文件，您可能会遇到以下问题“参数列表太长”。你可以这样避免这种情况：

find . -name \*gz -maxdepth 1 -print0 | parallel -0 ...

如果您想要行数旁边的名称，则必须echo是你自己，因为你的wc进程只会从其读取stdin并且不知道文件名：

find ... | parallel -0 'echo {} $(zcat {} | wc -l)'

接下来，我们讨论效率，这取决于您的磁盘的功能。也许尝试与parallel -j2 then parallel -j4并查看哪些内容适用于您的系统。

正如 Ole 在评论中指出的那样，您可以避免输出正在计算行数的文件的名称，方法是使用GNU 并行's --tag标记输出行的选项，因此效率更高：

find ... | parallel -0 --tag 'zcat {} | wc -l'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Multithreading

bash

Ubuntu

parallelprocessing

gnuparallel

Ubuntu 终端 - 使用 gnu parallel 读取文件夹中所有文件中的行的相关文章

具有阻塞功能的 Twisted LoopingCall

我有一个应用程序需要轮询数据库以了解可能的配置更改该应用程序是一个使用 Twisted 的简单 xmlrpc 服务器我尝试过使用Twisted的LoopingCall来执行轮询但是由于LoopingCall在主线程上运行所以对db的
BASH：输入期间按 Ctrl+C 会中断当前终端

我的 Bash 版本是 GNU bash version 4 3 11 1 release x86 64 pc linux gnu 我有一段这样的代码 while true do echo n Set password read s pas
用于编译和运行 C++ 的 bash 脚本

我正在尝试进入 C 但必须使用冗长的命令通过命令行运行东西很烦人所以我想制作一个 bash 脚本来简化过程并运行这些命令 bin bash if 1 start then cd CCPP cd HelloWorld g Wall W We
nginx + WordPress：SFTP + 自动更新的适当用户/文件权限？

I used this http wordimpress com aws ec2 rds s3 cloudfront nginx wordpress tutorial roundup 在 Ubuntu VPS 上安装 nginx 和 Wor
使用 sed 查找并替换包含非转义字符的变量

我可以使用它来查找 fly 的所有实例并将其替换为文件中的 insect sed i s fly insect g animals txt 如何找到 BASH 变量并将其替换为另一个 BASH 变量例如 name echo fly ca
如何并行执行4个shell脚本，我不能使用GNU并行？

我有4个shell脚本dog sh bird sh cow sh和fox sh 每个文件使用 xargs 并行执行 4 个 wget 来派生一个单独的进程现在我希望这些脚本本身能够并行执行由于某些我不知道的可移植性原因我无法使用 GN
原始类型是易失性的还是同步的？

在 Java 中如果变量的大小小于或等于 32 位则赋值是原子的但如果变量的大小大于 32 位则赋值不是原子的在双重或长分配的情况下使用什么易失性同步会更有效 Like volatile double x y 同步不适用于
非阻塞方法中的饥饿

一段时间以来我一直在阅读有关非阻塞方法的内容这是一段所谓的无锁计数器的代码 public class CasCounter private SimulatedCAS value public int getValue return va
来自守护程序的错误响应：加入会话密钥环：创建会话密钥：超出磁盘配额

我尝试在我的服务器上安装 docker 使用本教程 https docs docker com install linux docker ce ubuntu 我想远程运行 docker 镜像并使用 portainer Web 界面来管理一切
Python 3.4.3 subprocess.Popen 在没有管道的情况下获取命令的输出？

我试图将命令的输出分配给变量而不让命令认为它正在通过管道传输原因是如果正在通过管道传输则相关命令会给出未格式化的文本作为输出但如果从终端运行则会给出颜色格式化的文本我需要获取这种颜色格式的文本到目前为止我已经尝试了一些事情
检查 bash 中是否存在关联数组元素

在 bash 脚本中我在变量中有一个区域设置如下所示 locale fr ma 我也有一个像这样的关联数组 declare A new loc map new loc fr ma en ma new loc el gr en gr ne
在调用堆栈中看到大量 clr!CLR Semaphore::Wait

我们看到很多像下面这样的调用堆栈我可以知道什么条件情况会发生这种情况吗 OS Thread Id 0x48654 559 Current frame ntdll NtWaitForSingleObject 0xa Child SP Re
在 Java 中并行处理两个任务

我想在一个方法中调用8个方法这8个方法中的2个方法是一个洞任务其余6个方法是另一个洞任务我想同时并行处理这两个任务据我所知我可以用线程来做到这一点但说实话要么我看不到与我的目标相似的示例要么即使我看到了我也无法理解该示例您
如何使用 docker ENTRYPOINT 与 shell 脚本文件组合参数

我编写 shell 脚本文件并将其与 docker ENTRYPOINT 一起使用但是当我运行 docker image 时由于入口点代码行它只是停止而没有任何错误日志我的 Dockerfile FROM ubuntu 16 04
在Spring中使用什么样的“EventBus”？内置、Reactor、Akka？

我们将在几周后启动一个新的 Spring 4 应用程序我们希望使用一些事件驱动的架构今年我到处读到有关 Reactor 的内容在网上查找时我偶然发现了 Akka 所以现在我们有3个选择春天的ApplicationEvent ht
通过 bash 命令设置 gitlab-ci.yml 变量

variables CUSTOM NODE VERSION cat nvmrc 我想要变量CUSTOM NODE VERSION通过内容填充 nvmrc文件位于项目根目录中如何在gitlab ci yml file 上面的例子不起作用
如何使从 C# 调用的 C（P/invoke）代码“线程安全”

我有一些简单的 C 代码它使用单个全局变量显然这不是线程安全的所以当我使用 P invoke 从 C 中的多个线程调用它时事情就搞砸了如何为每个线程单独导入此函数或使其线程安全我尝试声明变量 declspec thread 但
比较两个文件的单列

我有两个文件每个文件都有两列并用空格分隔我想找到两个文件中第 2 列不相同的行并将它们输出到第三个文件 file A 1 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 2 BBBBBBBBBBBBBBBBBBBBBB
shell中如何分割字符串

我有一个变量作为 string ABC400p2q4 我怎样才能分开ABC400 and p2q4 我需要将它分成两个变量结果我得到 echo var1 ABC400 echo var2 p2q4 可以用任何字母字符代替 ABC 可以用任
如何制作 Bash 脚本来查找项目中未使用的图像？

如何制作一个 Bash shell 脚本它可以识别所有 jpg gif 和 png 文件然后识别文件夹中任何文本文件中哪些文件未通过 url href 或 src 链接这就是我开始的但我最终得到了与我想要的相反的结果我不想知道引用

随机推荐

context="module" 在 Svelte 和 Sapper 中如何工作？

当我使用 Sapper 构建项目时每当我从服务器获取数据时预加载函数都会在 script context module 内部声明如下所示根据document
可以在cmd中启动多线程命令吗？

我有大约 290 个文件需要在短时间内优化当我做optipng png大约需要10分钟才能完成交易然而当我这样做时optipng a png and optipng m png在两个单独的命令行中它可以在 5 分钟内完成工作现在有没
如何以编程方式使 iOS 文本标签居中对齐？

我想设置文本标签的对齐方式该怎么做我认为这些答案对您有帮助正确的方法是 yourLabelName textAlignment NSTextAlignmentCenter 有关更多文档您可以阅读以下内容 https develope
如何从另一个 xml 模式扩展一个 xml 模式？

我有一个类似于下面的 xml 文档 resources xml 以及相应的 xml 架构 resources xsd 该 xml 文档是手动维护的即添加删除编辑资源元素总共可能有 500 1000 个资源元素每个资源可以是vari
INI 文件 - 通过 VBS 中的键名检索节名

我想从 INI 文件中检索仅具有唯一键名称的部分名称我的ini文件 Area 104 Title Central North America Local Scenery NAMC Layer 104 Active TRUE Require
Modbus 无法从 epever Tracer 1210a 读取数据到树莓派

我想为tracer制作一个监控程序我使用 RS485 USB 转换器将 epever Tracer1210a 连接到树莓派 3 型号 B from pymodbus client sync import ModbusSerialClien
如何为后备字体设置不同的字体粗细？

我在网站上使用的自定义字体遇到了问题所以我对文本使用以下 CSS font family Open Sans Helvetica Arial font weight 600 由于网站是用我的母语构建的我必须使用 UTF 8 符号这似乎
仅在 GUI 模式下运行某些 Emacs init 命令

有没有办法仅当我处于 GUI 模式而不是终端模式时运行某些命令来自 init el 我想在运行 GUI 版本时设置某种颜色方案但该方案严重破坏了终端窗口的颜色我正在寻找一些变量函数它看起来像这样 if gui mode color
何时在客户端和通用 GWT 代码中使用断言

StackOverflow 上有几个问题讨论何时应该使用断言语句而不是抛出异常例子here https stackoverflow com questions 4333371 when to use assert and when to
如何取消 WPF TabControl 中的选项卡更改

我在 SO 上发现了有关此问题的多个问题但是我仍然无法完全获得可靠的解决方案这是我在阅读答案后得出的结论 Xaml
有没有一个好的基于浏览器的沙箱来练习正则表达式？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
显示 QTreeView 的（可见）行数

I found 这个问题 https stackoverflow com q 41634176 595305 and 这个问题 https stackoverflow com q 15817429 595305 我也在其他地方搜索过情况是
如何测试 nuxt.js asyncData 和 fetch 挂钩

我一直在尝试测试使用 nuxt 的文件 asyncData 和 fetch hooks 测试 vue js 正常生命周期没有问题但我注意到 vue test utils 没有给出有关如何测试 nuxt 的明确说明钩子登录 vue asy
使用 Spark Streaming 更新基于 Kafka Stream 的静态源？

我正在使用带有 java8 的 Spark sql 2 4 1v 我有一个场景 dataset1 中有一些元数据即从 HDFS Parquet 文件加载我还有另一个从 Kafka Stream 读取的 dataset2 For each
通过固定第一个元素对列表进行自定义排序

我有一个清单 25 35 54 70 68 158 78 11 18 12 我想通过修复第一个元素来排序这个列表即如果我修复 35 排序列表应该看起来像 35 54 68 70 78 158 11 12 18 25 如果我将 158 固
使用标签的 cypher 2.0 查询不返回任何节点[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案在neo4j浏览器中当我单击节点标签下的时会返回所有标签类型的节点当我单击任何节点时我可以看到标签名称出现在顶部但
安卓 |停止 TabLayout 重新加载/刷新我的片段

我有一个类似的选项卡布局有 4 个选项卡当我从tab 0 to tab 2然后我回到tab 0 Fragment0 已重新加载当我从一个选项卡转到另一个离开选项卡时出现同样的问题我只会第一次加载片段并重新使用它们而不需要重新
YUI 编辑器 (RTE)：插入 HTML 元素并将光标置于其中

我有个问题我已经尝试解决这个问题有一段时间了我已经准备好爆发了这是我的要求我在编辑器上方有一个外部工具栏不是 YUI 的一部分我想用它来插入 HTML 标签用户应该能够单击工具栏上的链接之后可能会发生一些事情如果有任何选定
在 highcharts 水平条形图中显示所有标签

我想在高图表上显示所有标签你可以看到http jsfiddle net valrecx fj6d2 3021 http jsfiddle net valrecx fj6d2 3021 月份不完整代码仅显示一月四月七月等我想显示所有
Ubuntu 终端 - 使用 gnu parallel 读取文件夹中所有文件中的行

我正在尝试计算 Ubuntu 下一个非常大的文件夹中所有文件的行数这些文件是 gz 文件我使用 zcat wc l 计算所有文件中的所有行而且很慢我想使用多核计算来完成这项任务并发现this https www gnu org so

Ubuntu 终端 - 使用 gnu parallel 读取文件夹中所有文件中的行

Ubuntu 终端 - 使用 gnu parallel 读取文件夹中所有文件中的行 的相关文章

随机推荐

热门标签

Ubuntu 终端 - 使用 gnu parallel 读取文件夹中所有文件中的行的相关文章