在 bash 中使用多个核心

2024-01-08

我有一个 Linux 工具，可以（大大简化）剪切 illumnaSeq 文件中指定的序列。我有 32 个锉刀要磨。处理一份文件大约需要 5 小时。我有一台centos服务器，它有128个核心。

我找到了一些解决方案，但每种解决方案的工作方式都仅使用一个核心。最后一个似乎会发射 32 个 nohups，但它仍然会用一个核心对整个系统施加压力。

我的问题是，有人知道如何利用服务器的潜力吗？因为基本上每个文件都可以独立处理，所以它们之间没有关系。

这是脚本的当前版本，我不知道为什么它只使用一个核心。我在堆栈上的建议的帮助下编写了它并在互联网上找到了：

#!/bin/bash
FILES=/home/daw/raw/*
count=0

for f in $FILES
to
  base=${f##*/}
  echo "process $f file..."
  nohup /home/daw/scythe/scythe -a /home/daw/scythe/illumina_adapters.fa -o "OUT$base" $f &
  (( count ++ ))
  if (( count = 31 )); then
        wait
        count=0
  fi
done

我正在解释：FILES 是原始文件夹中的文件列表。

执行nohup的“核心”行：第一个路径是工具的路径，-a路径是要剪切的文件的路径，out保存与处理后的文件名相同的+开头的OUT。最后一个参数是要处理的输入文件。

这里自述工具：https://github.com/vsbuffalo/scythe https://github.com/vsbuffalo/scythe

有人知道你该如何处理吗？

附：我也尝试在计数之前移动nohup，但它仍然使用一个核心。我对服务器没有限制。

恕我直言，最有可能的解决方案是GNU 并行，所以你可以并行运行 64 个作业，如下所示：

parallel -j 64 /home/daw/scythe/scythe -a /home/daw/scythe/illumina_adapters.fa -o OUT{.} {} ::: /home/daw/raw/*

这样做的好处是作业不会进行批处理，它会始终保持 64 个作业在运行，并在每个作业完成时启动一个新作业，这比在开始最后一个作业之前等待 4.9 小时让所有 32 个作业完成要好。又过了5个小时。注意，我这里随意选了64个职位，如果不特别说明的话，GNU 并行将为您拥有的每个 CPU 核心运行 1 个作业。

有用的附加参数有：

parallel --bar ...给出一个进度条
parallel --dry-run ...进行一次演练，这样您就可以在不实际执行任何操作的情况下了解它会做什么

如果您有多个可用服务器，您可以将它们添加到列表中并GNU 并行也会在他们之间分配工作：

parallel -S server1,server2,server3 ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

bash

Multithreading

在 bash 中使用多个核心的相关文章

使用ftplib进行多线程上传

我正在尝试进行多线程上传但出现错误我猜想也许不可能在 ftplib 中使用多线程这是我的代码 class myThread threading Thread def init self threadID src counter ima
以线程安全的方式获取随机数

这是一篇描述随机数线程安全性的好文章以线程安全的方式获取随机数 http blogs msdn com b pfxteam archive 2009 02 19 9434171 aspx 但我坚持使用 RandomGen2 示例 publ
.net-core：ILDASM / ILASM 的等效项

net core 是否有相当于 ILDASM ILASM 的功能具体来说我正在寻找在 Linux 上运行的东西因此为什么是 net core ildasm 和 ilasm 工具都是使用此存储库中的 CoreCLR 构建的 https
在 std::thread 创建的线程中调用 pthread_sigmask 是一个好习惯吗？

1 我是 std thread 的新手我想知道调用是否是一个好的做法pthread sigmask 阻止某些信号特别的线程创建者std thread 我不希望新线程接收SIGTERM SIGHUP等信号因为主进程已经安装了这些信号的处理
如何使用waf构建共享库？

我想使用构建一个共享库waf http code google com p waf 因为它看起来比 GNU 自动工具更容易更简洁到目前为止我实际上有几个与我开始编写的 wscript 有关的问题 VERSION 0 0 1 APPNA
内核的panic()函数是否完全冻结所有其他进程？

我想确认内核的panic 功能和其他类似kernel halt and machine halt 一旦触发保证机器完全冻结那么所有的内核和用户进程都被冻结了吗是panic 可以被调度程序中断吗中断处理程序仍然可以执行吗用例如果
配置tomat的server.xml文件并自动生成mod_jk.conf

我在用apache 2 2 15 and tomcat6 6 0 24 on CentOS 6 4并希望使用 tomcat 服务器的功能通过添加以下内容自动生成 mod jk conf 文件
Intel 上的 gcc 中的 _mm_pause 用法

我参考过这个网页 https software intel com en us articles benefitting power and performance sleep loops https software intel com
Java：使用 Java.util.concurrent 线程访问读取线程串行端口

我正在尝试编写一个 Java 串行设备驱动程序并想使用对我来说是新的 java util concurrent包裹我有一种发送数据包然后等待 ACK 的方法我打算有炭接收在不同的线程中运行如果接收线程收到 ACK 它应该使用发送数
如何使用 mediawiki 的 api、curl 和 bash 登录？

我对流程的理解来自 mediawikis 登录手册https www mediawiki org wiki API 登录 https www mediawiki org wiki API Login 使用 MediaWiki 的 Web
排序线程按照它们创建/启动的顺序运行

我如何按照线程实例化的顺序对线程进行排序我怎样才能让下面的程序按顺序打印数字1 10 public class ThreadOrdering public static void main String args class MyRunn
如何处理来自单独线程的窗口消息？

我希望启动一个单独的线程来处理窗口消息通过阻塞 GetMessage 循环但之后仍然在初始线程中创建窗口在单独的线程中一旦启动我就会调用PeekMessage使用 PM NOREMOVE 确保消息队列存在有必要吗然后 Atta
C++，如何在进程或线程之间共享数据

我有一个运行两个不同操作的程序我想在它们之间共享变量目前我正在使用线程而不是 fork 进程但即使我将它们声明为易失性我在共享变量时也遇到问题我尝试使用 boost 做 boost thread collisions threa
我什么时候应该编写 Linux 内核模块？

有些人出于某种原因想要将 Linux 中的代码从用户空间移动到内核空间很多时候原因似乎是代码应该具有特别高的优先级或者只是内核空间更快这对我来说似乎很奇怪我什么时候应该考虑编写内核模块有一套标准吗我怎样才能激励将代码保存在
检查已安装的软件包，如果没有找到则安装

我需要检查已安装的软件包如果未安装则安装它们 RHEL CentOS Fedora 示例 rpm qa grep glibc static glibc static 2 12 1 80 el6 3 5 i686 如何在 BASH 中进行检
如何检查主机是否在您的known_host ssh中

我的脚本中使用以下命令将主机添加到 ssh 中的已知主机 VAR2 expect c spawn ssh o StrictHostKeyChecking no REMOTE HOST USER REMOTE HOST IP expect
每个托管线程是否都有自己对应的本机线程？

我想知道是否在 Net 中创建托管线程通过调用Thread Start 导致在后台创建一个本机线程那么托管线程是否有对应的本机线程呢如果是当托管线程等待或睡眠时是否意味着相应的本机线程也在等待或睡眠是的 NET 线程映射到所有当
设置 git 别名，但调用它会给出“找不到命令”

我想在 git 中设置一个别名来计算存储库中的总行数因此我进入 Git Bash 并输入以下内容 git config global alias linecount ls files z xargs 0 wc l 我输入命令后没有出现错
Android 中的处理程序与异步调用

目前我正在使用处理程序来调用 Web 服务方法以使其在后台运行问题是它需要更多的时间来给出响应在性能方面似乎更昂贵现在我计划使用异步调用哪一个是最好的 Android 中的处理程序和异步调用有什么区别请帮我想出一个最好的解决方案
ansible unarchive 模块如何查找 tar 二进制文件？

我正在尝试执行一个 ansible 剧本该剧本的任务是利用unarchive模块因为我是在 OSX 上执行此操作所以我需要使用它gnu tar 而不是bsd tar通常与 OSX 一起提供因为BSD tar 不受官方支持 https

随机推荐

Extjs 中的按钮宽度

我在 Extjs 中使用 width 属性为按钮提供宽度但它不起作用项目 xtype 按钮文本好的宽度 120 假设您正在寻求一个调整按钮大小的解决方案我正在进行一个需要 ExtJS 2 2 的项目因此假设我们在这里使用的是
在模块级别还是在函数级别导入？

哪种风格更可取 Style A def foo import some module some module something Style B import some module def foo some module somethin
Java：如何正确下载分块内容？

我必须下载 HTTP 响应为传输编码分块的文件因为我无法 getContentLength 为 DataInputStream 分配新的字节缓冲区你能建议我如何正确地做吗代码示例非常简单 try dCon HttpURLConn
如何在Python中获取调用shell的名称？

我有一个始终从 shell 调用的 Python 脚本可以是 zsh 或 bash 我如何知道哪个调用了该脚本在 Linux 中您可以使用 procfs gt gt gt os readlink proc d exe os getpp
在 LocalFolder 中存储位图图像 - UWP

我正在尝试在 UWP 上使用 C 将 BitmapImage 存储到文件系统该图像是使用图形 api 从 Facebook 下载的并作为 BitmapImage 返回该部分有效并检索图像一旦我可以存储它用刚刚放入本地文件夹中的图
Django：创建对象时搜索多对多字段

我有一个用例其中有多个Ingredient可以链接到Recipe通过 Django 管理员现在我有大约一百种成分这使得在下面的 UI 中选择成分变得非常困难有没有办法添加搜索字段或类似于 django admin 的内容以便于选择
Flutter Google Maps，尝试创建已创建的平台视图，视图 ID：0

第一次谷歌地图颤动加载完美但当热重启时它会进入平台异常 google maps flutter 0 5 21 15 Github google maps flutter 尝试创建一个已创建的平台视图 45695 https githu
使用实体框架获取所有记录的 PagedList

PagedList 是一个分页库 dbContext Products ToList ToPagedList 1 25 上面的代码将获取数据库中第 1 页的前 25 条记录问题是ToList 调用将获取数据库中的所有记录然后ToPage
iOS 模拟器版本未出现 - Xcode 12.2

我想在 iOS 10 中测试我的应用程序我只是尝试了像过去一样添加新的 iOS 模拟器的流程但我下载的 iOS 版本没有出现在列表中我正在使用Xcode 12 2 当我尝试添加新模拟器时 iOS 10 没有出现在列表中 The iOS
获取插入 Set 的最后一个值

The Set 的 MDN 文档 https developer mozilla org hu docs Web JavaScript Reference Global Objects Set说 JavaScriptSet对象保留元素的插入
更改 MATLAB 编译器运行时 jvm 版本

我想知道如何更改 MATLAB 编译器运行时 jvm 版本默认是java 1 6 我想把它改成java 1 7 我已经设置了 MATLAB JAVA 环境变量但它不起作用请帮我看看这个link http www mathworks
如何在另一个 QML 文件中通过 id 引用某个项目？

假设我有以下两个 qml 文件 main qml Window onSomething mybutton text foo Foo Foo qml Item Button id mybutton When onSomething调用它会产生
通过 Python Flask 从一个 HTML 输入获取多个值

我有一个动态生成的行数其中包含具有默认值 order quantity 的表中的文本框基本上在一篇文章中我希望 sql 中的项目表根据这些文本框的 ID 来更新它们的值 for i in items tr td td td td t
JPA / Hibernate / Derby TableGenerator 使用负值

我希望数据库中生成的所有主键均为负整数我定义了一个TableGenerator
Win32 PlaySound：如何控制音量？

我正在使用 Win32 多媒体函数播放声音 http msdn microsoft com en us library dd743680 28VS 85 29 aspx从我的应用程序中播放声音我希望能够动态调整正在播放的声音的音量with
从 AnyObject 扩展的协议和纯类协议有什么区别？

这两个声明 protocol SomeProtocol AnyObject 和这个声明 protocol SomeProtocol class 似乎使得只有类可以符合此协议即协议的实例是对对象的引用并且没有其他效果他们之间有什么区别吗
将文件放在 FTP 站点上，其中包含字符串变量的内容（无本地文件）

I want to upload a file to an FTP server but the file content is held in a variable not in an actual local file I want t
如何将 java.util.Date 实例的时间设置为 00:00:00？

我有一个类型的变量java util Date 如何将时间部分设置为 00 00 00 我不允许使用 Apache Commons 库或 JodaTime 这java util Calendar可能是我唯一的选择要将时间从Date完全反对
通过创建时间戳来跟踪更改

我发现原始代码 Excel VBA 可以很好地跟踪一列 Private Sub Worksheet Change ByVal Target As Range Update 20140722 Dim WorkRng As Range Dim
在 bash 中使用多个核心

我有一个 Linux 工具可以大大简化剪切 illumnaSeq 文件中指定的序列我有 32 个锉刀要磨处理一份文件大约需要 5 小时我有一台centos服务器它有128个核心我找到了一些解决方案但每种解决方案的工作方式都

在 bash 中使用多个核心

在 bash 中使用多个核心 的相关文章

随机推荐

热门标签

在 bash 中使用多个核心的相关文章