如何在 shell 脚本中并行运行多个实例以提高时间效率[重复]

2024-05-17

我正在使用 shell 脚本，它读取 16000 行的输入文件。运行该脚本需要8个多小时。我需要减少它，所以我将其划分为 8 个实例并读取数据，其中我使用 for 循环迭代 8 个文件，并在其中使用 while 循环从文件中读取记录。但它不起作用。我怎样才能在后台并行运行8个实例我需要帮助来更有效地运行它，例如使用函数或分叉进程。

这是代码

for file in "$MY_WORK/CCN_split_files"/*
do
    echo "$file"
    echo "begin read loop"
    ### removing the header record from the file ###
    if [ "$file" == "$MY_WORK/CCN_split_files/ccn.email.list.file00" ] 
    then
        mv $MY_WORK/CCN_split_files/ccn.email.list.file00 $MY_WORK/raw_file
        sed -e '/ Regular  /d; / Duplicate  /d' $MY_WORK/raw_file > $MY_WORK/CCN_split_files/ccn.email.list.file00
    fi
    ### end of removing header record  ###

    while read -r record
    do
      reccount=$(( reccount + 1 ))

        ### parse input record

          contact_email=`echo "$record" | cut -f5 -d ''`
              echo "contact email is $contact_email" 
          credit_card_id=`echo "$record" | cut -f6 -d ''`
              echo "credit card id is $credit_card_id"
          ref_nr=`echo "$record" | cut -f7 -d ''`
              echo "reference nr is $ref_nr"
          cny_cd=`echo "$record" | cut -f8 -d ''`
              echo "country code is $cny_cd"
          lang=`echo "$record" | cut -f9 -d ''`
              echo "language is $lang"
          pmt_ir=`echo "$record" | cut -f13 -d ''`
              echo "payment ir is $pmt_ir"

        ### set paypal or credit card 

          if [ "$pmt_ir" = "3" ]
            then
              pmt_typ="PP"
              echo "payment type is $pmt_typ"
          else
              pmt_typ="CC"
              echo "payment type is $pmt_typ"
          fi

        ### retrieve doc from application

          echo "retrieve from CMOD for $ref_nr"
          GetExit01Cntr=0
          GetExit01='F'
          until [[ $GetExit01 = 'T' ]]
           do
            GetExit01Cntr=`expr $GetExit01Cntr + 1`

            /opt/ondemand/bin/arsdoc get -ac -d $MY_WORK -h $host -u $user -p $pwd -v -i  "WHERE ReferenceNumber='$ref_nr' AND CreditCardId='$credit_card_id'" -f "$folder" -L1 -o "$notify_afp" -v 2> $MY_WORK/$arsdoc_out
            if grep "Retrieving 1 document(s)." $MY_WORK/$arsdoc_out > /dev/null
            then
               GetExit01='T'
               echo "CCN AFP retrieval successful"
            else
               echo "CCN AFP retrieval failed - Performing retry (${GetExit01Cntr})"
               sleep 30
               GetExit01='F'
               if [[ $GetExit01Cntr -ge 3 ]]
               then
                  echo "Max Retry Failure: (GetExit01) - Failed to successfully perform arsdoc get"
                  echo "CCN AFP retrieval failed"
                  echo "CCN AFP retrieval failed" >> $MY_WORK/$logfile
                  exit 12
               fi
            fi   
           done

        ### convert to PDF

          echo "afp2pdf conversion begins"

          /a585/app/AFP2PDF_PLUS/afp2pdf.sh -i /a585/app/AFP2PDF_PLUS/a2pxopts2.cfg -n /a585/app/AFP2PDF_PLUS/font -o $MY_WORK/$notify_pdf $MY_WORK/$notify_afp > $MY_WORK/$afp2pdf_out 2>&1

          ReturnCode=`echo $?`
          if [ "$ReturnCode" != "0" ]
            then
             echo "afp2pdf failed"
             echo "afp2pdf failed" >> $MY_WORK/$logfile
             exit 12
          fi

        ### assign message text, subject, and reply address variables

          echo "assign message text, subject, reply"
          if [ $cny_cd = "US" ] && [ $lang = "EN" ] && [ $pmt_typ = "CC" ]
            then
               email_text=$MSG_PATH/ccnotifyusen.new
               email_reply="[email protected] /cdn-cgi/l/email-protection"
               email_subject=" Credit Card Billing Adjustment. Ref# $ref_nr" 

             elif [ $cny_cd = "CA" ] && [ $lang = "EN" ] && [ $pmt_typ = "CC" ]
               then
                 email_text=$MSG_PATH/ccnotifycaen.new
                 email_reply="[email protected] /cdn-cgi/l/email-protection"
                 email_subject="Credit Card Billing Adjustment. Ref# $ref_nr" 

             elif [ $cny_cd = "CA" ] && [ $lang = "FR" ] && [ $pmt_typ = "CC" ]
               then
                 email_text=$MSG_PATH/ccnotifycafr.new
                 email_reply="[email protected] /cdn-cgi/l/email-protection"
                 email_subject=" Rajustement des frais. Ref. $ref_nr"

             elif [ $cny_cd = "US" ] && [ $lang = "EN" ] && [ $pmt_typ = "PP" ]
               then
                 email_text=$MSG_PATH/ppnotifyusen.new
                 email_reply="[email protected] /cdn-cgi/l/email-protection"
                 email_subject=" Billing Adjustment. Ref# $ref_nr"

             elif [ $cny_cd = "CA" ] && [ $lang = "EN" ] && [ $pmt_typ = "PP" ]
               then
                 email_text=$MSG_PATH/ppnotifycaen.new
                 email_reply="[email protected] /cdn-cgi/l/email-protection"
                 email_subject=" Billing Adjustment. Ref# $ref_nr"

             elif [ $cny_cd = "CA" ] && [ $lang = "FR" ] && [ $pmt_typ = "PP" ]
               then
                 email_text=$MSG_PATH/ppnotifycafr.new
                 email_reply="[email protected] /cdn-cgi/l/email-protection"
                 email_subject_text=`cat $MSG_PATH/ppsubjectcafr`
                 email_subject="$email_subject_text $ref_nr"

             else
               echo "invalid country, language, payment type combination: $cny_cd, $lang, $pmt_typ"
               echo "invalid country, language, payment type combination: $cny_cd, $lang, $pmt_typ" >> $MY_WORK/$logfile
               exit 12
          fi

        ### overlay reply address in .muttrc initialization file

          cd /a585/app/script/
          echo "email via NSGalinaMail"

          /usr/bin/java -jar NSGalinaMail.jar "$email_text"  "$email_subject" "$contact_email" "[email protected] /cdn-cgi/l/email-protection" $lang  $cny_cd $MY_WORK/$notify_pdf
          if [ $? -eq 0 ]; then
              emailCountSuccess[$reccount-1]="Success: Email to $contact_email for $ref_nr" 
           else
              emailCountFailure[$reccount-1]="Failure: Email to $contact_email for $ref_nr" 
           fi

    done < $file
done

如果您想要并行完成很多事情，请考虑使用GNU 并行。有一个很棒的PDFhere https://zenodo.org/record/1146014/files/GNU_Parallel_2018.pdf?download=1解释如何使用它。具体来说，我正在使用“第 9 节 - 管道模式”回答你的问题。

我不会为您重写所有代码，只是向您展示一些想法。

让我们生成一个 16,000 行的示例文件来匹配您的：

seq 16000 > YourFile

现在让我们生成一个虚拟脚本，名为YourScript处理您的数据，如下所示：

#!/bin/bash
lines=$(wc -l < /dev/stdin)
echo "Called to process $lines lines"
sleep 2

正如您所看到的，它只是计算在其上收到的行数stdin并告诉您有多少个并休眠 2 秒，以便您可以看到发生了什么。使其可执行：

chmod +x YourScript

现在，您可以使用GNU 并行。首先，让GNU 并行将文件拆分为 4,000 行的块，并将一个块传递给 4 个作业中的每一个：

parallel --pipe -N4000 ./YourScript  < YourFile

Called to process     4000 lines
Called to process     4000 lines
Called to process     4000 lines
Called to process     4000 lines

如果您有 4 个或更多 CPU 核心，则需要 2 秒，因为默认情况下，GNU 并行每个 CPU 核心启动一项作业。

现在尝试向每个作业传递 2,000 行，并一次运行 4 个作业：

parallel --pipe -j 4 -N2000 ./YourScript  < YourFile

Called to process     2000 lines
Called to process     2000 lines
Called to process     2000 lines
Called to process     2000 lines
Called to process     2000 lines
Called to process     2000 lines
Called to process     2000 lines
Called to process     2000 lines

这将在 2 秒内运行前 4 批 2,000 行，然后在另外 2 秒内运行后 4 批 2,000 行。

希望您现在可以了解如何并行化您的脚本。Remember从中读取stdin，不是来自文件！如果您希望脚本使用 16,000 行文件的文件名作为参数运行，或者使用该文件的一部分的文件名作为参数GNU 并行，你可以使用：

parallel --pipe -N 2000 --cat YourScript {}

然后它会写入一个 2,000 行的临时文件，调用您的脚本并随后删除该临时文件。

有用的开关GNU 并行 are:

parallel --dry-run ...它告诉你它会做什么而不实际做任何事情
parallel --bar ...这会给你一个进度条
parallel --eta ...这会给你一个预计到达时间

另请注意GNU 并行可以在网络中的其他机器上分配工作，并且它具有失败和重试处理、输出标记等功能...

还有，你跑cut16,000 行文件中的每一行 6 次 - 这意味着您必须分叉近 100,000 个进程！您可以使用IFS and read而不是这 6 个进程：

IFS='|' read -r f1 f2 f3 <<< "a|b|c"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

shell

如何在 shell 脚本中并行运行多个实例以提高时间效率[重复] 的相关文章

如何通过不同的接口路由 TCP/IP 响应？

我有两台机器每台机器都有两个有效的网络接口一个以太网接口eth0和 tun tap 接口gr0 目标是使用接口在机器 A 上启动 TCP 连接gr0但然后让机器 B 的响应 ACK 等通过以太网接口返回 eth0 因此机器 A 发出
如何使用 VSCode 调试 Linux 核心转储？

我故意从我使用 VSCode 编写的 C 应用程序生成核心转储我不知道如何调试核心转储有没有人愿意分享这方面的经验更新我相信我现在已经可以使用了我为核心文件创建了第二个调试配置我需要添加指向生成的转储文件的 coreDumpPa
Linux下单个目录下文件过多会怎样？

如果一个目录中有大约 1 000 000 个单独的文件大部分大小为 100k 其中没有其他目录和文件是否会以任何其他可能的方式降低效率或产生缺点 ARG MAX 会对此提出异议例如 rm rf 在目录中时会说参数太多想要执行某种
在 vimrc 中切换匹配

我的 vimrc 文件中有以下几行 hi ExtraWhitespace cterm NONE ctermbg green ctermfg green guibg green guifg green match ExtraWhitespac
如何使用 nohup 获取正在运行的程序列表

我正在通过 SSH 连接访问运行 CentOS linux 发行版的服务器由于我无法始终保持登录状态因此我使用 nohup command 来运行我的程序我找不到如何获取我开始使用 nohup 的所有程序的列表工作只有在我注销之
如何在 Linux 中向热敏打印机发送 ESC/POS 命令

我正在尝试在热敏打印机上发送 ESC POS 命令但每当我发送它们时热敏打印机都会将它们打印为文本而不是作为命令执行它们我在 prn 文件中编写这些命令每当我执行 lp 命令来打印文件时这些 prn 文件也会被打印但作为文本
C++ Linux GCC 应用程序中的 GUID

我有很多服务器运行这个 Linux 应用程序我希望他们能够生成一个碰撞概率较低的 GUID 我确信我可以从 dev urandom 中提取 128 个字节这可能没问题但是有没有一种简单易用的方法来生成与 Win32 更等效的 GUID
批量检测系统是32位还是64位

有谁知道如何创建一个批处理文件如果是 64 位系统可以对一个程序进行 shell 处理如果是 32 位系统则可以对另一个程序进行 shell 处理检查 PROCESSOR ARCHITECTURE being x86 if PRO
如何将命令输出作为多个参数传递给另一个命令

我想将命令的每个输出作为多个参数传递给第二个命令例如 grep pattern input returns file1 file2 file3 我想复制这些输出例如 cp file1 file1 bac cp file2 file2 b
BeagleBone Black 如何用作大容量存储设备？

是否可以使用 BB 作为大容量存储设备我希望将其连接到可以从 USB 连接例如 USB 闪存驱动器读取文件的音频播放器并充当包含一个特定文件夹的数据存储设备及其子文件夹从文件系统如果可能在连接到开发板的闪存驱动器上正如设备规
在 shell/shell 脚本中设置 MongoDB 写关注

我正在尝试填充一个集合MongoDB的壳据我了解使用轻松的Write Concern可以大大加快这个过程我说的是文档 http docs mongodb org manual core write concern write oper
GCC 详细模式输出解释

我是 Linux 新手谁能向我解释一下我的 hello world 程序的以下详细模式输出另外这些文件是做什么用的crt1 o crti o crtend o crtbegin o and crtn o and lc and lgcc
HBase Shell 日志记录

使用 HBase shell 时我收到大量日志记录包括 INFO 和 DEBUG 消息虽然这对于学习 HBase 内部结构来说很有趣但它非常冗长并且可能会掩盖输出我尝试过以多种不同的方式更改日志记录级别包括所描述的here ht
用于 e NetworkManager VPN 连接的 dbus 信号处理程序

我需要开发一些在建立 VPN 连接时执行的 python 代码 VPN 由 NetworkManager 控制我试图弄清楚如何为此使用 NM DBUS 事件使用 dbus monitor system 我能够识别连接信号 signal
EULA 接受 Bash 脚本

我有一个尝试安装垃圾箱的脚本除了 bin 在 more 中打开 EULA 之外一切正常在脚本再次开始并自行完成安装之前您必须手动 ctrl c 退出此 more 实例因为这更多的是逃离 shell 所以脚本在打开后不知道要运行什么
使用 .htaccess 启用 PHP 短标签

我在自己的 Centos 服务器上设置了 Apache 并具有多个虚拟 Web 服务器并且我希望仅为位于以下位置的其中一个 Web 服务器启用 PHP 短标记 var www ostickets html 我可以通过添加成功启用短标签sh
如何在不使用 MacPorts 或 Fink 的情况下在 OS X Leopard 上安装 lxml？

我过去曾多次尝试过此操作并遇到问题有没有人有在没有 MacPorts 或 Fink 的情况下在 OS X 上安装 lxml 的方法并且绝对有效最好有完整的 1 2 3 步骤来下载和构建每个依赖项感谢 Twitter 上的 jesse
删除 Python 中某些操作的 root 权限

在我的 Python 脚本中我执行了一些需要 root 权限的操作我还创建并写入文件我不想由 root 独占所有而是由运行我的脚本的用户独占所有通常我使用以下命令运行脚本sudo 有办法做到上述吗您可以使用以下方式在 uid
shell脚本中是否有互斥/信号量机制？

我正在 shell 脚本中寻找互斥信号量并发机制考虑以下情况除非 a 用户不关闭共享文件否则 b 用户应该无法打开更新它我只是想知道如何在 shell 脚本中实现互斥量信号量临界区等在 shell 脚本中实现锁定机制文
“./somescript.sh”和“. ./somescript.sh”有什么区别

今天我按照一些说明在 Linux 中安装软件有一个需要首先运行的脚本它设置一些环境变量指令告诉我执行 setup sh 但是我执行时犯了一个错误 setup sh 所以环境没有设置最后我注意到了这一点并继续进行我想知道这两种调用脚

随机推荐

从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
ios - 在哪里放置 s.static_framework = true

我在 CocoaPods 中的级别为 0 当我使用pod install有一个错误说 The Pods App target has transitive dependencies that include static framework
将 UIButton 中的图像缩放到 AspectFit？

我想将图像添加到 UIButton 并且还想缩放图像以适合 UIButton 使图像变小请告诉我该怎么做这是我尝试过的但它不起作用将图像添加到按钮并使用setContentMode self itemImageButton setI
UWP 无法在两个应用程序之间创建本地主机连接

我正在尝试在两个 UWP 应用程序之间设置 TCP 连接当服务器和客户端在同一个应用程序中运行时它可以正常工作但是当我将服务器部分移动到一个应用程序并将客户端部分移动到另一个应用程序时 ConnectAsync 会引发异常服务器未
标量子查询包含多行

我正在使用 H2 数据库并想要移动一些数据为此我创建了以下查询 UPDATE CUSTOMER SET EMAIL SELECT service EMAIL FROM CUSTOMER SERVICE AS service INNER
Firebase 警告：使用 Firebase Cloud Function 搜索数据时使用未指定的索引

我构建了一个 Firebase 云函数用于查找 IsNotificationEnabled 值等于 true 的用户我的部分职能 export const sendPushNotification functions https onR
中止来自 jsf.ajax.addOnEvent() 的 JSF Ajax 请求

我希望有一个中心位置来监视 ajax 请求并在某些情况下中止它们我唯一不知道要做的一件事就是实际中止来自一个中央函数的 ajax 请求我想象解决方案看起来像这样 jsf ajax addOnEvent function data if
SQL Server 2008 错误 233

我正在使用以下 sql 脚本在 SQL Server 2008 中创建新登录名 CREATE LOGIN xyz WITH PASSWORD xyz DEFAULT DATABASE master DEFAULT LANGUAGE us e
php 表单提交 - Q2

我对这个虚拟问题感到抱歉这是我的简单 PHP 表单其中包含两个 SQL 表和 ADD 提交按钮我希望将人员从 Test1 转移到 Test2 很多事情都很好只有提交按钮不起作用因此 Test2 表没有反馈 Revised 现在提
Mathematica 模块与 With 或 Block - 使用指南、经验法则？

Leonid 在他的书的第四章中写道 Module Block 和 With 这些结构在 Mathematica Book 和 Mathematica Help 中有详细解释所以我在这里简单介绍一下它们从我所读到的能够找到的我仍然处
是否可以使用 gold 链接器编译和链接 Clang/LLVM？

我正在为 LLVM Clang 编写自定义通道重新编译往往需要一段时间并使用大量内存我听说 gold 链接器 1 比标准 ld 链接器花费更少的时间并且 2 使用更少的内存有没有办法将标志传递到 LLVM Clang 构建过程并更改为
PHP文件上传

如果我想在文件名转到服务器的永久位置而不是临时位置之前更改文件名我该如何执行此操作代码如下
Zend Framework Zend_Form 装饰器：位于按钮元素内部？

我有一个像这样创建的按钮元素 submit new Zend Form Element Button submit submit gt setLabel My Button submit gt setDecorators array Vie
如何让div与包含td的高度相匹配？

我沿着桌子的一排布置了三个面板一个比另外两个高我希望所有三个面板都与最高的一个的高度相匹配我尝试将 div 的样式设置为 height 100 但是即使包含的 tds 增长短面板仍然很短我的 HTML 是由 JSF 生成的因此
Qt - 设置不可编辑的QComboBox的显示文本

我想将 QComboBox 的文本设置为某些自定义文本不在 QComboBox 的列表中而不将此文本添加为 QComboBox 的项目此行为可以在可编辑的 QComboBox 上实现QComboBox setEditText cons
没有为 1 个或多个必需参数给出值。更新SQL

我正在编写一个程序当用户在列表视图上选择记录时该程序会更新密码或积分我收到错误没有为 1 个或多个必需参数给出值我不知道如何纠正我是否遗漏了一些明显的东西 Dim sql As String UPDATE Users SET P
Java Swing：需要一个高质量的带有复选框的开发 JTree

我一直在寻找一个 Tree 实现其中包含复选框其中当您选择一个节点时树中的所有后继节点都会被自动选择当您取消选择一个节点时树中其所有后继节点都会自动取消选择当已经选择了父节点并且从其后继之一中删除了选择时节点颜色将发生变化
Scala 和 Python 的通行证

我想知道是否有相当于 python 的 pass 表达式这个想法是编写没有实现的方法签名并编译它们只是为了对某些库原型的这些签名进行类型检查我能够使用以下方法模拟这种行为 def pass A A throw new Excepti
尝试在 React 应用程序中连接到 MySQL 数据库时，无法读取未定义的属性（读取“查询”）错误

我正在尝试连接到 MySQL 数据库并在单击按钮后在 React 应用程序中运行查询一些它如何给出错误我当前的代码如下所示 import mysql from mysql function App async function sync
如何在 shell 脚本中并行运行多个实例以提高时间效率[重复]

这个问题在这里已经有答案了我正在使用 shell 脚本它读取 16000 行的输入文件运行该脚本需要8个多小时我需要减少它所以我将其划分为 8 个实例并读取数据其中我使用 for 循环迭代 8 个文件并在其中使用 while

如何在 shell 脚本中并行运行多个实例以提高时间效率[重复]

如何在 shell 脚本中并行运行多个实例以提高时间效率[重复] 的相关文章

随机推荐

热门标签