簡單的 BASH 腳本變成多進程/「執行緒」BASH 腳本？

Question 1

使用 GNU Parallel，您可以執行以下操作：

rhubarb=/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb 

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o {.}.tsv

或（如果您確實需要在不同的目錄中輸出）：

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o /hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/{/.}.tsv

Answer

使用 GNU Parallel，您可以執行以下操作：

rhubarb=/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb 

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o {.}.tsv

或（如果您確實需要在不同的目錄中輸出）：

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o /hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/{/.}.tsv

Question 2

編寫腳本以便它迭代其參數。例如：

#!/bin/bash

rhubarb='/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb'
outdir='/hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/'

for fn in "$@"; do
    bn=$(basename "$fn" .wav)
    "$rhubarb" "$fn" -o "$outdir/$bn.tsv"
done

將其另存為，例如，myscript1.sh並使其可執行chmod +x myscript1.sh。

您可以直接運行它，但它將按順序處理每個文件。相反，您想使用 GNUparallel或xargs -P.例如，使用如下所示的包裝器腳本，它將要處理的檔案數除以您擁有的核心數。

請注意，根據具體rhubarb執行的操作，這可能更多是 I/O 密集型任務，而不是 CPU 密集型任務，因此添加太多核心不會有幫助 - 事實上，它可能會減慢速度，因為磁碟I/O 爭用過多...特別是如果您在HDD 而不是SSD 上運行它。

您可能想要在下面的腳本中硬編碼類似cores=4或的內容，而不是像我那樣使用（我這樣寫是因為我正在運行具有16 個核心和32 個線程的threadripper 1950x......並且我不想並行運行 32 個作業，並作為如何從中提取有用資訊的範例）。cores=8lscpu | awk ...lscpu

另建議：如果您有多個驅動器，請嘗試進行安排，以便您從中讀取 .wav 檔案的目錄位於一個驅動器上，而將 .tsv 檔案寫入其中的目錄位於另一個驅動器上。這將消除讀取和寫入檔案之間的 I/O 爭用。如果 .tsv 檔案不大，請將它們寫入 tmpfs ramdisk 上的臨時目錄，並將它們移至腳本末尾的最終位置。

#!/bin/bash

wavdir="$1"

cores=$(lscpu | awk -F': +' '/^CPU\(s\):/ {cpus=$2};
                             /^Thread\(s\) per core:/ {tpc=$2};
                             END { print int(cpus / tpc) }')

count=$(find "$wavdir" -type f -name "*.wav" -print0 |
          perl -0ne '$c++;END{print $c}')

let files_per_thread=count/cores

find "$wavdir" -type f -name "*.wav" -print0 |
    xargs -0 -r -L "$files_per_thread" -P "$cores" /path/to/myscript1.sh

將其另存為，例如，myscript2.sh並使其可執行chmod +x myscript2.sh。

這是您從命令列或 cron 等運行的腳本。反過來，它用於並行xargs運行多個實例。myscript1.sh

像這樣運行它：

./myscript2.sh /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/

順便說一句，它使用 NUL 作為檔案名稱之間的分隔符，因此可以安全地與任何檔案名稱一起使用（使用換行符作為檔案名稱分隔符不安全，因為換行符是檔案名稱中的有效字元）。

Answer