다중 프로세스/'스레드' BASH 스크립트가 되는 간단한 BASH 스크립트?

Question 1

GNU Parallel을 사용하면 다음과 같은 작업을 수행할 수 있습니다.

rhubarb=/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb 

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o {.}.tsv

또는 (다른 디렉토리에 출력이 정말로 필요한 경우):

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o /hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/{/.}.tsv

Answer

GNU Parallel을 사용하면 다음과 같은 작업을 수행할 수 있습니다.

rhubarb=/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb 

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o {.}.tsv

또는 (다른 디렉토리에 출력이 정말로 필요한 경우):

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o /hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/{/.}.tsv

Question 2

인수를 반복하도록 스크립트를 작성하십시오. 예를 들어:

#!/bin/bash

rhubarb='/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb'
outdir='/hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/'

for fn in "$@"; do
    bn=$(basename "$fn" .wav)
    "$rhubarb" "$fn" -o "$outdir/$bn.tsv"
done

예를 들어 이것을 다른 이름 myscript1.sh으로 저장하고 chmod +x myscript1.sh.

이를 직접 실행할 수 있지만 각 파일을 순차적으로 처리합니다. 대신 GNU parallel또는 xargs -P. 예를 들어 처리할 파일 수를 보유한 코어 수로 나누는 다음과 같은 래퍼 스크립트를 사용합니다.

정확히 무엇을 하는지에 따라 rhubarb이는 CPU 바인딩보다 I/O 바인딩 작업에 더 가깝기 때문에 너무 많은 코어를 추가하는 것은 도움이 되지 않을 것입니다. 실제로 작업 속도가 느려질 수 있습니다. 디스크 I/O에 대한 경합이 너무 많습니다. 특히 SSD가 아닌 HDD에서 실행하는 경우 더욱 그렇습니다.

내가 사용하는 것보다 아래 스크립트에 cores=4또는 같은 것을 하드 코딩하고 싶을 수도 있습니다 . (나는 16개의 코어와 32개의 스레드가 있는 threadripper 1950x를 실행하고 있기 때문에 그렇게 썼습니다....그리고 원하지 않았습니다. 32개의 작업을 병렬로 실행하는 방법도 있습니다. 또한 에서 유용한 정보를 추출하는 방법의 예이기도 합니다 .cores=8lscpu | awk ...lscpu

또한 권장 사항: 드라이브가 두 개 이상인 경우 .wav 파일을 읽는 디렉터리가 한 드라이브에 있고 .tsv 파일을 쓰는 디렉터리가 다른 드라이브에 있도록 항목을 정렬해 보세요. 이렇게 하면 파일 읽기와 쓰기 사이의 I/O 경합이 제거됩니다. .tsv 파일이 크지 않으면 tmpfs 램디스크의 임시 디렉터리에 쓰고 스크립트 끝의 최종 위치로 이동합니다.

#!/bin/bash

wavdir="$1"

cores=$(lscpu | awk -F': +' '/^CPU\(s\):/ {cpus=$2};
                             /^Thread\(s\) per core:/ {tpc=$2};
                             END { print int(cpus / tpc) }')

count=$(find "$wavdir" -type f -name "*.wav" -print0 |
          perl -0ne '$c++;END{print $c}')

let files_per_thread=count/cores

find "$wavdir" -type f -name "*.wav" -print0 |
    xargs -0 -r -L "$files_per_thread" -P "$cores" /path/to/myscript1.sh

예를 들어 이것을 다른 이름 myscript2.sh으로 저장하고 chmod +x myscript2.sh.

이것은 명령줄이나 cron 등에서 실행하는 스크립트입니다. 차례로 xargs여러 인스턴스를 myscript1.sh병렬로 실행하는 데 사용됩니다.

다음과 같이 실행하세요:

./myscript2.sh /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/

그런데, 이는 파일 이름 사이의 구분 기호로 NUL을 사용하므로 모든 파일 이름에 사용하는 것이 안전합니다(개행 문자를 파일 이름 구분 기호로 사용하는 것은 파일 이름 내에서 유효한 문자이기 때문에 개행 문자를 사용하는 것은 안전하지 않습니다).

Answer