Script BASH simples para se tornar um script BASH multiprocesso/'threaded'?

Question 1

Com o GNU Parallel você pode fazer algo assim:

rhubarb=/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb 

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o {.}.tsv

Ou (se você realmente precisar da saída em um diretório diferente):

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o /hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/{/.}.tsv

Answer

Com o GNU Parallel você pode fazer algo assim:

rhubarb=/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb 

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o {.}.tsv

Ou (se você realmente precisar da saída em um diretório diferente):

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o /hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/{/.}.tsv

Question 2

Escreva seu script para que ele repita seus argumentos. Por exemplo:

#!/bin/bash

rhubarb='/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb'
outdir='/hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/'

for fn in "$@"; do
    bn=$(basename "$fn" .wav)
    "$rhubarb" "$fn" -o "$outdir/$bn.tsv"
done

Salve isso como, por exemplo, myscript1.she torne-o executável com chmod +x myscript1.sh.

Você pode executar isso diretamente, mas processará cada arquivo sequencialmente. Em vez disso, você deseja executá-lo com GNU parallelou xargs -P. Por exemplo, com um script wrapper como o seguinte, que divide o número de arquivos a serem processados pelo número de núcleos que você possui.

Observe que, dependendo exatamente do que rhubarbacontece, é provável que seja mais uma tarefa vinculada à E/S do que à CPU, portanto, adicionar muitos núcleos não ajudará - na verdade, provavelmente tornará as coisas mais lentas, pois haverá haverá muita disputa para E/S de disco... especialmente se você estiver executando isso em um HDD em vez de um SSD.

Você pode querer codificar algo como cores=4ou cores=8no script abaixo, em vez de usar lscpu | awk ...como eu fiz (escrevi assim porque estou executando um threadripper 1950x com 16 núcleos e 32 threads... e não queria para executar 32 jobs em paralelo e também como um exemplo de como você pode extrair informações úteis de lscpu).

Também recomendado: se você tiver mais de uma unidade, tente organizar as coisas de forma que o diretório de onde você lê os arquivos .wav esteja em uma unidade e o diretório em que você grava os arquivos .tsv esteja em outra. Isso eliminará a contenção de E/S entre a leitura e a gravação dos arquivos. Se os arquivos .tsv não forem grandes, grave-os em um diretório temporário em um ramdisk tmpfs e mova-os para seu local final no final do script.

#!/bin/bash

wavdir="$1"

cores=$(lscpu | awk -F': +' '/^CPU\(s\):/ {cpus=$2};
                             /^Thread\(s\) per core:/ {tpc=$2};
                             END { print int(cpus / tpc) }')

count=$(find "$wavdir" -type f -name "*.wav" -print0 |
          perl -0ne '$c++;END{print $c}')

let files_per_thread=count/cores

find "$wavdir" -type f -name "*.wav" -print0 |
    xargs -0 -r -L "$files_per_thread" -P "$cores" /path/to/myscript1.sh

salve isso como, por exemplo, myscript2.she torne-o executável com chmod +x myscript2.sh.

Este é o script que você executa na linha de comando ou cron, ou qualquer outra coisa. Ele, por sua vez, usa xargspara executar várias instâncias myscript1.shem paralelo.

Execute como:

./myscript2.sh /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/

BTW, isso usa NUL como separador entre nomes de arquivos, portanto é seguro usar com qualquer nome de arquivo (usar nova linha como separador de nome de arquivo não é seguro porque nova linha é um caractere válido dentro de um nome de arquivo).

Answer