Como remover quatro caracteres aleatórios antes da extensão .de vários arquivos usando um loop for?

Question 1

Tente algo assim:

for forward_read_file in *_1*.fastq; do
   srr=$(echo "$forward_read_file" | cut -d_ -f1)
   rrf_array=( $(find . -name "${srr}_2_*.fastq") )

   case "${#rrf_array[@]}" in
     0) echo "Warning: No reverse read file found for $forward_read_file" > /dev/stderr ;;

     1) reverse_read_file="${rrf_array[1]}"
        perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
        ;;

     *) echo "Error: multiple reverse read files found for $forward_read_file" > /dev/stderr ;;
   esac

done

Isso itera sobre todos os _1arquivos. Ele é usado cutpara extrair o ID da amostra SRR e, em seguida, usa-o com o comando para localizar quaisquer arquivos findcorrespondentes . A saída de é armazenada em um array porque não sabemos quantos resultados podem ser retornados._2find

Ele lida com três resultados possíveis - nenhuma correspondência (não é bom), exatamente 1 correspondência (bom, é isso que queremos) e mais de 1 correspondência (novamente, não é bom).

Se houver apenas um resultado, extraia o arquivo correspondente da matriz e processe-o com seu script Perl.

Se houver zero ou mais de um resultado, imprima uma mensagem de aviso em stderr e continue para o próximo _1nome de arquivo. Você pode adicionar ; exit 1(ou outro código para lidar com o erro) antes de ;;para esses casos, se desejar.

Isso ignora todas as partes dos nomes de arquivos, exceto o ID de amostra SRR no início e o _1ou _2que o identifica como um arquivo de emparelhamento direto ou reverso.

Aliás, isso poderia ter sido feito com uma declaração if; then; elseem vez de uma case, mas achei útil lidar com zero e mais de um caso de maneira diferente. por exemplo

if [ "${#rrf_array[@]}" == 1 ]; 
  reverse_read_file="${rrf_array[1]}"
  perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
else
  echo "Warning: unknown problem with reverse read file for $forward_read_file" > /dev/stderr
fi

Se você quiser apenas ignorar os arquivos "problemáticos", exclua o elsebloco.

Aliás, para tornar seu script mais legível, sugiro fazer algo assim próximo ao topo do seu script:

AFilter='/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl'

e depois:

perl "$AFilter" -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

Alternativamente, se os scripts perl forem executáveis (ou seja, com uma #!/usr/bin/perllinha shebang ou semelhante e com o sinalizador executável definido com chmod +x), você pode simplesmente adicionar /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/ao seu $PATH:

PATH="$PATH:/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming"

e execute o script como:

AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

Answer