¿Cómo eliminar cuatro caracteres aleatorios antes de la extensión .de varios archivos usando un bucle for?

Question 1

Pruebe algo como esto:

for forward_read_file in *_1*.fastq; do
   srr=$(echo "$forward_read_file" | cut -d_ -f1)
   rrf_array=( $(find . -name "${srr}_2_*.fastq") )

   case "${#rrf_array[@]}" in
     0) echo "Warning: No reverse read file found for $forward_read_file" > /dev/stderr ;;

     1) reverse_read_file="${rrf_array[1]}"
        perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
        ;;

     *) echo "Error: multiple reverse read files found for $forward_read_file" > /dev/stderr ;;
   esac

done

Esto itera sobre todos los _1archivos. Se utiliza cutpara extraer la identificación de muestra de SRR y luego la usa con el findcomando para encontrar los archivos coincidentes _2. findLa salida de se almacena en una matriz porque no sabemos cuántos resultados se pueden devolver.

Maneja tres resultados posibles: ninguna coincidencia (no es bueno), exactamente 1 coincidencia (bueno, eso es lo que queremos) y más de 1 coincidencia (nuevamente, no es bueno).

Si solo hay un resultado, extraiga el archivo coincidente de la matriz y procéselo con su script Perl.

Si hay cero o más de un resultado, imprima un mensaje de advertencia en stderr y continúe con el siguiente _1nombre de archivo. Puede agregar ; exit 1(u otro código para manejar el error) antes de ;;esos casos si así lo desea.

Esto ignora todas las partes de los nombres de archivos excepto la identificación de muestra SRR al principio y el _1o _2que lo identifica como un archivo de emparejamiento directo o inverso.

Por cierto, esto podría haberse hecho con una declaración if; then; elseen lugar de una case, pero pensé que era útil manejar cero y más de un caso de manera diferente. p.ej

if [ "${#rrf_array[@]}" == 1 ]; 
  reverse_read_file="${rrf_array[1]}"
  perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
else
  echo "Warning: unknown problem with reverse read file for $forward_read_file" > /dev/stderr
fi

Si sólo desea ignorar los archivos "problemáticos", elimine el elsebloque.

Por cierto, para que su secuencia de comandos sea más legible, le sugiero hacer algo como esto cerca de la parte superior de su secuencia de comandos:

AFilter='/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl'

y después:

perl "$AFilter" -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

Alternativamente, si los scripts de Perl son ejecutables (es decir, con una #!/usr/bin/perllínea shebang o similar y con el indicador ejecutable configurado con chmod +x), puede simplemente agregar /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/a su $PATH:

PATH="$PATH:/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming"

y ejecuta el script como:

AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

Answer