Как удалить четыре случайных символа перед расширением .extension из разных файлов с помощью цикла for?

Question 1

Попробуйте что-то вроде этого:

for forward_read_file in *_1*.fastq; do
   srr=$(echo "$forward_read_file" | cut -d_ -f1)
   rrf_array=( $(find . -name "${srr}_2_*.fastq") )

   case "${#rrf_array[@]}" in
     0) echo "Warning: No reverse read file found for $forward_read_file" > /dev/stderr ;;

     1) reverse_read_file="${rrf_array[1]}"
        perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
        ;;

     *) echo "Error: multiple reverse read files found for $forward_read_file" > /dev/stderr ;;
   esac

done

Это перебирает все _1файлы. Он использует cutдля извлечения идентификатора образца SRR, а затем использует его с findкомандой для поиска любых соответствующих _2файлов. findВывод сохраняется в массиве, поскольку мы не знаем, сколько результатов может быть возвращено.

Он обрабатывает три возможных результата: ни одного совпадения (плохо), ровно 1 совпадение (хорошо, это то, что нам нужно) и более 1 совпадения (опять же, плохо).

Если результат только один, извлеките соответствующий файл из массива и обработайте его с помощью вашего скрипта Perl.

Если есть ноль или более одного результата, вывести предупреждающее сообщение в stderr и продолжить к следующему _1имени файла. Вы можете добавить ; exit 1(или другой код для обработки ошибки) перед ;;для этих случаев, если хотите.

При этом игнорируются все части имен файлов, за исключением идентификатора образца SRR в начале и символа _1или _2, который идентифицирует его как файл прямого или обратного сопряжения.

Кстати, это можно было бы сделать с помощью оператора if; then; elseвместо оператора case, но я подумал, что было бы полезно обрабатывать случаи «ноль» и «более одного». Например:

if [ "${#rrf_array[@]}" == 1 ]; 
  reverse_read_file="${rrf_array[1]}"
  perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
else
  echo "Warning: unknown problem with reverse read file for $forward_read_file" > /dev/stderr
fi

Если вы просто хотите игнорировать «проблемные» файлы, удалите блок else.

Кстати, чтобы сделать ваш сценарий более читабельным, я предлагаю сделать что-то вроде этого в верхней части сценария:

AFilter='/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl'

и позже:

perl "$AFilter" -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

В качестве альтернативы, если скрипт(ы) perl являются исполняемыми (т. е. имеют #!/usr/bin/perlили аналогичную строку shebang и установлен флаг исполняемости с помощью chmod +x), вы можете просто добавить /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/в свой $PATH:

PATH="$PATH:/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming"

и запустите скрипт как:

AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

Answer