如何使用 for 迴圈從各種檔案中刪除 . 副檔名之前的四個隨機字元？

Question 1

試試這樣的事情：

for forward_read_file in *_1*.fastq; do
   srr=$(echo "$forward_read_file" | cut -d_ -f1)
   rrf_array=( $(find . -name "${srr}_2_*.fastq") )

   case "${#rrf_array[@]}" in
     0) echo "Warning: No reverse read file found for $forward_read_file" > /dev/stderr ;;

     1) reverse_read_file="${rrf_array[1]}"
        perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
        ;;

     *) echo "Error: multiple reverse read files found for $forward_read_file" > /dev/stderr ;;
   esac

done

這會迭代所有_1文件。它用於cut提取 SRR 樣本 ID，然後將其與find命令一起使用來查找任何匹配的_2文件。 find的輸出儲存在陣列中，因為我們不知道可能會傳回多少結果。

它處理三種可能的結果 - 沒有匹配（不好）、恰好 1 個匹配（好，這就是我們想要的）和超過 1 個匹配（同樣，不好）。

如果只有一個結果，請從數組中提取匹配的檔案並使用 perl 腳本對其進行處理。

如果有零個或多個結果，則將警告訊息列印到 stderr 並繼續處理下一個_1檔案名稱。如果您願意，您可以在這些情況; exit 1之前新增（或其他程式碼來處理錯誤）。;;

這將忽略檔案名稱的所有部分，除了開頭的 SRR 樣本 id 以及將其標識為正向或反向配對檔案的_1或。_2

if; then; else順便說一句，這可以用 an 而不是聲明來完成case，但我認為以不同的方式處理零個和多個案例很有用。例如

if [ "${#rrf_array[@]}" == 1 ]; 
  reverse_read_file="${rrf_array[1]}"
  perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
else
  echo "Warning: unknown problem with reverse read file for $forward_read_file" > /dev/stderr
fi

如果您只想忽略“問題”文件，請刪除該else區塊。

順便說一句，為了使您的腳本更具可讀性，我建議在腳本頂部附近執行類似的操作：

AFilter='/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl'

然後：

perl "$AFilter" -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

或者，如果 perl 腳本是可執行的（即使用#!/usr/bin/perl或類似的 shebang 行，並且使用來設定可執行標誌chmod +x），則只需新增/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/至 $PATH 即可：

PATH="$PATH:/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming"

並將腳本運行為：

AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

Answer