Cat arquivos com nomes semelhantes de diretórios diferentes em um único arquivo com o mesmo nome

Question

Há várias coisas a serem observadas nesta resposta.

Geralmente é uma má ideia analisar a saída lsse você pode usar globpadrões de shell para fazer o que deseja - consulte [http://mywiki.wooledge.org/ParsingLs]. Não usei a opção shell nullglob para portabilidade, mas isso tornaria os scripts um pouco mais curtos.
Você quer ter certeza de que seus padrões glob não são muito amplos, então você diz catpara usar o mesmo nome de arquivo para entrada e saída. Se fizer isso, você poderá encher seu disco rígido muito rapidamente enquanto tenta criar um arquivo de tamanho infinito.
Se você fornecer um padrão semelhante *.fastae ele não corresponder a nenhum arquivo, a string literal *.fastaserá usada.
Se você tiver um arquivo chamado *.fasta, uma maneira de saber a diferença entre ele e o padrão é ver se ele é legível.
Colocar --fim à análise de argumentos é uma boa ideia se houver nomes de arquivos não autorizados.

Primeiro um script simples.

# Simple script, assumes that "Species1" has all the needed "SequenceX.fasta" files
# Start in the directory containing "Species1", "Species2" etc.
# create output directory
mkdir "final"
# Go into the first directory
cd "Species1"
# Loop over all the files
for i in *".fasta"
do
    # join all the like named files in the sibling directories to the output
    # use a pattern which doesn't match ../final/$i to get list of files to join.
    cat "../Species"*"/$i" > "../final/$i"
done

Isso pressupõe que "Species1" possui todos os arquivos "SequenceX.fasta". Se este não for o caso, provavelmente você precisará de um loop duplo. Isso é mais robusto, mas mais longo e mais lento.

# Start in the top level and loop over the directories
for dir in */
do
    # don't do anything inn the output directory
    [ "$dir" = "final" ] && continue
    # cd into directory, protecting against rogue directory names
    cd "./$dir" || { echo "cd to $dir failed" >&2 ; exit 1 ; }
    # loop over the files 
    for file in *"fasta"
    do
         # check the file exists, if there are no files matching the pattern
         # then the shell will pass the pattern through to the loop
         if [ -r "$file" ] ; then
             cat -- "$file" >> "../final/$file"
         fi
    done
    cd ".." || { echo "failed to return from $dir" ; exit 1 ; }
done

Answer 1

Há várias coisas a serem observadas nesta resposta.

Geralmente é uma má ideia analisar a saída lsse você pode usar globpadrões de shell para fazer o que deseja - consulte [http://mywiki.wooledge.org/ParsingLs]. Não usei a opção shell nullglob para portabilidade, mas isso tornaria os scripts um pouco mais curtos.
Você quer ter certeza de que seus padrões glob não são muito amplos, então você diz catpara usar o mesmo nome de arquivo para entrada e saída. Se fizer isso, você poderá encher seu disco rígido muito rapidamente enquanto tenta criar um arquivo de tamanho infinito.
Se você fornecer um padrão semelhante *.fastae ele não corresponder a nenhum arquivo, a string literal *.fastaserá usada.
Se você tiver um arquivo chamado *.fasta, uma maneira de saber a diferença entre ele e o padrão é ver se ele é legível.
Colocar --fim à análise de argumentos é uma boa ideia se houver nomes de arquivos não autorizados.

Primeiro um script simples.

# Simple script, assumes that "Species1" has all the needed "SequenceX.fasta" files
# Start in the directory containing "Species1", "Species2" etc.
# create output directory
mkdir "final"
# Go into the first directory
cd "Species1"
# Loop over all the files
for i in *".fasta"
do
    # join all the like named files in the sibling directories to the output
    # use a pattern which doesn't match ../final/$i to get list of files to join.
    cat "../Species"*"/$i" > "../final/$i"
done

Isso pressupõe que "Species1" possui todos os arquivos "SequenceX.fasta". Se este não for o caso, provavelmente você precisará de um loop duplo. Isso é mais robusto, mas mais longo e mais lento.

# Start in the top level and loop over the directories
for dir in */
do
    # don't do anything inn the output directory
    [ "$dir" = "final" ] && continue
    # cd into directory, protecting against rogue directory names
    cd "./$dir" || { echo "cd to $dir failed" >&2 ; exit 1 ; }
    # loop over the files 
    for file in *"fasta"
    do
         # check the file exists, if there are no files matching the pattern
         # then the shell will pass the pattern through to the loop
         if [ -r "$file" ] ; then
             cat -- "$file" >> "../final/$file"
         fi
    done
    cd ".." || { echo "failed to return from $dir" ; exit 1 ; }
done

Cat arquivos com nomes semelhantes de diretórios diferentes em um único arquivo com o mesmo nome

Responder1

informação relacionada