Como ler um arquivo de entrada de strings, combinar e alterar as correspondências no local?

Question 1

Supondo que as linhas relevantes results.txtnão contenham espaços em branco após o nome do arquivo, o seguinte awkprograma funcionará:

awk -v prefix="h-19/US/CA-" 'NR==FNR{fnames[$1]; next} \
    /^>/{name=substr($0,2); if (name in fnames) {sub(/^>/, ">" prefix)} }1' filenames.txt results.txt

Isso irá primeiro analisar filenames.txte depois results.txt.
Durante a análise filenames.txt(onde FNRo contador de linha por arquivo é igual ao NRcontador de linha global), ele registrará todos os nomes de arquivos (que são os únicos campos na linha) em uma matriz fnames, mas pulará a execução imediatamente para a próxima linha.
Durante a análise, results.txtele verificará se uma linha começa com >. Nesse caso, ele verificará se a substring após esse caractere (armazenada temporariamente em name) foi encontrada entre os "índices de array" de fnames. Se for esse o caso, será utilizado sub()para substituir o inicial >por >+ o prefixo, passado awkcomo variável prefix(por meio da -vdiretiva).
O aparentemente "perdido" 1irá instruir awka imprimir a linha atual, incluindo todas as modificações possíveis (mas apenas porque results.txtdurante o processamento do primeiro arquivo não alcançamos essa parte).

Observe que awkpor si só não é possível modificar arquivos no local, portanto você precisaria trabalhar com um arquivo temporário. Se você tiver uma versão suficientemente nova do GNU Awk (> 4.1.0), poderá usar a inplaceextensão; claro, você precisará desativar a opção do filenames.txtarquivo:

awk -i inplace -v prefix=" ... " ' ... ' inplace=0 filenames.txt inplace=1 results.txt

Isso desativará filenames.txte ativará novamente a edição no local para results.txt.

Answer

Supondo que as linhas relevantes results.txtnão contenham espaços em branco após o nome do arquivo, o seguinte awkprograma funcionará:

awk -v prefix="h-19/US/CA-" 'NR==FNR{fnames[$1]; next} \
    /^>/{name=substr($0,2); if (name in fnames) {sub(/^>/, ">" prefix)} }1' filenames.txt results.txt

Isso irá primeiro analisar filenames.txte depois results.txt.
Durante a análise filenames.txt(onde FNRo contador de linha por arquivo é igual ao NRcontador de linha global), ele registrará todos os nomes de arquivos (que são os únicos campos na linha) em uma matriz fnames, mas pulará a execução imediatamente para a próxima linha.
Durante a análise, results.txtele verificará se uma linha começa com >. Nesse caso, ele verificará se a substring após esse caractere (armazenada temporariamente em name) foi encontrada entre os "índices de array" de fnames. Se for esse o caso, será utilizado sub()para substituir o inicial >por >+ o prefixo, passado awkcomo variável prefix(por meio da -vdiretiva).
O aparentemente "perdido" 1irá instruir awka imprimir a linha atual, incluindo todas as modificações possíveis (mas apenas porque results.txtdurante o processamento do primeiro arquivo não alcançamos essa parte).

Observe que awkpor si só não é possível modificar arquivos no local, portanto você precisaria trabalhar com um arquivo temporário. Se você tiver uma versão suficientemente nova do GNU Awk (> 4.1.0), poderá usar a inplaceextensão; claro, você precisará desativar a opção do filenames.txtarquivo:

awk -i inplace -v prefix=" ... " ' ... ' inplace=0 filenames.txt inplace=1 results.txt

Isso desativará filenames.txte ativará novamente a edição no local para results.txt.

Question 2

Com sedvocê pode coletar os nomes dos arquivos no espaço de espera e, em seguida, verificar todas as linhas em results.txtbusca de correspondências para filtrar quais linhas alterar:

sed -e '1,/^$/{H;1h;d;}' -e 'G;/^>\(.*\).*\n\1\n/s_^>_>h-19/US/CA-_;P;d' filename.txt <((echo)) results.txt

Você vê que eu passo uma linha vazia <((echo))entre os arquivos, então 1,/^$/endereça todas as linhas do primeiro arquivo (e a linha vazia)
Essas linhas são anexadas ao espaço de retenção e depois excluídas H;1h;d( 1hevita iniciar o espaço de retenção com uma nova linha)
Ganexa o espaço de espera a todas as linhas result.txte /^>$.*$.*\n\1\n/corresponde às linhas que começam com >e uma string que é um nome de arquivo (entre novas linhas no espaço de espera)
s_^>_>h-19/US/CA-_faz a substituição dessas linhas
P;dimprime apenas a primeira linha sem o lixo anexado. Você poderia fazer s/\n.*//em vez disso

Answer

Com sedvocê pode coletar os nomes dos arquivos no espaço de espera e, em seguida, verificar todas as linhas em results.txtbusca de correspondências para filtrar quais linhas alterar:

sed -e '1,/^$/{H;1h;d;}' -e 'G;/^>\(.*\).*\n\1\n/s_^>_>h-19/US/CA-_;P;d' filename.txt <((echo)) results.txt

Você vê que eu passo uma linha vazia <((echo))entre os arquivos, então 1,/^$/endereça todas as linhas do primeiro arquivo (e a linha vazia)
Essas linhas são anexadas ao espaço de retenção e depois excluídas H;1h;d( 1hevita iniciar o espaço de retenção com uma nova linha)
Ganexa o espaço de espera a todas as linhas result.txte /^>$.*$.*\n\1\n/corresponde às linhas que começam com >e uma string que é um nome de arquivo (entre novas linhas no espaço de espera)
s_^>_>h-19/US/CA-_faz a substituição dessas linhas
P;dimprime apenas a primeira linha sem o lixo anexado. Você poderia fazer s/\n.*//em vez disso

Question 3

Use perlpara edições locais no arquivo de entrada:

pfx='h-19/US/CA-' \
perl -pi -e '
  BEGIN { %h = map { tr/\n//dr => $ENV{pfx}} <STDIN>}
  s/^>\K(?=(.*))/$h{$1}/;
' results.txt < filename.txt

Answer

Use perlpara edições locais no arquivo de entrada:

pfx='h-19/US/CA-' \
perl -pi -e '
  BEGIN { %h = map { tr/\n//dr => $ENV{pfx}} <STDIN>}
  s/^>\K(?=(.*))/$h{$1}/;
' results.txt < filename.txt

Como ler um arquivo de entrada de strings, combinar e alterar as correspondências no local?

Responder1

Responder2

Responder3

informação relacionada