Caracteres maiúsculos GREP de uma coluna específica, canalize o resultado para o mesmo arquivo da nova coluna

Question 1

existe alguma opção ou parâmetro no grep para especificar uma coluna?

grepnão temseparador de campoopção.
Use o seguinteestranhoabordagem em vez disso:

awk -F'\t' -v OFS='\t' '{match($19,/[A-Z]+/); $20=substr($19,RSTART,RLENGTH) FS $20}1' 1.table

match($19,/[A-Z]+/)- captura letras maiúsculas no 19º campo

$20=substr($19,RSTART,RLENGTH) FS $20- extrai letras maiúsculas correspondentes de19o campo e insere-o como20o valor do campo

Answer

existe alguma opção ou parâmetro no grep para especificar uma coluna?

grepnão temseparador de campoopção.
Use o seguinteestranhoabordagem em vez disso:

awk -F'\t' -v OFS='\t' '{match($19,/[A-Z]+/); $20=substr($19,RSTART,RLENGTH) FS $20}1' 1.table

match($19,/[A-Z]+/)- captura letras maiúsculas no 19º campo

$20=substr($19,RSTART,RLENGTH) FS $20- extrai letras maiúsculas correspondentes de19o campo e insere-o como20o valor do campo

Question 2

Para responder à sua pergunta literal sobre como fazer isso comgrep sozinho. Mesmo que grepnão tenha sido projetado para isso, com GNU grepe construído com suporte PCRE, você poderia fazer:

grep -Po '(?:^(?:[^\t]*\t){18}|\G)[^\t]*?\K[[:upper:]]'

Isto é, pesquise 18 sequências <not-TABs><tab>no início da linha ou no final da correspondência anterior ( \G) seguida pelo menor número possível de caracteres que não sejam de tabulação (então ainda estamos no 19º campo) seguido por uma letra maiúscula caractere, mas com \Knós redefinimos o início docoincideparte logo antes desse caractere maiúsculo.

Então, em uma entrada como:

X<tab>X<tab>....<tab>AbC<tab>X<tab>...

Reportaria:

A
C

Como com sua cut | grepabordagem.

Se você estiver interessado apenas no primeiro caractere maiúsculo do 19º campo, poderá simplificá-lo para:

grep -Po '^(?:[^\t]*\t){18}[^\t]*?\K[[:upper:]]'

Para inseri-lo como dia 20coluna, você poderia fazer:

paste <(cut -f1-19 < file) <(grep ...above < file) <(cut -f20- < file) > newfile

Ou para inseri-lo como última coluna:

grep... < file | paste file - > newfile

Answer

Para responder à sua pergunta literal sobre como fazer isso comgrep sozinho. Mesmo que grepnão tenha sido projetado para isso, com GNU grepe construído com suporte PCRE, você poderia fazer:

grep -Po '(?:^(?:[^\t]*\t){18}|\G)[^\t]*?\K[[:upper:]]'

Isto é, pesquise 18 sequências <not-TABs><tab>no início da linha ou no final da correspondência anterior ( \G) seguida pelo menor número possível de caracteres que não sejam de tabulação (então ainda estamos no 19º campo) seguido por uma letra maiúscula caractere, mas com \Knós redefinimos o início docoincideparte logo antes desse caractere maiúsculo.

Então, em uma entrada como:

X<tab>X<tab>....<tab>AbC<tab>X<tab>...

Reportaria:

A
C

Como com sua cut | grepabordagem.

Se você estiver interessado apenas no primeiro caractere maiúsculo do 19º campo, poderá simplificá-lo para:

grep -Po '^(?:[^\t]*\t){18}[^\t]*?\K[[:upper:]]'

Para inseri-lo como dia 20coluna, você poderia fazer:

paste <(cut -f1-19 < file) <(grep ...above < file) <(cut -f20- < file) > newfile

Ou para inseri-lo como última coluna:

grep... < file | paste file - > newfile

Question 3

Com sedvocê pode fazer

sed '/^#/!s/\([^ ]* *\)\{18\}[a-z]*\([A-Z]\).*/&  \2/'

Isto é, para todas as linhas que não começam com #(o /^#/!seletor), após 18 combinações de não espaços e espaços, marque a letra maiúscula com para posteriormente consultá-la, "substitua" a linha inteira por si mesma e anexe espaços com a maiúscula encontrada carta.

Se preferir expressões regulares estendidas, você também pode usar

sed -E '/^#/!s/([^ ]* *){18}[a-z]*([A-Z]).*/&  \2/'

Se as colunas estiverem separadas por uma tabulação em vez de espaços, você vai

sed -E '/^#/!s/([^\t]*\t){18}[a-z]*([A-Z]).*/&\t\2/'

Answer

Com sedvocê pode fazer

sed '/^#/!s/\([^ ]* *\)\{18\}[a-z]*\([A-Z]\).*/&  \2/'

Isto é, para todas as linhas que não começam com #(o /^#/!seletor), após 18 combinações de não espaços e espaços, marque a letra maiúscula com para posteriormente consultá-la, "substitua" a linha inteira por si mesma e anexe espaços com a maiúscula encontrada carta.

Se preferir expressões regulares estendidas, você também pode usar

sed -E '/^#/!s/([^ ]* *){18}[a-z]*([A-Z]).*/&  \2/'

Se as colunas estiverem separadas por uma tabulação em vez de espaços, você vai

sed -E '/^#/!s/([^\t]*\t){18}[a-z]*([A-Z]).*/&\t\2/'

Caracteres maiúsculos GREP de uma coluna específica, canalize o resultado para o mesmo arquivo da nova coluna

Responder1

Responder2

Responder3

informação relacionada