dividir um arquivo simples de 60 GB com registros ocasionalmente abrangendo várias linhas

Question 1

Usando sedpara unir apenas as linhas divididas

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

leva 6 segundos para um arquivo de 10 MB no meu sistema. Isso seria 10 horas para 60 GB.

bbeé um pouco mais rápido

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

mas ainda leva 4 segundos.

Receio que essas linguagens de script não sejam a ferramenta para um bom desempenho em arquivos extremamente grandes. Que tal escrever um pequeno programa em C?

Answer

Usando sedpara unir apenas as linhas divididas

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

leva 6 segundos para um arquivo de 10 MB no meu sistema. Isso seria 10 horas para 60 GB.

bbeé um pouco mais rápido

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

mas ainda leva 4 segundos.

Receio que essas linguagens de script não sejam a ferramenta para um bom desempenho em arquivos extremamente grandes. Que tal escrever um pequeno programa em C?

Question 2

exemplo usando gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

Isso diz dividir o arquivo inputem qualquer sequência "seguida por uma nova linha ( \n). Isso ignorará as novas linhas que não seguem imediatamente as aspas, preservando os registros multilinhas. Neste exemplo, a saída é gravada em um arquivo de texto, mas se você remover a > n".txt"parte, poderá enviar registros para um pipeline.

Answer

exemplo usando gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

Isso diz dividir o arquivo inputem qualquer sequência "seguida por uma nova linha ( \n). Isso ignorará as novas linhas que não seguem imediatamente as aspas, preservando os registros multilinhas. Neste exemplo, a saída é gravada em um arquivo de texto, mas se você remover a > n".txt"parte, poderá enviar registros para um pipeline.

Question 3

Você Perlestá lento por causa do forloop que está sendo usado para ler o arquivo. Você realmente deveria estar usando o whileloop, já que o forloop carrega o arquivo inteiro na memória de uma só vez. É por isso que está demorando uma eternidade para imprimir $count.

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Answer

Você Perlestá lento por causa do forloop que está sendo usado para ler o arquivo. Você realmente deveria estar usando o whileloop, já que o forloop carrega o arquivo inteiro na memória de uma só vez. É por isso que está demorando uma eternidade para imprimir $count.

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

dividir um arquivo simples de 60 GB com registros ocasionalmente abrangendo várias linhas

Responder1

Responder2

Responder3

informação relacionada