dividir un archivo plano de 60 GB con registros que ocasionalmente abarcan varias líneas

Question 1

Usar sedpara unir solo las líneas divididas

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

Toma 6 segundos para un archivo de 10 MB en mi sistema. Serían 10 horas para 60 GB.

bbees un poco mas rapido

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

pero todavía toma 4 segundos.

Me temo que esos lenguajes de secuencias de comandos no son la herramienta adecuada para funcionar bien en archivos extremadamente grandes. ¿Qué tal escribir un pequeño programa en C?

Answer

Usar sedpara unir solo las líneas divididas

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

Toma 6 segundos para un archivo de 10 MB en mi sistema. Serían 10 horas para 60 GB.

bbees un poco mas rapido

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

pero todavía toma 4 segundos.

Me temo que esos lenguajes de secuencias de comandos no son la herramienta adecuada para funcionar bien en archivos extremadamente grandes. ¿Qué tal escribir un pequeño programa en C?

Question 2

ejemplo usando gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

Esto dice dividir el archivo inputen cualquier secuencia "seguido de una nueva línea ( \n). Esto ignorará las nuevas líneas que no siguen inmediatamente a una comilla, preservando los registros de varias líneas. En este ejemplo, la salida se escribe en un archivo de texto, pero si eliminó la > n".txt"parte, podría enviar registros a una canalización.

Answer

ejemplo usando gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

Esto dice dividir el archivo inputen cualquier secuencia "seguido de una nueva línea ( \n). Esto ignorará las nuevas líneas que no siguen inmediatamente a una comilla, preservando los registros de varias líneas. En este ejemplo, la salida se escribe en un archivo de texto, pero si eliminó la > n".txt"parte, podría enviar registros a una canalización.

Question 3

Es Perllento debido a que forse utiliza el bucle para leer el archivo. Realmente deberías usar el whilebucle, ya que el forbucle carga todo el archivo en la memoria de una sola vez. Es por eso que se tarda una eternidad en imprimir $count.

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Answer

Es Perllento debido a que forse utiliza el bucle para leer el archivo. Realmente deberías usar el whilebucle, ya que el forbucle carga todo el archivo en la memoria de una sola vez. Es por eso que se tarda una eternidad en imprimir $count.

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

dividir un archivo plano de 60 GB con registros que ocasionalmente abarcan varias líneas

Respuesta1

Respuesta2

Respuesta3

información relacionada