Divida un archivo grande en fragmentos sin dividir la entrada

Question 1

Usando la sugerencia de csplit:

División basada en números de línea

$ csplit file.txt <num lines> "{repetitions}"

Ejemplo

Digamos que tengo un archivo con 1000 líneas.

$ seq 1000 > file.txt

$ csplit file.txt 100 "{8}"
288
400
400
400
400
400
400
400
400
405

da como resultado archivos como este:

$ wc -l xx*
  99 xx00
 100 xx01
 100 xx02
 100 xx03
 100 xx04
 100 xx05
 100 xx06
 100 xx07
 100 xx08
 101 xx09
   1 xx10
1001 total

Puede evitar la limitación estática de tener que especificar el número de repeticiones calculando previamente los números en función del número de líneas de su archivo particular con anticipación.

$ lines=100
$ echo $lines 
100

$ rep=$(( ($(wc -l file.txt | cut -d" " -f1) / $lines) -2 ))
$ echo $rep
8

$ csplit file.txt 100 "{$rep}"
288
400
400
400
400
400
400
400
400
405

División basada en líneas en blanco

Si, por otro lado, desea simplemente dividir un archivo en líneas en blanco contenidas en el archivo, puede usar esta versión de split:

$ csplit file2.txt '/^$/' "{*}"

Ejemplo

Digamos que agregué 4 líneas en blanco a lo file.txtanterior y creé el archivo file2.txt. Puedes ver que se han agregado manualmente de esta manera:

$ grep -A1 -B1 "^$" file2.txt
20

21
--
72

73
--
112

113
--
178

179

Lo anterior muestra que los agregué entre los números correspondientes dentro de mi archivo de muestra. Ahora cuando ejecuto el csplitcomando:

$ csplit file2.txt '/^$/' "{*}"
51
157
134
265
3290

Puedes ver que ahora tengo 4 archivos que se han dividido según la línea en blanco:

$ grep -A1 -B1 '^$' xx0*
xx01:
xx01-21
--
xx02:
xx02-73
--
xx03:
xx03-113
--
xx04:
xx04-179

Referencias

Answer

Usando la sugerencia de csplit:

División basada en números de línea

$ csplit file.txt <num lines> "{repetitions}"

Ejemplo

Digamos que tengo un archivo con 1000 líneas.

$ seq 1000 > file.txt

$ csplit file.txt 100 "{8}"
288
400
400
400
400
400
400
400
400
405

da como resultado archivos como este:

$ wc -l xx*
  99 xx00
 100 xx01
 100 xx02
 100 xx03
 100 xx04
 100 xx05
 100 xx06
 100 xx07
 100 xx08
 101 xx09
   1 xx10
1001 total

Puede evitar la limitación estática de tener que especificar el número de repeticiones calculando previamente los números en función del número de líneas de su archivo particular con anticipación.

$ lines=100
$ echo $lines 
100

$ rep=$(( ($(wc -l file.txt | cut -d" " -f1) / $lines) -2 ))
$ echo $rep
8

$ csplit file.txt 100 "{$rep}"
288
400
400
400
400
400
400
400
400
405

División basada en líneas en blanco

Si, por otro lado, desea simplemente dividir un archivo en líneas en blanco contenidas en el archivo, puede usar esta versión de split:

$ csplit file2.txt '/^$/' "{*}"

Ejemplo

Digamos que agregué 4 líneas en blanco a lo file.txtanterior y creé el archivo file2.txt. Puedes ver que se han agregado manualmente de esta manera:

$ grep -A1 -B1 "^$" file2.txt
20

21
--
72

73
--
112

113
--
178

179

Lo anterior muestra que los agregué entre los números correspondientes dentro de mi archivo de muestra. Ahora cuando ejecuto el csplitcomando:

$ csplit file2.txt '/^$/' "{*}"
51
157
134
265
3290

Puedes ver que ahora tengo 4 archivos que se han dividido según la línea en blanco:

$ grep -A1 -B1 '^$' xx0*
xx01:
xx01-21
--
xx02:
xx02-73
--
xx03:
xx03-113
--
xx04:
xx04-179

Referencias

Question 2

Si no te importa el orden de los registros, puedes hacer:

gawk -vRS= '{printf "%s", $0 RT > "file.out." (NR-1)%15}' file.in

De lo contrario, primero deberá obtener la cantidad de registros para saber cuántos colocar en cada archivo de salida:

gawk -vRS= -v "n=$(gawk -vRS= 'END {print NR}' file.in)" '
  {printf "%s", $0 RT > "file.out." int((NR-1)*15/n)}' file.in

Answer

Si no te importa el orden de los registros, puedes hacer:

gawk -vRS= '{printf "%s", $0 RT > "file.out." (NR-1)%15}' file.in

De lo contrario, primero deberá obtener la cantidad de registros para saber cuántos colocar en cada archivo de salida:

gawk -vRS= -v "n=$(gawk -vRS= 'END {print NR}' file.in)" '
  {printf "%s", $0 RT > "file.out." int((NR-1)*15/n)}' file.in

Question 3

Aquí hay una solución que podría funcionar:

seq 1 $(((lines=$(wc -l </tmp/file))/16+1)) $lines |
sed 'N;s|\(.*\)\(\n\)\(.*\)|\1d;\1,\3w /tmp/uptoline\3\2\3|;P;$d;D' |
sed -ne :nl -ne '/\n$/!{N;bnl}' -nf - /tmp/file

Funciona permitiendo que el primero sedescriba el sedguión del segundo. El segundo sedprimero reúne todas las líneas de entrada hasta que encuentra una línea en blanco. Luego escribe todas las líneas de salida en un archivo. El primero sedescribe un script para el segundo indicándole dónde escribir su salida. En mi caso de prueba, ese script se veía así:

1d;1,377w /tmp/uptoline377
377d;377,753w /tmp/uptoline753
753d;753,1129w /tmp/uptoline1129
1129d;1129,1505w /tmp/uptoline1505
1505d;1505,1881w /tmp/uptoline1881
1881d;1881,2257w /tmp/uptoline2257
2257d;2257,2633w /tmp/uptoline2633
2633d;2633,3009w /tmp/uptoline3009
3009d;3009,3385w /tmp/uptoline3385
3385d;3385,3761w /tmp/uptoline3761
3761d;3761,4137w /tmp/uptoline4137
4137d;4137,4513w /tmp/uptoline4513
4513d;4513,4889w /tmp/uptoline4889
4889d;4889,5265w /tmp/uptoline5265
5265d;5265,5641w /tmp/uptoline5641

Lo probé así:

printf '%s\nand\nmore\nlines\nhere\n\n' $(seq 1000) >/tmp/file

Esto me proporcionó un archivo de 6000 líneas, que se veía así:

<iteration#>
and
more
lines
here
#blank

...repetido 1000 veces.

Después de ejecutar el script anterior:

set -- /tmp/uptoline*
echo $# total splitfiles
for splitfile do
    echo $splitfile
    wc -l <$splitfile
    tail -n6 $splitfile
done

PRODUCCIÓN

15 total splitfiles
/tmp/uptoline1129
378
188
and
more
lines
here

/tmp/uptoline1505
372
250
and
more
lines
here

/tmp/uptoline1881
378
313
and
more
lines
here

/tmp/uptoline2257
378
376
and
more
lines
here

/tmp/uptoline2633
372
438
and
more
lines
here

/tmp/uptoline3009
378
501
and
more
lines
here

/tmp/uptoline3385
378
564
and
more
lines
here

/tmp/uptoline3761
372
626
and
more
lines
here

/tmp/uptoline377
372
62
and
more
lines
here

/tmp/uptoline4137
378
689
and
more
lines
here

/tmp/uptoline4513
378
752
and
more
lines
here

/tmp/uptoline4889
372
814
and
more
lines
here

/tmp/uptoline5265
378
877
and
more
lines
here

/tmp/uptoline5641
378
940
and
more
lines
here

/tmp/uptoline753
378
125
and
more
lines
here

Answer

Aquí hay una solución que podría funcionar:

seq 1 $(((lines=$(wc -l </tmp/file))/16+1)) $lines |
sed 'N;s|\(.*\)\(\n\)\(.*\)|\1d;\1,\3w /tmp/uptoline\3\2\3|;P;$d;D' |
sed -ne :nl -ne '/\n$/!{N;bnl}' -nf - /tmp/file

Funciona permitiendo que el primero sedescriba el sedguión del segundo. El segundo sedprimero reúne todas las líneas de entrada hasta que encuentra una línea en blanco. Luego escribe todas las líneas de salida en un archivo. El primero sedescribe un script para el segundo indicándole dónde escribir su salida. En mi caso de prueba, ese script se veía así:

1d;1,377w /tmp/uptoline377
377d;377,753w /tmp/uptoline753
753d;753,1129w /tmp/uptoline1129
1129d;1129,1505w /tmp/uptoline1505
1505d;1505,1881w /tmp/uptoline1881
1881d;1881,2257w /tmp/uptoline2257
2257d;2257,2633w /tmp/uptoline2633
2633d;2633,3009w /tmp/uptoline3009
3009d;3009,3385w /tmp/uptoline3385
3385d;3385,3761w /tmp/uptoline3761
3761d;3761,4137w /tmp/uptoline4137
4137d;4137,4513w /tmp/uptoline4513
4513d;4513,4889w /tmp/uptoline4889
4889d;4889,5265w /tmp/uptoline5265
5265d;5265,5641w /tmp/uptoline5641

Lo probé así:

printf '%s\nand\nmore\nlines\nhere\n\n' $(seq 1000) >/tmp/file

Esto me proporcionó un archivo de 6000 líneas, que se veía así:

<iteration#>
and
more
lines
here
#blank

...repetido 1000 veces.

Después de ejecutar el script anterior:

set -- /tmp/uptoline*
echo $# total splitfiles
for splitfile do
    echo $splitfile
    wc -l <$splitfile
    tail -n6 $splitfile
done

PRODUCCIÓN

15 total splitfiles
/tmp/uptoline1129
378
188
and
more
lines
here

/tmp/uptoline1505
372
250
and
more
lines
here

/tmp/uptoline1881
378
313
and
more
lines
here

/tmp/uptoline2257
378
376
and
more
lines
here

/tmp/uptoline2633
372
438
and
more
lines
here

/tmp/uptoline3009
378
501
and
more
lines
here

/tmp/uptoline3385
378
564
and
more
lines
here

/tmp/uptoline3761
372
626
and
more
lines
here

/tmp/uptoline377
372
62
and
more
lines
here

/tmp/uptoline4137
378
689
and
more
lines
here

/tmp/uptoline4513
378
752
and
more
lines
here

/tmp/uptoline4889
372
814
and
more
lines
here

/tmp/uptoline5265
378
877
and
more
lines
here

/tmp/uptoline5641
378
940
and
more
lines
here

/tmp/uptoline753
378
125
and
more
lines
here

Question 4

Intentarawk

awk 'BEGIN{RS="\n\n"}{print $0 > FILENAME"."FNR}' big_db.msg

Answer

Intentarawk

awk 'BEGIN{RS="\n\n"}{print $0 > FILENAME"."FNR}' big_db.msg

Divida un archivo grande en fragmentos sin dividir la entrada

Respuesta1

División basada en números de línea

Ejemplo

División basada en líneas en blanco

Ejemplo

Referencias

Respuesta2

Respuesta3

PRODUCCIÓN

Respuesta4

información relacionada