La mejor manera de eliminar texto del principio de un archivo enorme

Question 1

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

Explicación:

-n suppress automatic printing of pattern space

Construcción del rango de direcciones: comience con expresiones regulares

/-- Table structure for  `mytable`/

Terminar con

$ Match the last line.

Dominio

p Print the current pattern space.

Editar: dependiendo de cómo descartó la base de datos, es posible que tengamuylíneas largas. GNU sed puede manejarlos hasta la cantidad de memoria disponible.

Answer

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

Explicación:

-n suppress automatic printing of pattern space

Construcción del rango de direcciones: comience con expresiones regulares

/-- Table structure for  `mytable`/

Terminar con

$ Match the last line.

Dominio

p Print the current pattern space.

Editar: dependiendo de cómo descartó la base de datos, es posible que tengamuylíneas largas. GNU sed puede manejarlos hasta la cantidad de memoria disponible.

Question 2

NOTA: No es una respuesta real

Ya que estaba motivado para resolver esto.ahora, Seguí adelante y solía grepencontrar el desplazamiento en el archivo que quería; funcionó muy bien.

Desafortunadamente, ejecutarlo ddrequiere que lo configures, ibs=1lo que básicamente significa que no hay almacenamiento en búfer y el rendimiento es terrible. Mientras esperaba que se completara dd, dediqué tiempo a escribir mi propio programa C personalizado para omitir los bytes. Después de haber hecho eso, veo que tailpodría haberlo hecho por mí con la misma facilidad:

$ bunzip2 -c restore.sql.bz2 | tail -c +[offset] | bzip2 -c > restore-trimmed.sql.bz2

Digo "esto no responde a mi pregunta" porque todavía requiere dos pasadas por el archivo: una para encontrar el desplazamiento de lo que estoy buscando y otra para recortar el archivo.

Si volviera a mi programa personalizado, podría implementar unKMPdurante la fase de "solo lectura" del programa y luego cambie a "leer+escribir todo" después de eso.

Answer

NOTA: No es una respuesta real

Ya que estaba motivado para resolver esto.ahora, Seguí adelante y solía grepencontrar el desplazamiento en el archivo que quería; funcionó muy bien.

Desafortunadamente, ejecutarlo ddrequiere que lo configures, ibs=1lo que básicamente significa que no hay almacenamiento en búfer y el rendimiento es terrible. Mientras esperaba que se completara dd, dediqué tiempo a escribir mi propio programa C personalizado para omitir los bytes. Después de haber hecho eso, veo que tailpodría haberlo hecho por mí con la misma facilidad:

$ bunzip2 -c restore.sql.bz2 | tail -c +[offset] | bzip2 -c > restore-trimmed.sql.bz2

Digo "esto no responde a mi pregunta" porque todavía requiere dos pasadas por el archivo: una para encontrar el desplazamiento de lo que estoy buscando y otra para recortar el archivo.

Si volviera a mi programa personalizado, podría implementar unKMPdurante la fase de "solo lectura" del programa y luego cambie a "leer+escribir todo" después de eso.

Question 3

Me pregunto si algo así funcionaría:

use strict;
use warnings;
use feature 'say';

use IO::Uncompress::Bunzip2 '$Bunzip2Error';

my $file = $ARGV[0] // die "need a file";

my $zh = IO::Uncompress::Bunzip2->new( $file, {
    AutoClose   => 1,
    Transparent => 1,
} ) or die "IO::Uncompress::Bunzip2 failed: $Bunzip2Error\n";

my $trigger = undef;
while ( <$zh> ) {
    chomp;
    $trigger = 1 if $_ eq '-- Dumping data for table `experiments`';
    say if $trigger;
}

Básicamente, comienza a imprimir cosas después del patrón, también se puede canalizar directamente a bzip2/gzip, como perl chop.pl input_sql.bz2 | bzip2 > out.sql.bz2 lo necesitarías libio-compress-perlen Debian.

Answer

Me pregunto si algo así funcionaría:

use strict;
use warnings;
use feature 'say';

use IO::Uncompress::Bunzip2 '$Bunzip2Error';

my $file = $ARGV[0] // die "need a file";

my $zh = IO::Uncompress::Bunzip2->new( $file, {
    AutoClose   => 1,
    Transparent => 1,
} ) or die "IO::Uncompress::Bunzip2 failed: $Bunzip2Error\n";

my $trigger = undef;
while ( <$zh> ) {
    chomp;
    $trigger = 1 if $_ eq '-- Dumping data for table `experiments`';
    say if $trigger;
}

Básicamente, comienza a imprimir cosas después del patrón, también se puede canalizar directamente a bzip2/gzip, como perl chop.pl input_sql.bz2 | bzip2 > out.sql.bz2 lo necesitarías libio-compress-perlen Debian.

La mejor manera de eliminar texto del principio de un archivo enorme

Respuesta1

Respuesta2

Respuesta3

información relacionada