Melhor maneira de remover texto do início de um arquivo enorme

Question 1

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

Explicação:

-n suppress automatic printing of pattern space

Construção de intervalo de endereços: comece com regex

/-- Table structure for  `mytable`/

Terminar com

$ Match the last line.

Comando

p Print the current pattern space.

Editar: dependendo de como você despejou o banco de dados, você pode termuitolongas filas. GNU sed pode lidar com eles até a quantidade de memória disponível.

Answer

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

Explicação:

-n suppress automatic printing of pattern space

Construção de intervalo de endereços: comece com regex

/-- Table structure for  `mytable`/

Terminar com

$ Match the last line.

Comando

p Print the current pattern space.

Editar: dependendo de como você despejou o banco de dados, você pode termuitolongas filas. GNU sed pode lidar com eles até a quantidade de memória disponível.

Question 2

NOTA: Não é uma resposta real

Já que eu estava motivado para resolver issoagora, fui em frente e grepencontrei o deslocamento no arquivo que queria; funcionou muito bem.

Infelizmente, a execução ddrequer que você defina, ibs=1o que basicamente significa que não há buffer e o desempenho é terrível. Enquanto esperava a conclusão do dd, passei um tempo escrevendo meu próprio programa C personalizado para pular os bytes. Depois de fazer isso, vejo que tailpoderia ter feito isso por mim com a mesma facilidade:

$ bunzip2 -c restore.sql.bz2 | tail -c +[offset] | bzip2 -c > restore-trimmed.sql.bz2

Digo "isso não responde à minha pergunta" porque ainda requer duas passagens pelo arquivo: uma para encontrar o deslocamento do que estou procurando e outra para cortar o arquivo.

Se eu voltasse ao meu programa personalizado, poderia implementar umKMPdurante a fase "somente leitura" do programa e depois mude para "ler + escrever tudo" depois disso.

Answer

NOTA: Não é uma resposta real

Já que eu estava motivado para resolver issoagora, fui em frente e grepencontrei o deslocamento no arquivo que queria; funcionou muito bem.

Infelizmente, a execução ddrequer que você defina, ibs=1o que basicamente significa que não há buffer e o desempenho é terrível. Enquanto esperava a conclusão do dd, passei um tempo escrevendo meu próprio programa C personalizado para pular os bytes. Depois de fazer isso, vejo que tailpoderia ter feito isso por mim com a mesma facilidade:

$ bunzip2 -c restore.sql.bz2 | tail -c +[offset] | bzip2 -c > restore-trimmed.sql.bz2

Digo "isso não responde à minha pergunta" porque ainda requer duas passagens pelo arquivo: uma para encontrar o deslocamento do que estou procurando e outra para cortar o arquivo.

Se eu voltasse ao meu programa personalizado, poderia implementar umKMPdurante a fase "somente leitura" do programa e depois mude para "ler + escrever tudo" depois disso.

Question 3

Eu me pergunto se algo assim funcionaria:

use strict;
use warnings;
use feature 'say';

use IO::Uncompress::Bunzip2 '$Bunzip2Error';

my $file = $ARGV[0] // die "need a file";

my $zh = IO::Uncompress::Bunzip2->new( $file, {
    AutoClose   => 1,
    Transparent => 1,
} ) or die "IO::Uncompress::Bunzip2 failed: $Bunzip2Error\n";

my $trigger = undef;
while ( <$zh> ) {
    chomp;
    $trigger = 1 if $_ eq '-- Dumping data for table `experiments`';
    say if $trigger;
}

Então, basicamente, ele começa a imprimir coisas após o padrão, também é possível canalizá-lo diretamente para bzip2/gzip, como perl chop.pl input_sql.bz2 | bzip2 > out.sql.bz2 você precisaria libio-compress-perlno Debian.

Answer

Eu me pergunto se algo assim funcionaria:

use strict;
use warnings;
use feature 'say';

use IO::Uncompress::Bunzip2 '$Bunzip2Error';

my $file = $ARGV[0] // die "need a file";

my $zh = IO::Uncompress::Bunzip2->new( $file, {
    AutoClose   => 1,
    Transparent => 1,
} ) or die "IO::Uncompress::Bunzip2 failed: $Bunzip2Error\n";

my $trigger = undef;
while ( <$zh> ) {
    chomp;
    $trigger = 1 if $_ eq '-- Dumping data for table `experiments`';
    say if $trigger;
}

Então, basicamente, ele começa a imprimir coisas após o padrão, também é possível canalizá-lo diretamente para bzip2/gzip, como perl chop.pl input_sql.bz2 | bzip2 > out.sql.bz2 você precisaria libio-compress-perlno Debian.

Melhor maneira de remover texto do início de um arquivo enorme

Responder1

Responder2

Responder3

informação relacionada