巨大なファイルの先頭からテキストを削除する最良の方法

Question 1

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

説明：

-n suppress automatic printing of pattern space

アドレス範囲の構築: 正規表現で開始

/-- Table structure for  `mytable`/

終了

$ Match the last line.

指示

p Print the current pattern space.

編集：データベースをどのようにダンプしたかによって、とても長い行。GNU sed は、使用可能なメモリの量までそれらを処理できます。

Answer

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

説明：

-n suppress automatic printing of pattern space

アドレス範囲の構築: 正規表現で開始

/-- Table structure for  `mytable`/

終了

$ Match the last line.

指示

p Print the current pattern space.

編集：データベースをどのようにダンプしたかによって、とても長い行。GNU sed は、使用可能なメモリの量までそれらを処理できます。

Question 2

注: 実際の回答ではありません

私はこれを解決したいという意欲があったので今、私は先に進み、grep必要なファイル内のオフセットを見つけるために使用しました。それはうまくいきました。

残念ながら、実行するにddは設定が必要ですibs=1。これは基本的にバッファリングがないことを意味し、パフォーマンスはひどいです。dd が完了するのを待っている間に、バイトをスキップするための独自のカスタムビルド C プログラムを書くのに時間を費やしました。それをやった後、tail同じことが簡単にできたことがわかりました。

$ bunzip2 -c restore.sql.bz2 | tail -c +[offset] | bzip2 -c > restore-trimmed.sql.bz2

「これは私の質問への答えになっていない」と言うのは、まだファイルを調べるのに 2 回必要だからです。1 回は探しているもののオフセットを見つけるため、もう 1 回はファイルをトリミングするためです。

カスタムプログラムに戻れば、ケムピープログラムの「読み取り専用」フェーズ中に実行し、その後「すべてを読み取り+書き込み」に切り替えます。

Answer