unix - 巨大な .gz ファイルを行ごとに分割する

Question 1

これを最も効果的に行う方法は、何を望んでいるかによって異なります。

大きなファイルの一部を抽出しますか?
それとも、すべてのパーツを一度に作成しますか?

もしあなたがファイルの一部、あなたのアイデアはgunzip正しいheadです。次のものを使用できます。

gunzip -c hugefile.txt.gz | head -n 4000000

これにより、最初の 4000000 行が標準出力に出力されます。実際にデータに対して何かを行うには、別のパイプを追加する必要があるでしょう。

head他の部分を取得するには、次のようにとの組み合わせを使用しますtail。

gunzip -c hugefile.txt.gz | head -n 8000000 |tail -n 4000000

2番目のブロックを取得します。

これらを連続して実行するのが解決策でしょうか、それともgunzip -cではファイル全体を解凍するのに十分なスペースが必要でしょうか

いいえ、gunzip -cディスクスペースは必要ありません。すべてをメモリ内で実行し、それを stdout にストリーム出力します。

作成したい場合はすべての部品を一度に、入力ファイルが一度だけ読み込まれるため、すべてを 1 つのコマンドで作成した方が効率的です。 1 つの良い解決策はを使用することですsplit。詳細については、jim mcnamara の回答を参照してください。

Answer

これを最も効果的に行う方法は、何を望んでいるかによって異なります。

大きなファイルの一部を抽出しますか?
それとも、すべてのパーツを一度に作成しますか?

もしあなたがファイルの一部、あなたのアイデアはgunzip正しいheadです。次のものを使用できます。

gunzip -c hugefile.txt.gz | head -n 4000000

これにより、最初の 4000000 行が標準出力に出力されます。実際にデータに対して何かを行うには、別のパイプを追加する必要があるでしょう。

head他の部分を取得するには、次のようにとの組み合わせを使用しますtail。

gunzip -c hugefile.txt.gz | head -n 8000000 |tail -n 4000000

2番目のブロックを取得します。

これらを連続して実行するのが解決策でしょうか、それともgunzip -cではファイル全体を解凍するのに十分なスペースが必要でしょうか

いいえ、gunzip -cディスクスペースは必要ありません。すべてをメモリ内で実行し、それを stdout にストリーム出力します。

作成したい場合はすべての部品を一度に、入力ファイルが一度だけ読み込まれるため、すべてを 1 つのコマンドで作成した方が効率的です。 1 つの良い解決策はを使用することですsplit。詳細については、jim mcnamara の回答を参照してください。

Question 2

パイプを分割するには、gunzip -c または zcat を使用してファイルを開きます。

gunzip -c bigfile.gz | split -l 400000

分割コマンドに出力仕様を追加します。

Answer

パイプを分割するには、gunzip -c または zcat を使用してファイルを開きます。

gunzip -c bigfile.gz | split -l 400000

分割コマンドに出力仕様を追加します。

Question 3

(巻き戻し不可能な) ストリームで作業している場合は、行 N 以降から始まる行を取得するために、tail の '+N' 形式を使用する必要があります。

zcat hugefile.txt.gz | head -n 40000000
zcat hugefile.txt.gz | tail -n +40000001 | head -n 40000000
zcat hugefile.txt.gz | tail -n +80000001 | head -n 40000000

Answer

(巻き戻し不可能な) ストリームで作業している場合は、行 N 以降から始まる行を取得するために、tail の '+N' 形式を使用する必要があります。

zcat hugefile.txt.gz | head -n 40000000
zcat hugefile.txt.gz | tail -n +40000001 | head -n 40000000
zcat hugefile.txt.gz | tail -n +80000001 | head -n 40000000

Question 4

.gz ファイルを .gz ファイルに直接分割します。

zcat bigfile.gz | split -l 400000 --filter='gzip > $FILE.gz'

OP が望んでいたのはこれだと思います。スペースがあまりないからです。

Answer

.gz ファイルを .gz ファイルに直接分割します。

zcat bigfile.gz | split -l 400000 --filter='gzip > $FILE.gz'

OP が望んでいたのはこれだと思います。スペースがあまりないからです。

unix - 巨大な .gz ファイルを行ごとに分割する

答え1

答え2

答え3

答え4

関連情報