レコードが複数行にまたがることがある 60 GB のフラットファイルを分割する

Question 1

sed分割された線のみを結合するために使用する

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

私のシステムでは、10 MB のファイルの場合 6 秒かかります。60 GB の場合は 10 時間かかります。

bbe少し速い

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

それでも4秒かかります。

残念ながら、これらのスクリプト言語は、非常に大きなファイルに対して優れたパフォーマンスを発揮するツールではありません。で小さなプログラムを書いてみてはいかがでしょうかC。

Answer

sed分割された線のみを結合するために使用する

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

私のシステムでは、10 MB のファイルの場合 6 秒かかります。60 GB の場合は 10 時間かかります。

bbe少し速い

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

それでも4秒かかります。

残念ながら、これらのスクリプト言語は、非常に大きなファイルに対して優れたパフォーマンスを発揮するツールではありません。で小さなプログラムを書いてみてはいかがでしょうかC。

Question 2

使用例gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

これは、の後に改行 ( ) が続くinput任意のシーケンスでファイルを分割することを意味します。これにより、引用符の直後にない改行は無視され、複数行のレコードが保持されます。この例では、出力はテキストファイルに書き込まれますが、その部分を削除すると、代わりにレコードをパイプラインに送信できます。"\n> n".txt"

Answer

使用例gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

これは、の後に改行 ( ) が続くinput任意のシーケンスでファイルを分割することを意味します。これにより、引用符の直後にない改行は無視され、複数行のレコードが保持されます。この例では、出力はテキストファイルに書き込まれますが、その部分を削除すると、代わりにレコードをパイプラインに送信できます。"\n> n".txt"

Question 3

ファイルの読み込みにループを使用しているため、処理Perlが遅くなっています。ループはファイル全体を一度にメモリに読み込むため、ループを使用する必要があります。そのため、$count の印刷に非常に時間がかかります。forwhilefor

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Answer

ファイルの読み込みにループを使用しているため、処理Perlが遅くなっています。ループはファイル全体を一度にメモリに読み込むため、ループを使用する必要があります。そのため、$count の印刷に非常に時間がかかります。forwhilefor

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

レコードが複数行にまたがることがある 60 GB のフラットファイルを分割する

答え1

答え2

答え3

関連情報