分割一個 60GB 的平面文件，記錄偶爾跨越多行

Question 1

僅用於sed連接分割線

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

在我的系統上處理一個 10 MB 的檔案需要 6 秒。對於 60 GB，這將是 10 小時。

bbe有點快

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

但仍需要 4 秒。

恐怕這些腳本語言不是在極大文件上表現良好的工具。寫一個小程式怎麼樣C？

Answer

僅用於sed連接分割線

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

在我的系統上處理一個 10 MB 的檔案需要 6 秒。對於 60 GB，這將是 10 小時。

bbe有點快

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

但仍需要 4 秒。

恐怕這些腳本語言不是在極大文件上表現良好的工具。寫一個小程式怎麼樣C？

Question 2

使用範例gawk：

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

input這表示按照任意順序分割文件，"後面跟著換行符 ( \n)。這將忽略不立即跟在引號後面的換行符，從而保留多行記錄。在此範例中，輸出寫入文字文件，但如果刪除該> n".txt"部分，則可以將記錄傳送到管道。

Answer

使用範例gawk：

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

input這表示按照任意順序分割文件，"後面跟著換行符 ( \n)。這將忽略不立即跟在引號後面的換行符，從而保留多行記錄。在此範例中，輸出寫入文字文件，但如果刪除該> n".txt"部分，則可以將記錄傳送到管道。

Question 3

Perl由於for使用循環來讀取文件，因此您的速度很慢。您確實應該使用while循環，因為for循環一次性將整個文件加載到記憶體中。這就是為什麼列印 $count 需要很長時間的原因。

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Answer

Perl由於for使用循環來讀取文件，因此您的速度很慢。您確實應該使用while循環，因為for循環一次性將整個文件加載到記憶體中。這就是為什麼列印 $count 需要很長時間的原因。

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

相關內容