Teilen Sie eine 60 GB große Flachdatei mit Datensätzen auf, die sich gelegentlich über mehrere Zeilen erstrecken

Question 1

Verwenden Sie diese Option sed, um nur die geteilten Linien zu verbinden

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

dauert auf meinem System 6 Sekunden für eine 10 MB große Datei. Für 60 GB wären das 10 Stunden.

bbeist etwas schneller

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

dauert aber immer noch 4 Sekunden.

Ich fürchte, diese Skriptsprachen sind nicht das richtige Werkzeug, um bei extrem großen Dateien gute Ergebnisse zu erzielen. Wie wäre es, ein kleines Programm in zu schreiben C?

Answer

Verwenden Sie diese Option sed, um nur die geteilten Linien zu verbinden

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

dauert auf meinem System 6 Sekunden für eine 10 MB große Datei. Für 60 GB wären das 10 Stunden.

bbeist etwas schneller

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

dauert aber immer noch 4 Sekunden.

Ich fürchte, diese Skriptsprachen sind nicht das richtige Werkzeug, um bei extrem großen Dateien gute Ergebnisse zu erzielen. Wie wäre es, ein kleines Programm in zu schreiben C?

Question 2

Beispiel mit gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

Dies bedeutet, dass die Datei inputin eine beliebige Sequenz von "gefolgt von einem Zeilenumbruch ( \n) aufgeteilt werden soll. Dadurch werden Zeilenumbrüche ignoriert, die nicht unmittelbar auf ein Anführungszeichen folgen, sodass mehrzeilige Datensätze erhalten bleiben. In diesem Beispiel wird die Ausgabe in eine Textdatei geschrieben, aber wenn Sie den > n".txt"Teil entfernen, können Sie die Datensätze stattdessen an eine Pipeline senden.

Answer

Beispiel mit gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

Dies bedeutet, dass die Datei inputin eine beliebige Sequenz von "gefolgt von einem Zeilenumbruch ( \n) aufgeteilt werden soll. Dadurch werden Zeilenumbrüche ignoriert, die nicht unmittelbar auf ein Anführungszeichen folgen, sodass mehrzeilige Datensätze erhalten bleiben. In diesem Beispiel wird die Ausgabe in eine Textdatei geschrieben, aber wenn Sie den > n".txt"Teil entfernen, können Sie die Datensätze stattdessen an eine Pipeline senden.

Question 3

Ihr PerlVorgang ist langsam, weil die forSchleife zum Einlesen der Datei verwendet wird. Sie sollten die Schleife wirklich verwenden while, da die forSchleife die gesamte Datei auf einmal in den Speicher lädt. Deshalb dauert das Drucken von $count so lange.

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Answer

Ihr PerlVorgang ist langsam, weil die forSchleife zum Einlesen der Datei verwendet wird. Sie sollten die Schleife wirklich verwenden while, da die forSchleife die gesamte Datei auf einmal in den Speicher lädt. Deshalb dauert das Drucken von $count so lange.

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Teilen Sie eine 60 GB große Flachdatei mit Datensätzen auf, die sich gelegentlich über mehrere Zeilen erstrecken

Antwort1

Antwort2

Antwort3

verwandte Informationen