разделить плоский файл размером 60 ГБ с записями, иногда охватывающими несколько строк

Question 1

Используется sedтолько для соединения разделенных линий.

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

На моей системе файл размером 10 МБ загружается за 6 секунд. Для 60 ГБ это займет 10 часов.

bbeнемного быстрее

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

но все равно занимает 4 секунды.

Боюсь, эти скриптовые языки не подходят для работы с очень большими файлами. А как насчет написания небольшой программы на C?

Answer

Используется sedтолько для соединения разделенных линий.

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

На моей системе файл размером 10 МБ загружается за 6 секунд. Для 60 ГБ это займет 10 часов.

bbeнемного быстрее

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

но все равно занимает 4 секунды.

Боюсь, эти скриптовые языки не подходят для работы с очень большими файлами. А как насчет написания небольшой программы на C?

Question 2

пример использования gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

Это говорит о разделении файла inputна любую последовательность, за которой "следует символ новой строки ( \n). Это проигнорирует символы новой строки, которые не следуют сразу за кавычками, сохраняя многострочные записи. В этом примере вывод записывается в текстовый файл, но если вы удалите эту > n".txt"часть, вы можете вместо этого отправить записи в конвейер.

Answer

пример использования gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

Это говорит о разделении файла inputна любую последовательность, за которой "следует символ новой строки ( \n). Это проигнорирует символы новой строки, которые не следуют сразу за кавычками, сохраняя многострочные записи. В этом примере вывод записывается в текстовый файл, но если вы удалите эту > n".txt"часть, вы можете вместо этого отправить записи в конвейер.

Question 3

Ваш Perlмедленный из-за forцикла, используемого для чтения файла. Вам действительно следует использовать цикл while, поскольку forцикл загружает весь файл в память за один раз. Вот почему печать $count занимает вечность.

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Answer

Ваш Perlмедленный из-за forцикла, используемого для чтения файла. Вам действительно следует использовать цикл while, поскольку forцикл загружает весь файл в память за один раз. Вот почему печать $count занимает вечность.

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

разделить плоский файл размером 60 ГБ с записями, иногда охватывающими несколько строк

решение1

решение2

решение3

Связанный контент