Разделить большой файл на части без разделения записи

Разделить большой файл на части без разделения записи

У меня есть довольно большой файл .msg, отформатированный в формате UIEE.

$ wc -l big_db.msg
8726593 big_db.msg

По сути, файл состоит из записей различной длины, которые выглядят примерно так:

UR|1
AA|Condon, Richard
TI|Prizzi's Family
CN|Collectable- Good/Good
MT|FICTION
PU|G.P. Putnam & Sons
DP|1986
ED|First Printing.
BD|Hard Cover
NT|0399132104
KE|MAFIA
KE|FICTION
PR|44.9
XA|4
XB|1
XC|BO
XD|S

UR|10
AA|Gariepy, Henry
TI|Portraits of Perseverance
CN|Good/No Jacket
MT|SOLD
PU|Victor Books
DP|1989
BD|Mass Market Paperback
NT|1989 tpb g 100 meditations from the Book of Job "This book...help you
NT| persevere through the struggles of your life..."
KE|Bible
KE|religion
KE|Job
KE|meditations
PR|28.4
XA|4
XB|5
XC|BO
XD|S

Это пример двух записей, разделенных пустой строкой. Я хочу разделить этот большой файл на файлы поменьше, не разбивая запись на два файла.

Каждая отдельная запись отделена новой строкой (полностью пустой строкой) в файле. Я хочу разбить этот файл из 8,7 миллионов строк на 15 файлов. Я понимаю, что splitсуществуют такие инструменты, но я не совсем уверен, как разделить файл, но только сделать его разделенным по новой строке, чтобы одна запись не разбивалась на несколько файлов.

решение1

Используя предложение csplit:

Разделение по номерам строк

$ csplit file.txt <num lines> "{repetitions}"

Пример

Допустим, у меня есть файл, содержащий 1000 строк.

$ seq 1000 > file.txt

$ csplit file.txt 100 "{8}"
288
400
400
400
400
400
400
400
400
405

В результате получаются такие файлы:

$ wc -l xx*
  99 xx00
 100 xx01
 100 xx02
 100 xx03
 100 xx04
 100 xx05
 100 xx06
 100 xx07
 100 xx08
 101 xx09
   1 xx10
1001 total

Вы можете обойти статическое ограничение, связанное с необходимостью указания количества повторений, заранее рассчитав числа на основе количества строк в вашем конкретном файле.

$ lines=100
$ echo $lines 
100

$ rep=$(( ($(wc -l file.txt | cut -d" " -f1) / $lines) -2 ))
$ echo $rep
8

$ csplit file.txt 100 "{$rep}"
288
400
400
400
400
400
400
400
400
405

Разделение на основе пустых строк

Если же вы хотите просто разделить файл по пустым строкам, содержащимся в файле, вы можете использовать эту версию split:

$ csplit file2.txt '/^$/' "{*}"

Пример

Допустим, я добавил 4 пустые строки к file.txtвышеприведенному и создал файл file2.txt. Вы можете видеть, что они были добавлены вручную, вот так:

$ grep -A1 -B1 "^$" file2.txt
20

21
--
72

73
--
112

113
--
178

179

Выше показано, что я добавил их между соответствующими числами в моем файле-образце. Теперь, когда я запускаю команду csplit:

$ csplit file2.txt '/^$/' "{*}"
51
157
134
265
3290

Вы видите, что теперь у меня есть 4 файла, разделенных по пустой строке:

$ grep -A1 -B1 '^$' xx0*
xx01:
xx01-21
--
xx02:
xx02-73
--
xx03:
xx03-113
--
xx04:
xx04-179

Рекомендации

решение2

Если вас не волнует порядок записей, вы можете сделать следующее:

gawk -vRS= '{printf "%s", $0 RT > "file.out." (NR-1)%15}' file.in

В противном случае вам сначала нужно будет получить количество записей, чтобы знать, сколько их нужно поместить в каждый выходной файл:

gawk -vRS= -v "n=$(gawk -vRS= 'END {print NR}' file.in)" '
  {printf "%s", $0 RT > "file.out." int((NR-1)*15/n)}' file.in

решение3

Вот решение, которое может сработать:

seq 1 $(((lines=$(wc -l </tmp/file))/16+1)) $lines |
sed 'N;s|\(.*\)\(\n\)\(.*\)|\1d;\1,\3w /tmp/uptoline\3\2\3|;P;$d;D' |
sed -ne :nl -ne '/\n$/!{N;bnl}' -nf - /tmp/file

Он работает, позволяя первому sedзаписывать sedскрипт второго. Второй sedсначала собирает все входные строки, пока не встретит пустую строку. Затем он записывает все выходные строки в файл. Первый sedзаписывает скрипт для второго, указывая ему, куда записывать свой вывод. В моем тестовом случае этот скрипт выглядел так:

1d;1,377w /tmp/uptoline377
377d;377,753w /tmp/uptoline753
753d;753,1129w /tmp/uptoline1129
1129d;1129,1505w /tmp/uptoline1505
1505d;1505,1881w /tmp/uptoline1881
1881d;1881,2257w /tmp/uptoline2257
2257d;2257,2633w /tmp/uptoline2633
2633d;2633,3009w /tmp/uptoline3009
3009d;3009,3385w /tmp/uptoline3385
3385d;3385,3761w /tmp/uptoline3761
3761d;3761,4137w /tmp/uptoline4137
4137d;4137,4513w /tmp/uptoline4513
4513d;4513,4889w /tmp/uptoline4889
4889d;4889,5265w /tmp/uptoline5265
5265d;5265,5641w /tmp/uptoline5641

Я проверил это так:

printf '%s\nand\nmore\nlines\nhere\n\n' $(seq 1000) >/tmp/file

В результате у меня получился файл из 6000 строк, который выглядел следующим образом:

<iteration#>
and
more
lines
here
#blank

...повторяется 1000 раз.

После запуска скрипта выше:

set -- /tmp/uptoline*
echo $# total splitfiles
for splitfile do
    echo $splitfile
    wc -l <$splitfile
    tail -n6 $splitfile
done    

ВЫХОД

15 total splitfiles
/tmp/uptoline1129
378
188
and
more
lines
here

/tmp/uptoline1505
372
250
and
more
lines
here

/tmp/uptoline1881
378
313
and
more
lines
here

/tmp/uptoline2257
378
376
and
more
lines
here

/tmp/uptoline2633
372
438
and
more
lines
here

/tmp/uptoline3009
378
501
and
more
lines
here

/tmp/uptoline3385
378
564
and
more
lines
here

/tmp/uptoline3761
372
626
and
more
lines
here

/tmp/uptoline377
372
62
and
more
lines
here

/tmp/uptoline4137
378
689
and
more
lines
here

/tmp/uptoline4513
378
752
and
more
lines
here

/tmp/uptoline4889
372
814
and
more
lines
here

/tmp/uptoline5265
378
877
and
more
lines
here

/tmp/uptoline5641
378
940
and
more
lines
here

/tmp/uptoline753
378
125
and
more
lines
here

решение4

Пытатьсяawk

awk 'BEGIN{RS="\n\n"}{print $0 > FILENAME"."FNR}' big_db.msg

Связанный контент