때때로 여러 줄에 걸쳐 있는 레코드로 60GB 플랫 파일을 분할합니다.

Question 1

sed분할된 선만 연결하는 데 사용

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

내 시스템에서 10MB 파일을 생성하는 데 6초가 걸립니다. 60GB의 경우 10시간이 소요됩니다.

bbe조금 더 빠르다

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

하지만 여전히 4초가 걸립니다.

유감스럽게도 이러한 스크립팅 언어는 매우 큰 파일에서 좋은 성능을 발휘하는 도구가 아닙니다. 에 작은 프로그램을 작성해 보는 것은 어떨까요 C?

Answer

sed분할된 선만 연결하는 데 사용

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

내 시스템에서 10MB 파일을 생성하는 데 6초가 걸립니다. 60GB의 경우 10시간이 소요됩니다.

bbe조금 더 빠르다

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

하지만 여전히 4초가 걸립니다.

유감스럽게도 이러한 스크립팅 언어는 매우 큰 파일에서 좋은 성능을 발휘하는 도구가 아닙니다. 에 작은 프로그램을 작성해 보는 것은 어떨까요 C?

Question 2

다음을 사용하는 예 gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

이는 파일을 input임의의 순서로 분할하고 "그 뒤에 개행 문자( \n)가 오는 것을 의미합니다. 이렇게 하면 따옴표 바로 뒤에 오지 않는 개행 문자가 무시되어 여러 줄의 레코드가 유지됩니다. 이 예에서는 출력이 텍스트 파일에 기록되지만 해당 부분을 제거한 경우 > n".txt"대신 레코드를 파이프라인으로 보낼 수 있습니다.

Answer

다음을 사용하는 예 gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

이는 파일을 input임의의 순서로 분할하고 "그 뒤에 개행 문자( \n)가 오는 것을 의미합니다. 이렇게 하면 따옴표 바로 뒤에 오지 않는 개행 문자가 무시되어 여러 줄의 레코드가 유지됩니다. 이 예에서는 출력이 텍스트 파일에 기록되지만 해당 부분을 제거한 경우 > n".txt"대신 레코드를 파이프라인으로 보낼 수 있습니다.

Question 3

파일을 읽는 데 루프가 사용되기 Perl때문에 속도가 느립니다 . 루프는 한 번에 전체 파일을 메모리에 로드하므로 실제로 루프를 for사용해야 합니다 . 그렇기 때문에 $count를 인쇄하는 데 시간이 오래 걸립니다.whilefor

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Answer

파일을 읽는 데 루프가 사용되기 Perl때문에 속도가 느립니다 . 루프는 한 번에 전체 파일을 메모리에 로드하므로 실제로 루프를 for사용해야 합니다 . 그렇기 때문에 $count를 인쇄하는 데 시간이 오래 걸립니다.whilefor

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

때때로 여러 줄에 걸쳐 있는 레코드로 60GB 플랫 파일을 분할합니다.

답변1

답변2

답변3

관련 정보