대용량 파일의 시작 부분에서 텍스트를 제거하는 가장 좋은 방법

Question 1

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

설명:

-n suppress automatic printing of pattern space

주소 범위 구성: 정규식으로 시작

/-- Table structure for  `mytable`/

다음으로 끝남

$ Match the last line.

명령

p Print the current pattern space.

편집: 데이터베이스를 덤프한 방법에 따라매우긴 줄. GNU sed는 사용 가능한 메모리 양까지 이를 처리할 수 있습니다.

Answer

bunzip2 -c backup.sql.bz2 | \
  sed -n '/-- Table structure for `mytable`/,$p'

설명:

-n suppress automatic printing of pattern space

주소 범위 구성: 정규식으로 시작

/-- Table structure for  `mytable`/

다음으로 끝남

$ Match the last line.

명령

p Print the current pattern space.

편집: 데이터베이스를 덤프한 방법에 따라매우긴 줄. GNU sed는 사용 가능한 메모리 양까지 이를 처리할 수 있습니다.

Question 2

참고: 실제 답변은 아닙니다.

이 문제를 해결하려는 동기가 부여되었기 때문에지금, 나는 grep내가 원하는 파일에서 오프셋을 찾는 데 사용했습니다. 그것은 훌륭하게 작동했습니다.

불행하게도 실행하려면 기본적으로 버퍼링이 없음을 의미하는 dd설정이 필요하며 ibs=1성능이 끔찍합니다. dd가 완료되기를 기다리는 동안 바이트를 건너뛰기 위해 나만의 맞춤형 C 프로그램을 작성하는 데 시간을 보냈습니다. 그 일을 하고 나니, 나 tail역시 쉽게 그 일을 할 수 있었을 것입니다.

$ bunzip2 -c restore.sql.bz2 | tail -c +[offset] | bzip2 -c > restore-trimmed.sql.bz2

나는 "이것은 내 질문에 대답하지 않습니다"라고 말합니다. 왜냐하면 여전히 파일을 두 번 통과해야 하기 때문입니다. 하나는 내가 찾고 있는 것의 오프셋을 찾기 위한 것이고 다른 하나는 파일을 다듬기 위한 것입니다.

내 맞춤 프로그램으로 돌아가면 다음을 구현할 수 있습니다.KMP프로그램의 "읽기 전용" 단계에서 그 다음에는 "모든 항목 읽기+쓰기"로 전환합니다.

Answer