매우 큰 파일에서 문자열 대체

Question 1

다음을 사용하면 awk한 번에 엄청난 양의 텍스트를 읽는 것을 피할 수 있습니다.

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

성공 여부는 사용된 awk구현에 따라 달라질 수 있습니다. 예를 들어 gawk잘 작동하지만 mawk충돌이 발생합니다.

Answer

다음을 사용하면 awk한 번에 엄청난 양의 텍스트를 읽는 것을 피할 수 있습니다.

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

성공 여부는 사용된 awk구현에 따라 달라질 수 있습니다. 예를 들어 gawk잘 작동하지만 mawk충돌이 발생합니다.

Question 2

이렇게 하면 작업이 수행됩니다.

perl -pe 'BEGIN { $/ = "//" } s!(?=http://\z)!\n!' urls.txt

설정으로$///, 줄바꿈 대신 줄바꿈 으로 끝나도록 줄의 정의를 변경했습니다 . 이렇게 하면 Perl은 한 번에 하나의 URL을 읽게 됩니다. URL에 //구성표 이후를 제외하고는 포함되지 않을 가능성이 있지만, 포함하더라도 괜찮습니다. 정규식은 가짜 개행을 추가하지 못하게 합니다.

첫 번째 URL 앞에 빈 줄을 추가하지 않으려면 다음을 수행하세요.

perl -pe 'BEGIN { $/ = "//"; print scalar <> } s!(?=http://\z)!\n!' urls.txt

더 빠른지 확인하기 위해 벤치마킹을 시도해 볼 수도 있습니다 s!http://\z!\nhttp://!. 그것들은 동등합니다. /g"라인"당 하나의 일치 항목만 있을 수 있으므로 대체에는 플래그가 필요하지 않습니다 .

Answer