Замена строк в очень большом файле

Question 1

С помощью этого awkвы сможете избежать чтения большого объема текста за один раз:

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

Успех может зависеть от используемой awkреализации. Например, gawkработает нормально, но mawkвылетает.

Answer

С помощью этого awkвы сможете избежать чтения большого объема текста за один раз:

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

Успех может зависеть от используемой awkреализации. Например, gawkработает нормально, но mawkвылетает.

Question 2

Это сделает работу:

perl -pe 'BEGIN { $/ = "//" } s!(?=http://\z)!\n!' urls.txt

Установив$/, я изменил определение строки, так что она заканчивается на //вместо новой строки. Это заставляет Perl читать по одному URL за раз. Маловероятно, что URL содержит //except после схемы, но это нормально, если это так, регулярное выражение не даст ему добавлять ложные новые строки.

Если вы хотите избежать добавления пустой строки перед первым URL:

perl -pe 'BEGIN { $/ = "//"; print scalar <> } s!(?=http://\z)!\n!' urls.txt

Вы можете попробовать провести бенчмаркинг, чтобы увидеть, что s!http://\z!\nhttp://!быстрее. Они эквивалентны. Обратите внимание, что /gфлаг не нужен при замене, потому что может быть только одно совпадение на «строку».

Answer

Это сделает работу:

perl -pe 'BEGIN { $/ = "//" } s!(?=http://\z)!\n!' urls.txt

Установив$/, я изменил определение строки, так что она заканчивается на //вместо новой строки. Это заставляет Perl читать по одному URL за раз. Маловероятно, что URL содержит //except после схемы, но это нормально, если это так, регулярное выражение не даст ему добавлять ложные новые строки.

Если вы хотите избежать добавления пустой строки перед первым URL:

perl -pe 'BEGIN { $/ = "//"; print scalar <> } s!(?=http://\z)!\n!' urls.txt

Вы можете попробовать провести бенчмаркинг, чтобы увидеть, что s!http://\z!\nhttp://!быстрее. Они эквивалентны. Обратите внимание, что /gфлаг не нужен при замене, потому что может быть только одно совпадение на «строку».

Question 3

Замените все вхождения a :на новую строку, чтобы разбить файл.
Заменять
- httpв конце строки с
- новая строка, за которой следует http:и добавление к ней следующей строки
Повторите один раз, чтобы обновить четные и нечетные строки.

Эти шаги выглядят так:

tr ':' '\n' | sed -e '/http$/{N;s/http\n/\nhttp:/}' | sed -e '/http$/{N;s/http\n/\nhttp:/}'

Проверьте, есть ли строки, которые не начинаются с http://, выведите номера строк. Это произойдет только в том случае, если : находится где-то в URL, кроме как после http.

grep -nv '^http://'

Answer

Замените все вхождения a :на новую строку, чтобы разбить файл.
Заменять
- httpв конце строки с
- новая строка, за которой следует http:и добавление к ней следующей строки
Повторите один раз, чтобы обновить четные и нечетные строки.

Эти шаги выглядят так:

tr ':' '\n' | sed -e '/http$/{N;s/http\n/\nhttp:/}' | sed -e '/http$/{N;s/http\n/\nhttp:/}'

Проверьте, есть ли строки, которые не начинаются с http://, выведите номера строк. Это произойдет только в том случае, если : находится где-то в URL, кроме как после http.

grep -nv '^http://'

Замена строк в очень большом файле

решение1

решение2

решение3

Связанный контент