在非常大的檔案中替換字串

Question 1

有了它，awk您可以避免一次閱讀大量文字：

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

成功可能取決於所使用的awk實現。例如，gawk工作正常，但mawk崩潰。

Answer

有了它，awk您可以避免一次閱讀大量文字：

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

成功可能取決於所使用的awk實現。例如，gawk工作正常，但mawk崩潰。

Question 2

這將完成這項工作：

perl -pe 'BEGIN { $/ = "//" } s!(?=http://\z)!\n!' urls.txt

透過設定$/，我更改了行的定義，因此它//以換行符號結尾。這使得 Perl 一次讀取一個 URL。 URL 不太可能包含//except 在方案之後，但如果包含也沒關係，正規表示式將阻止它添加虛假的換行符。

如果您想避免在第一個 URL 之前新增空白行：

perl -pe 'BEGIN { $/ = "//"; print scalar <> } s!(?=http://\z)!\n!' urls.txt

您可以嘗試進行基準測試，看看是否s!http://\z!\nhttp://!更快。它們是等價的。請注意，/g替換時不需要該標誌，因為每“行”只能有一個匹配項。

Answer

這將完成這項工作：

perl -pe 'BEGIN { $/ = "//" } s!(?=http://\z)!\n!' urls.txt

透過設定$/，我更改了行的定義，因此它//以換行符號結尾。這使得 Perl 一次讀取一個 URL。 URL 不太可能包含//except 在方案之後，但如果包含也沒關係，正規表示式將阻止它添加虛假的換行符。

如果您想避免在第一個 URL 之前新增空白行：

perl -pe 'BEGIN { $/ = "//"; print scalar <> } s!(?=http://\z)!\n!' urls.txt

您可以嘗試進行基準測試，看看是否s!http://\z!\nhttp://!更快。它們是等價的。請注意，/g替換時不需要該標誌，因為每“行”只能有一個匹配項。

Question 3

這些步驟如下所示：

tr ':' '\n' | sed -e '/http$/{N;s/http\n/\nhttp:/}' | sed -e '/http$/{N;s/http\n/\nhttp:/}'

Answer

這些步驟如下所示：

tr ':' '\n' | sed -e '/http$/{N;s/http\n/\nhttp:/}' | sed -e '/http$/{N;s/http\n/\nhttp:/}'

相關內容