非常に大きなファイル内の文字列の置換

Question 1

awk一度に大量のテキストを読む必要がなくなります:

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

成功するかどうかは、使用したawk実装によって異なる場合があります。たとえば、gawk正常に動作しますが、mawkクラッシュします。

Answer

awk一度に大量のテキストを読む必要がなくなります:

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

成功するかどうかは、使用したawk実装によって異なる場合があります。たとえば、gawk正常に動作しますが、mawkクラッシュします。

Question 2

これは役に立ちます:

perl -pe 'BEGIN { $/ = "//" } s!(?=http://\z)!\n!' urls.txt

設定することにより$/、行の定義を変更して、//改行ではなくで終わるようにしました。これにより、Perl は一度に 1 つの URL を読み取ります。URL に//スキームの後に except が含まれる可能性は低いですが、含まれていても問題ありません。正規表現により、不要な改行が追加されることはありません。

最初の URL の前に空白行を追加したくない場合は、次のようにします。

perl -pe 'BEGIN { $/ = "//"; print scalar <> } s!(?=http://\z)!\n!' urls.txt

ベンチマークを行って、より高速かどうか確認してみるのもよいでしょうs!http://\z!\nhttp://!。これらは同等です。/g置換ではフラグは不要であることに注意してください。これは、「行」ごとに 1 つの一致しか存在しないためです。

Answer