用於字串替換的非面向行工具？

Question 1

面對這類問題時，我首先想到的是更改記錄分隔符號。在大多數工具中，這是\n預設的，但可以更改。例如：

珀爾
```
perl -0x3E -pe 's/<foobar>/\n$&/' file
```
解釋
- -0：這將輸入記錄分隔符號設定為給定的字符十六進位值。在本例中，我將其設定為>十六進位值為3E。一般格式為-0xHEX_VALUE.這只是將線路分成可管理區塊的技巧。
- -pe：套用給出的腳本後列印每個輸入行-e。
- s/<foobar>/\n$&/: 簡單的替換。$&在本例中，是相符的內容<foobar>。
awk
```
awk '{gsub(/foobar>/,"\n<foobar>");printf "%s",$0};' RS="<" file
```
解釋
- RS="<"：設定輸入記錄分隔符號為>。
- gsub(/foobar>/,"\n<foobar>")foobar>:將的所有情況替換為\n<foobar>。請注意，由於RS已設定為<，因此所有內容<都會從輸入檔案中刪除（這就是awk工作原理），因此我們需要匹配foobar>（不含<）並替換為\n<foobar>。
- printf "%s",$0：列印替換後的目前「行」。$0是當前記錄，awk因此它將保留之前的任何記錄<。

我在使用以下命令創建的 2.3 GB 單行檔案上進行了測試：

for i in {1..900000}; do printf "blah blah <foobar>blah blah"; done > file
for i in {1..100}; do cat file >> file1; done
mv file1 file

awk和perl使用的內存量都可以忽略不計。

Answer

面對這類問題時，我首先想到的是更改記錄分隔符號。在大多數工具中，這是\n預設的，但可以更改。例如：

珀爾
```
perl -0x3E -pe 's/<foobar>/\n$&/' file
```
解釋
- -0：這將輸入記錄分隔符號設定為給定的字符十六進位值。在本例中，我將其設定為>十六進位值為3E。一般格式為-0xHEX_VALUE.這只是將線路分成可管理區塊的技巧。
- -pe：套用給出的腳本後列印每個輸入行-e。
- s/<foobar>/\n$&/: 簡單的替換。$&在本例中，是相符的內容<foobar>。
awk
```
awk '{gsub(/foobar>/,"\n<foobar>");printf "%s",$0};' RS="<" file
```
解釋
- RS="<"：設定輸入記錄分隔符號為>。
- gsub(/foobar>/,"\n<foobar>")foobar>:將的所有情況替換為\n<foobar>。請注意，由於RS已設定為<，因此所有內容<都會從輸入檔案中刪除（這就是awk工作原理），因此我們需要匹配foobar>（不含<）並替換為\n<foobar>。
- printf "%s",$0：列印替換後的目前「行」。$0是當前記錄，awk因此它將保留之前的任何記錄<。

我在使用以下命令創建的 2.3 GB 單行檔案上進行了測試：

for i in {1..900000}; do printf "blah blah <foobar>blah blah"; done > file
for i in {1..100}; do cat file >> file1; done
mv file1 file

awk和perl使用的內存量都可以忽略不計。

Question 2

格薩爾 （一般搜尋和取代）正是用於此目的的一個非常有用的工具。

這個問題的大多數答案都使用基於記錄的工具和各種技巧來使它們適應問題，例如將預設的記錄分隔符切換為假設在輸入中經常出現的字符，以免每個記錄太大而無法處理。

在許多情況下，這是非常好的，甚至是可讀的。我確實喜歡可以使用隨處可用的工具（例如、和 bourne shell）輕鬆/有效地解決awk的tr問題sed。

在具有隨機內容的任意大檔案中執行二進位搜尋和替換不太適合這些標準 UNIX 工具。

你們中的一些人可能認為這是作弊，但我不認為使用正確的工具來完成工作怎麼可能是錯的。在本例中，它是一個名為的 C 程序，gsar其許可權為通用公共授權 v2，所以讓我感到非常驚訝的是，兩個版本中都沒有這個非常有用的工具的軟體包巴布亞紐幾內亞,紅帽，也不烏班圖。

gsar使用二進位變體Boyer-Moore 字串搜尋演算法。

用法很簡單：

gsar -F '-s<foobar>' '-r:x0A<foobar>'

其中-F表示“過濾”模式，即stdin讀寫stdout。也有對文件進行操作的方法。-s指定搜尋字串和-r替換字串。冒號表示法可用來指定任意位元組值。

支援不區分大小寫的模式 ( -i)，但不支援正規表示式，因為演算法使用搜尋字串的長度來最佳化搜尋。

該工具也可以僅用於搜索，有點像grep.gsar -b輸出匹配的搜尋字串的位元組偏移量，並gsar -l列印文件名和匹配數（如果有），有點像grep -l與wc.

該工具的編寫者是托莫德·查伯格（初始）和漢斯·彼得·凡爾納（改進）。

Answer