一次替換多個字串

Question 1

好的，通用解決方案。以下 bash 函數需要2k參數；每對由一個佔位符和一個替換符組成。您可以適當地引用字串以將它們傳遞到函數中。如果參數數量為奇數，則會新增隱式空參數，這將有效刪除最後一個佔位符的出現。

佔位符和替換都不能包含 NUL 字符，但您可以使用標準的 C\轉義符，例如\0如果您需要s （因此如果您想要 a ，則NUL需要編寫）。\\\

它需要標準建置工具，這些工具應該存在於類別 posix 系統（lex 和 cc）上。

replaceholder() {
  local dir=$(mktemp -d)
  ( cd "$dir"
    { printf %s\\n "%option 8bit noyywrap nounput" "%%"
      printf '"%s" {fputs("%s", yyout);}\n' "${@//\"/\\\"}"
      printf %s\\n "%%" "int main(int argc, char** argv) { return yylex(); }"
    } | lex && cc lex.yy.c
  ) && "$dir"/a.out
  rm -fR "$dir"
}

我們假設\參數中如有必要，已經轉義，但我們需要轉義雙引號（如果存在）。這就是第二個 printf 的第二個參數的作用。由於lex預設操作是ECHO，所以我們不需要擔心它。

運行範例（對於持懷疑態度的人來說，它只是一個廉價的商用筆記型電腦）：

$ time echo AB | replaceholder A B B A
BA

real    0m0.128s
user    0m0.106s
sys     0m0.042s
$ time printf %s\\n AB{0000..9999} | replaceholder A B B A > /dev/null

real    0m0.118s
user    0m0.117s
sys     0m0.043s

對於較大的輸入，向提供最佳化標誌可能會很有用cc，並且對於當前的 Posix 相容性，最好使用c99。更雄心勃勃的實現可能會嘗試快取生成的可執行文件，而不是每次都生成它們，但生成它們並不完全昂貴。

編輯

如果你有TCC，您可以避免建立臨時目錄的麻煩，並享受更快的編譯時間，這將有助於正常大小的輸入：

treplaceholder () { 
  tcc -run <(
  {
    printf %s\\n "%option 8bit noyywrap nounput" "%%"
    printf '"%s" {fputs("%s", yyout);}\n' "${@//\"/\\\"}"
    printf %s\\n "%%" "int main(int argc, char** argv) { return yylex(); }"
  } | lex -t)
}

$ time printf %s\\n AB{0000..9999} | treplaceholder A B B A > /dev/null

real    0m0.039s
user    0m0.041s
sys     0m0.031s

Answer

好的，通用解決方案。以下 bash 函數需要2k參數；每對由一個佔位符和一個替換符組成。您可以適當地引用字串以將它們傳遞到函數中。如果參數數量為奇數，則會新增隱式空參數，這將有效刪除最後一個佔位符的出現。

佔位符和替換都不能包含 NUL 字符，但您可以使用標準的 C\轉義符，例如\0如果您需要s （因此如果您想要 a ，則NUL需要編寫）。\\\

它需要標準建置工具，這些工具應該存在於類別 posix 系統（lex 和 cc）上。

replaceholder() {
  local dir=$(mktemp -d)
  ( cd "$dir"
    { printf %s\\n "%option 8bit noyywrap nounput" "%%"
      printf '"%s" {fputs("%s", yyout);}\n' "${@//\"/\\\"}"
      printf %s\\n "%%" "int main(int argc, char** argv) { return yylex(); }"
    } | lex && cc lex.yy.c
  ) && "$dir"/a.out
  rm -fR "$dir"
}

我們假設\參數中如有必要，已經轉義，但我們需要轉義雙引號（如果存在）。這就是第二個 printf 的第二個參數的作用。由於lex預設操作是ECHO，所以我們不需要擔心它。

運行範例（對於持懷疑態度的人來說，它只是一個廉價的商用筆記型電腦）：

$ time echo AB | replaceholder A B B A
BA

real    0m0.128s
user    0m0.106s
sys     0m0.042s
$ time printf %s\\n AB{0000..9999} | replaceholder A B B A > /dev/null

real    0m0.118s
user    0m0.117s
sys     0m0.043s

對於較大的輸入，向提供最佳化標誌可能會很有用cc，並且對於當前的 Posix 相容性，最好使用c99。更雄心勃勃的實現可能會嘗試快取生成的可執行文件，而不是每次都生成它們，但生成它們並不完全昂貴。

編輯

如果你有TCC，您可以避免建立臨時目錄的麻煩，並享受更快的編譯時間，這將有助於正常大小的輸入：

treplaceholder () { 
  tcc -run <(
  {
    printf %s\\n "%option 8bit noyywrap nounput" "%%"
    printf '"%s" {fputs("%s", yyout);}\n' "${@//\"/\\\"}"
    printf %s\\n "%%" "int main(int argc, char** argv) { return yylex(); }"
  } | lex -t)
}

$ time printf %s\\n AB{0000..9999} | treplaceholder A B B A > /dev/null

real    0m0.039s
user    0m0.041s
sys     0m0.031s

Question 2

printf 'STRING1STRING1\n\nSTRING2STRING1\nSTRING2\n' |
od -A n -t c -v -w1 |
sed 's/ \{1,3\}//;s/\\$/&&/;H;s/.*//;x
     /\nS\nT\nR\nI\nN\nG\n1/s//STRING2/
     /\nS\nT\nR\nI\nN\nG\n2/s//STRING1/
     /\\n/!{x;d};s/\n//g;s/./\\&/g' |
     xargs printf %b

###OUTPUT###

STRING2STRING2

STRING1STRING2
STRING1

像這樣的東西總是只會替換目標字串的每次出現一次，因為它們出現在sed流中，每行一次。這是我能想到的最快的方法。話又說回來，我不寫C。做如果您願意，可以可靠地處理空分隔符號。看這個答案了解它是如何工作的。這對於任何包含的特殊 shell 字元或類似字元都沒有問題 - 但它是特定於 ASCII 語言環境，或者換句話說，od不會在同一行上輸出多字節字符，並且只會輸出一個。如果這是一個問題，您需要添加iconv.

Answer

printf 'STRING1STRING1\n\nSTRING2STRING1\nSTRING2\n' |
od -A n -t c -v -w1 |
sed 's/ \{1,3\}//;s/\\$/&&/;H;s/.*//;x
     /\nS\nT\nR\nI\nN\nG\n1/s//STRING2/
     /\nS\nT\nR\nI\nN\nG\n2/s//STRING1/
     /\\n/!{x;d};s/\n//g;s/./\\&/g' |
     xargs printf %b

###OUTPUT###

STRING2STRING2

STRING1STRING2
STRING1

像這樣的東西總是只會替換目標字串的每次出現一次，因為它們出現在sed流中，每行一次。這是我能想到的最快的方法。話又說回來，我不寫C。做如果您願意，可以可靠地處理空分隔符號。看這個答案了解它是如何工作的。這對於任何包含的特殊 shell 字元或類似字元都沒有問題 - 但它是特定於 ASCII 語言環境，或者換句話說，od不會在同一行上輸出多字節字符，並且只會輸出一個。如果這是一個問題，您需要添加iconv.

Question 3

一個perl辦法。即使有人說這是不可能的，我也找到了一個，但一般來說，簡單的匹配和替換是不可能的，甚至由於 NFA 的回溯而變得更糟，結果也可能是意外的。

一般來說，必須指出的是，該問題會產生不同的結果，這取決於替換元組的順序和長度。 IE：

A B
AA CC

輸入AAA結果為BBB或CCB。

這裡是程式碼：

#!/usr/bin/perl

$v='if (0) {} ';
while (($a,$b)=split /\s+/, <DATA>) {
  $k.=$a.'|';
  $v.='elsif ($& eq \''.$a.'\') {print \''.$b.'\'} ';
}
$k.='.';
$v.='else {print $&;}';

eval "
while (<>) {
  \$_ =~ s/($k)/{$v}/geco;
}";  
print "\n";


__DATA__
A    B
B    A
abba baab
baab abbc
abbc aaba

棋盤兔：

$ echo 'ABBabbaBBbaabAAabbc'|perl script
$ BAAbaabAAabbcBBaaba

Answer