如何替換/刪除新行（\n）？

Question 1

這在 Perl 中相當容易。 perl 的-0選項告訴它使用 NUL 字符而不是換行符作為輸入記錄分隔符，因此，除非輸入中有 NUL 字符，否則它將把整個輸入文件視為一條記錄。即使有 NUL 字符，它也會繼續處理後續記錄，與第一個記錄相同。

注意：這確實意味著整個輸入檔案必須適合記憶體 - 在具有 16GB 或更多 RAM 的現代系統上，這不太可能成為問題。在 RAM 不足但交換空間足夠的舊系統上，它仍然可以工作，但速度會慢得多。

$ cat input.txt
->firstword: This is a defini-
tion.
->secondword: This is a second defini-
tion.

$ perl -0 -p -e 's/-\s*\n//g' input.txt 
->firstword: This is a definition.
->secondword: This is a second definition.

這將刪除每個連字符序列，後面跟著零個或多個空白字元（\s，見下文），後面跟著換行符（\n）。

正規表示式的部分\s*用於匹配尾隨空白字符可能位於行尾 - 根據我的經驗，文字行具有尾隨空格是很常見的（並且它們很難被發現，因為它們是非打印字符，即不可見）。或者，使用*（零個或多個空間字元）或[ \t]*（零個或多個空格或製表符）或\h*（零個或多個水平的空白字元）而不是\s*.

從man perlre：

被視為空白的字符集是 Unicode 稱為“模式空白”的字符，即：

U+0009 CHARACTER TABULATION
U+000A LINE FEED
U+000B LINE TABULATION
U+000C FORM FEED
U+000D CARRIAGE RETURN
U+0020 SPACE
U+0085 NEXT LINE
U+200E LEFT-TO-RIGHT MARK
U+200F RIGHT-TO-LEFT MARK
U+2028 LINE SEPARATOR
U+2029 PARAGRAPH SEPARATOR

筆記：

字元-並不是唯一可能使用的「連字號」或「破折號」字元。維基百科有列出 unicode 的頁面連字符和短跑人物。幸運的是，perl 具有良好的 unicode 處理功能，因此可以重寫單行程式碼以使用\p{Dash}(或\p{Pd})，而不是-匹配所有破折號類別字元：

$ perl -0 -p -e 's/\p{Dash}\h*\n//g' input.txt 
->firstword: This is a definition.
->secondword: This is a second definition.

然而，這會將破折號視為連字符（因此將刪除行尾的破折號，與連字符相同）...並且使用破折號代替括號並不罕見。如果您不介意有關“連字符”被棄用的警告訊息，您可以使用\p{Hyphen}而不是。\p{Dash}或者您可以使用括號表達式，其中僅包含您想要視為連字符的 unicode 代碼點 - 例如

    perl -0 -p -e 's/[\N{U+002D}\N{U+00AD}\N{U+2010}\N{U+2011}]\h*\n//g' input.txt

我建議不要讓每個單字的定義都以開頭->。這將使使用 grep 搜尋單字變得不必要的尷尬 - 搜尋字串必須用引號引起來（因為>，shell 使用它進行重定向）並在前面加上--（因為-，否則 grep 會將您的搜尋模式視為如果你的意思是它們是選項）。例如，您將無法僅執行以下操作：
```
 grep ^firstword: dictionary.txt
```
相反，你必須這樣做：
```
 grep -- '^->firstword:' dictionary.txt
```

為了更好的例子，我從你的圖像中提取了文本tesseract-ocr並透過 perl one-liner 的一個版本運行它，該版本還刪除所有後面沒有跟隨的換行符->：

$ cat input2.txt 
->abigeato. (Del lat. abigeatus). 1. m. Am. Hurto de ganado.
->abigeo. (Del lat. abigeus). 1. m. Am. Ladrén de ganado.
->abigotado, da. 1. adj. bigotudo.
->abinar. 1. tr. rur. y vulg. Binar la tierra.
->abintestato. (De ab intestato). 1. m. Der. Procedimiento judicial sobre herencia y
adjudicacion de bienes de quien muere sin testar.
Eiiftiénesis. (De a-2, bio- y -génesis). 1. f. Produccién hipotética de seres vivos par-
tiendo de materia inerte. 2. f. Bioquim. sintesis abistica,
->abidtico, ca. 1. adj. Biol. Se dice del medio en que no es posible la vida. V. sintesis
abidtica
->abipon, na. 1. adj. Se dice del individuo de un pueblo amerindio que habitaba cerca del
Parana. U. t.c. s. 2. adj. Perteneciente o relativo a los abipones. 3. m. Lengua de la familia
guaicurt hablada por los abipones.
->abisagrar. 1. tr. Clavar o fijar bisagras en las puertas y sus marcos, 0 en otros objetos.
->abisal. (Del lat. abyssus). 1. adj. abismal (|| perteneciente al abismo). 2. adj. Se dice de
las zonas del mar profundo que se extienden mas alla del talud continental, y corresponden a

$ perl -0 -p -e 's/[\N{U+002D}\N{U+00AD}\N{U+2010}\N{U+2011}]\h*\n//g; s/\n+(?!->)//g' input2.txt
->abigeato. (Del lat. abigeatus). 1. m. Am. Hurto de ganado.
->abigeo. (Del lat. abigeus). 1. m. Am. Ladrén de ganado.
->abigotado, da. 1. adj. bigotudo.
->abinar. 1. tr. rur. y vulg. Binar la tierra.
->abintestato. (De ab intestato). 1. m. Der. Procedimiento judicial sobre herencia yadjudicacion de bienes de quien muere sin testar.Eiiftiénesis. (De a-2, bio- y -génesis). 1. f. Produccién hipotética de seres vivos partiendo de materia inerte. 2. f. Bioquim. sintesis abistica,
->abidtico, ca. 1. adj. Biol. Se dice del medio en que no es posible la vida. V. sintesisabidtica
->abipon, na. 1. adj. Se dice del individuo de un pueblo amerindio que habitaba cerca delParana. U. t.c. s. 2. adj. Perteneciente o relativo a los abipones. 3. m. Lengua de la familiaguaicurt hablada por los abipones.
->abisagrar. 1. tr. Clavar o fijar bisagras en las puertas y sus marcos, 0 en otros objetos.
->abisal. (Del lat. abyssus). 1. adj. abismal (|| perteneciente al abismo). 2. adj. Se dice delas zonas del mar profundo que se extienden mas alla del talud continental, y corresponden a

我仍然建議->從最終輸出檔案中刪除該序列。它在處理文字時是一個有用的標記，但之後會出現問題。

@zevzek 的評論解決了“使用大量 RAM”的問題。不要使用 NUL 作為輸入記錄分隔符，而是使用->as 分隔符。這使得 perl 腳本一次只讀取一個單字定義，而不是一次讀取整個檔案。這將使它在處理非常大的輸入檔案時運行得更快，因為它不會使用所有可用的 RAM 並導致系統交換。

腳本還需要進行其他更改，因為我們現在正在處理標記開始一個新詞的定義為結尾前面的定義。具體來說，我們現在需要：

將命令列選項-p（始終輸出當前記錄）變更為-n（僅在我們指定時輸出當前記錄）。
刪除行尾字元（perl 的chomp()函數就是這樣做的）
檢查輸入記錄是否為空或僅包含空格，因為現在將有一個假想第一個實際記錄“abigeato”之前有空記錄，我們不想將其打印出來。（為什麼突然出現一個想像中的空記錄？因為->now表示一筆記錄的結束，而不是新一筆記錄的開始。in->是->abigeato前一筆（空）記錄和新的「abigeato」記錄之間的分隔符號）
使用“->”和換行符列印修改後的記錄。

總而言之，這些將改變最後的一句台詞：

$ perl -0 -p -e 's/[\N{U+002D}\N{U+00AD}\N{U+2010}\N{U+2011}]\h*\n//g;
                 s/\n+(?!->)//g' input2.txt

對此：

perl -n -e 'BEGIN { $/="->" };
            chomp;
            next if m/^\s*$/;
            s/[\N{U+002D}\N{U+00AD}\N{U+2010}\N{U+2011}]\h*\n//g;
            s/\n+//g;
            print "->$_\n"' input2.txt

此版本的輸出與原始版本相同，只是最終輸出行保證以換行符 ( \n) 結尾。原始版本並沒有保證這一點，事實上，它通過刪除所有後面沒有跟隨的換行符來阻止它->。\n這是一個免費的獎勵，因為從技術上講，如果每行都以 ... 結尾，則文件只是 unix 中的文本文件。版本來說不是），但是如果“文字檔案”的最後一行不以\n.結尾，某些程式將無法正確處理它。

（順便說一句，原來的問題可以透過添加 END 區塊來修復，將換行符添加回輸出的末尾END { print "\n" }：）

$/是一個 perl 變量，它定義輸入記錄分隔符（man perlvar有關 perl 預定義/特殊/控制變量的詳細信息，請參閱），類似於RS中的變量awk。以前，我使用 perl 的-0選項將其設定為 NUL 字元（man perlrun有關 perl 命令行選項的詳細信息，請參閱）。

BEGIN語句在腳本的開頭發生一次，在while(<>) { ..... }使用 perl-p或-n選項引起的隱式循環之前和之外（這使得 perl 的行為有點像超級sed或sed -n分別）。類似地，END在讀取和處理所有輸入之後，語句在腳本末尾發生一次。

Answer