對大型檔案進行「多次」腳本化修改（檔案系統層級）？

Question 1

磁碟上檔案的結構取決於所使用的檔案系統。現實世界的檔案系統都不使用您所描述的連結清單（這會讓人fseek(3)難以忍受）。與此最接近的是微軟的胖的，本質上是將指標從資料塊移到一個陣列中來隱藏它們。

但大多數檔案系統確實使用一些對檔案中資料區塊的基於指標的引用，因此原則上，只需打亂少量指標（而不是整個檔案內容）並在檔案中標記一個區塊，就可以剪切文件區塊。遺憾的是，這不是一個非常有用的操作，文件區塊相當大（通常為 4KiB），很少與文件中的結構（無論是行還是其他細分）合理對齊。

Answer

磁碟上檔案的結構取決於所使用的檔案系統。現實世界的檔案系統都不使用您所描述的連結清單（這會讓人fseek(3)難以忍受）。與此最接近的是微軟的胖的，本質上是將指標從資料塊移到一個陣列中來隱藏它們。

但大多數檔案系統確實使用一些對檔案中資料區塊的基於指標的引用，因此原則上，只需打亂少量指標（而不是整個檔案內容）並在檔案中標記一個區塊，就可以剪切文件區塊。遺憾的是，這不是一個非常有用的操作，文件區塊相當大（通常為 4KiB），很少與文件中的結構（無論是行還是其他細分）合理對齊。

Question 2

你所描述的聽起來很像重播一個文字編輯器的重做列表針對未更改的原始文件重做列表屬於.我很確定gvim有這樣一個堅持不懈的撤消/重做列表，您可以（？）能夠使用它，而且我知道emacs肯定有這樣一個列表，您很可能可以哄騙它做任何您想做的事情（通過腳本elisp），例如。儲存會話之間的 Emacs 撤銷歷史記錄。

作為旁注，對於如此大的文件，關閉所有不需要的操作可能是一個好主意，例如：自動儲存,語法高亮顯示（慢速上大的emacs 檔案）等，32 位元系統上的 emacs 有 256 MB檔案大小限制。

它當然不會像您所建議的那樣簡潔，但如果沒有大量更改，則可能有用。

Answer

你所描述的聽起來很像重播一個文字編輯器的重做列表針對未更改的原始文件重做列表屬於.我很確定gvim有這樣一個堅持不懈的撤消/重做列表，您可以（？）能夠使用它，而且我知道emacs肯定有這樣一個列表，您很可能可以哄騙它做任何您想做的事情（通過腳本elisp），例如。儲存會話之間的 Emacs 撤銷歷史記錄。

作為旁注，對於如此大的文件，關閉所有不需要的操作可能是一個好主意，例如：自動儲存,語法高亮顯示（慢速上大的emacs 檔案）等，32 位元系統上的 emacs 有 256 MB檔案大小限制。

它當然不會像您所建議的那樣簡潔，但如果沒有大量更改，則可能有用。

Question 3

通常，如果不將整個文件放入內存，則無法就地編輯文件。我假設您真正想要做的只是擁有一個新文件，它是舊文件的副本，沒有特定的行。這可以使用 unix 實用程式head和輕鬆完成tail。例如，要從文件中複製除第 5、12 和 52 行之外的所有內容，您可以執行下列操作

head -n 4 bigfile.dat > tempfile.dat
tail -n +6 bigfile.dat | head -n 6 >> tempfile.dat 
tail -n +13 bigfile.dat | head -n 39 >> tempfile.dat 
tail -n 53 bigfile.dat >> tempfile.dat

如果您不熟悉這些實用程序，我將更詳細地解釋。

此head實用程式會列印出文件中的前 n 行。如果沒有給出位置參數，它將使用標準輸入作為文件。該-n標誌告訴 head 要列印多少行。因此，head -n 2將僅列印標準輸入的前兩行。

該tail實用程式會列印出文件的最後 n 行。與 head 一樣，它可以從檔案或標準輸入中讀取。 -n 標誌告訴 tail 從最後開始列印多少行。您還可以在數字前面加上加號，以告訴 tail 從文件末尾開始列印從開頭開始的那麼多行。例如，tail -n 2列印標準輸入的最後兩行。但tail -n +2列印出從第 2 行開始的所有行（省略第 1 行）。

所以一般來說，如果你想從文件中列印 [x, y) 範圍內的行，你會這樣做

`tail -n +x | head -n d`

其中 d = y - x。這些命令將產生一個新檔案。如果您願意，您可以刪除舊文件。這樣做的好處是，每次只需要在記憶體中保留一行，因此它不會很快填滿您的 RAM head。tail

Answer