如何在 gedit 上掃描無效字元?

如何在 gedit 上掃描無效字元?

我在是否編輯 javascript 檔案時遇到了困境。當我用 gedit 打開它時,它顯示以下警告:

您開啟的檔案包含一些無效字元。如果繼續編輯此文件,可能會損壞此文件。您也可以選擇其他字元編碼並重試。

目前的編碼是UTF-8。由於該檔案有超過100,000行程式碼,有沒有一種快速的方法來掃描無效字元?

答案1

由於檔案是 UTF-8 你可以運行isutf8。一個附加的實用程式包。它為您提供壞位元組的行、字元和偏移量。

然後使用xxd、hexdump之類的來分析。

不幸的是它在第一次崩潰時停止了。但這又取決於文件​​。可能只有一個壞位元組;)

有一些 C 程式碼可以對整個文件進行類似的分析。它在磁碟上某個早已被遺忘的地方。有需要的話可以嘗試去找一下。

否則是的,快而不是骯髒的方法是在用 gedit 保存的副本之間進行差異 - 正如好先生所提議的那樣。@馮布蘭德

相關內容