gedit で無効な文字をスキャンするにはどうすればよいですか?

gedit で無効な文字をスキャンするにはどうすればよいですか?

JavaScript ファイルを編集するかどうかで悩んでいます。gedit で開くと、次の警告が表示されます。

開いたファイルには無効な文字が含まれています。このファイルの編集を続けると、ドキュメントが破損する可能性があります。別の文字エンコードを選択して再試行することもできます。

現在のエンコードは UTF-8 です。ファイルには 100,000 行を超えるコードが含まれているため、無効な文字をスキャンする簡単な方法はありますか?

答え1

ファイルはUTF-8なので、いいえ追加のユーティリティ パッケージ。不良バイトの行、文字、オフセットの両方を提供します。

その後、xxd、hexdump などを使用して解析します。

残念ながら、最初のクラッシュで停止します。しかし、それはファイルによって異なります。不良バイトが 1 つだけある可能性もあります ;)

ファイル全体に対して同様の分析を行う C コードがあります。それは、長い間忘れられていたディスクのどこかにあります。必要な場合は、それを探してみてください。

そうでなければ、迅速でそれ汚いやり方としては、gedit で保存したコピーとの差分を取ることです。これは、good mr が提案したものです。@vonbrand

関連情報