UTF-8 コンソールで cp1251 テキストファイルを表示するにはどうすればいいですか?

Question

less端末とは異なるエンコーディングで実行するには、ルイト(X11 ユーティリティスイートに同梱されています)。

LANG=ru_RU.CP1251 luit less subs.srt

自動的にエンコードを検出したい場合は、テキストファイルにはエンコードの指示がないため、より複雑になります。ソフトウェアエンカ言語に基づいてファイルのエンコーディングを認識しようとします。

$ enca -L russian subs.srt
MS-Windows code page 1251
$ iconv -f "$(enca -iL russian subs.srt)" | less

この組み合わせをLESSOPENフィルターにすることができます（zless と入力せずに less で gzip 圧縮されたファイルを表示するにはどうすればよいでしょうか?ただし、実際にはロシア語ではないテキストの場合は、適切な結果が得られない可能性があります。

UTF-8とCP1251のみを使用する場合は、ファイルが有効なUTF-8ではありません— UTF-8 には「穴」があり、8 ビットエンコーディングのほとんどのファイルは有効な UTF-8 ではありません。概念実証フィルタースクリプトLESSOPEN(正確に N バイトを読み取る必要があるため、Linux 以外のシステムでは動作しない可能性がありますhead -c N)。

#!/bin/sh
head=$(head -c 1000)
if printf '%s\n' "$head" | grep -qav '^.*$'; then
  { printf '%s\n' "$head"; cat; } | iconv -f CP1251
else
  { printf '%s\n' "$head"; cat; }
fi

Answer 1

less端末とは異なるエンコーディングで実行するには、ルイト(X11 ユーティリティスイートに同梱されています)。

LANG=ru_RU.CP1251 luit less subs.srt

自動的にエンコードを検出したい場合は、テキストファイルにはエンコードの指示がないため、より複雑になります。ソフトウェアエンカ言語に基づいてファイルのエンコーディングを認識しようとします。

$ enca -L russian subs.srt
MS-Windows code page 1251
$ iconv -f "$(enca -iL russian subs.srt)" | less

この組み合わせをLESSOPENフィルターにすることができます（zless と入力せずに less で gzip 圧縮されたファイルを表示するにはどうすればよいでしょうか?ただし、実際にはロシア語ではないテキストの場合は、適切な結果が得られない可能性があります。

UTF-8とCP1251のみを使用する場合は、ファイルが有効なUTF-8ではありません— UTF-8 には「穴」があり、8 ビットエンコーディングのほとんどのファイルは有効な UTF-8 ではありません。概念実証フィルタースクリプトLESSOPEN(正確に N バイトを読み取る必要があるため、Linux 以外のシステムでは動作しない可能性がありますhead -c N)。

#!/bin/sh
head=$(head -c 1000)
if printf '%s\n' "$head" | grep -qav '^.*$'; then
  { printf '%s\n' "$head"; cat; } | iconv -f CP1251
else
  { printf '%s\n' "$head"; cat; }
fi

UTF-8 コンソールで cp1251 テキストファイルを表示するにはどうすればいいですか?

答え1

関連情報