如何在 UTF-8 控制台中查看 cp1251 文字檔？

Question

若要以less與終端不同的編碼運行，請使用盧伊特（隨 X11 實用程式套件一起提供）。

LANG=ru_RU.CP1251 luit less subs.srt

如果您想自動偵測編碼，那就更棘手了，因為文字檔案不包含其編碼的指示。軟體恩卡嘗試根據文件的語言識別文件的編碼：

$ enca -L russian subs.srt
MS-Windows code page 1251
$ iconv -f "$(enca -iL russian subs.srt)" | less

您可以將此組合作為LESSOPEN過濾器（請參閱如何在 less 中查看 gzip 壓縮檔而無需輸入 zless？舉個例子）。然而，對於實際上不是俄語的文本，這可能不會給出好的結果。

如果您僅使用 UTF-8 和 CP1251，則在檔案傳輸時可以回退到 CP1251不是有效的 UTF-8— UTF-8 中存在“漏洞”，導致大多數 8 位元編碼的檔案不是有效的 UTF-8。概念驗證過濾器腳本LESSOPEN（可能不適用於 Linux 以外的系統，因為它依賴head -c N精確讀取 N 個位元組）：

#!/bin/sh
head=$(head -c 1000)
if printf '%s\n' "$head" | grep -qav '^.*$'; then
  { printf '%s\n' "$head"; cat; } | iconv -f CP1251
else
  { printf '%s\n' "$head"; cat; }
fi

Answer 1

若要以less與終端不同的編碼運行，請使用盧伊特（隨 X11 實用程式套件一起提供）。

LANG=ru_RU.CP1251 luit less subs.srt

如果您想自動偵測編碼，那就更棘手了，因為文字檔案不包含其編碼的指示。軟體恩卡嘗試根據文件的語言識別文件的編碼：

$ enca -L russian subs.srt
MS-Windows code page 1251
$ iconv -f "$(enca -iL russian subs.srt)" | less

您可以將此組合作為LESSOPEN過濾器（請參閱如何在 less 中查看 gzip 壓縮檔而無需輸入 zless？舉個例子）。然而，對於實際上不是俄語的文本，這可能不會給出好的結果。

如果您僅使用 UTF-8 和 CP1251，則在檔案傳輸時可以回退到 CP1251不是有效的 UTF-8— UTF-8 中存在“漏洞”，導致大多數 8 位元編碼的檔案不是有效的 UTF-8。概念驗證過濾器腳本LESSOPEN（可能不適用於 Linux 以外的系統，因為它依賴head -c N精確讀取 N 個位元組）：

#!/bin/sh
head=$(head -c 1000)
if printf '%s\n' "$head" | grep -qav '^.*$'; then
  { printf '%s\n' "$head"; cat; } | iconv -f CP1251
else
  { printf '%s\n' "$head"; cat; }
fi

如何在 UTF-8 控制台中查看 cp1251 文字檔？

答案1

相關內容