如何列印輸入字串的 Unicode 字形名稱？

Question 1

這統一工具軟體包中有程式uniname：

$ printf %s '…—' |uniname
character  byte       UTF-32   encoded as     glyph   name
    0          0  002026   E2 80 A6       …      HORIZONTAL ELLIPSIS
    1          3  002014   E2 80 94       —      EM DASH

Answer

這統一工具軟體包中有程式uniname：

$ printf %s '…—' |uniname
character  byte       UTF-32   encoded as     glyph   name
    0          0  002026   E2 80 A6       …      HORIZONTAL ELLIPSIS
    1          3  002014   E2 80 94       —      EM DASH

Question 2

我不知道從中檢查這一點的好方法bash，但 Python 有一個內建的 Unicode 資料庫，您可以像在這樣的腳本中使用它：

#!/usr/bin/env python
import sys, unicodedata
for ch in sys.stdin.read().decode('utf-8'):
  try:
    print unicodedata.name(ch)
  except ValueError:
    print 'codepoint ', ord(ch)

您可以像這樣使用這個腳本（假設您呼叫了它unicode-names）：

$ echo 'abc©áοπρσ' | unicode-names
LATIN SMALL LETTER A
LATIN SMALL LETTER B
LATIN SMALL LETTER C
COPYRIGHT SIGN
LATIN SMALL LETTER A WITH ACUTE
GREEK SMALL LETTER OMICRON
GREEK SMALL LETTER PI
GREEK SMALL LETTER RHO
GREEK SMALL LETTER SIGMA
codepoint 10

資料庫ValueError會對它不知道的任何字元拋出異常，因此我們以十進位列印它們的程式碼點（通常這些是不可列印的字元）。

注意：此腳本假定您的終端機是 UTF-8 編碼的。如果不是，您應該更改該decode()方法的參數。 Python 支援非常廣泛的編碼選擇，您的編碼肯定會在其中。

Answer

我不知道從中檢查這一點的好方法bash，但 Python 有一個內建的 Unicode 資料庫，您可以像在這樣的腳本中使用它：

#!/usr/bin/env python
import sys, unicodedata
for ch in sys.stdin.read().decode('utf-8'):
  try:
    print unicodedata.name(ch)
  except ValueError:
    print 'codepoint ', ord(ch)

您可以像這樣使用這個腳本（假設您呼叫了它unicode-names）：

$ echo 'abc©áοπρσ' | unicode-names
LATIN SMALL LETTER A
LATIN SMALL LETTER B
LATIN SMALL LETTER C
COPYRIGHT SIGN
LATIN SMALL LETTER A WITH ACUTE
GREEK SMALL LETTER OMICRON
GREEK SMALL LETTER PI
GREEK SMALL LETTER RHO
GREEK SMALL LETTER SIGMA
codepoint 10

資料庫ValueError會對它不知道的任何字元拋出異常，因此我們以十進位列印它們的程式碼點（通常這些是不可列印的字元）。

注意：此腳本假定您的終端機是 UTF-8 編碼的。如果不是，您應該更改該decode()方法的參數。 Python 支援非常廣泛的編碼選擇，您的編碼肯定會在其中。

Question 3

我曾經u為此編寫過這個腳本：

#! /bin/sh -
exec perl -Mcharnames=full -Mopen=locale -lne '
  printf "U+%04X %s\n", ord($_), charnames::viacode(ord($_)) for /./g' -- "$@"

用作：

$ u <<< 'ę£½'
U+0119 LATIN SMALL LETTER E WITH OGONEK
U+00A3 POUND SIGN
U+00BD VULGAR FRACTION ONE HALF

我也有這個openbox（我的視窗管理器）鍵綁定：

  <keybind key="W-J">
    <action name="Execute">
      <command>sh -c "notify-send -- \"$(xclip -o | perl -Mcharnames=:full -C -lne 'printf \"U+%04X %s\n\", $_, charnames::viacode($_) for map ord, /\P{ascii}/g')\""</command>
    </action>
  </keybind>

按Windows+後J會發送通知，描述主要 X11 選擇中的非 ASCII 字符，您可能會發現這很有用。

Answer

我曾經u為此編寫過這個腳本：

#! /bin/sh -
exec perl -Mcharnames=full -Mopen=locale -lne '
  printf "U+%04X %s\n", ord($_), charnames::viacode(ord($_)) for /./g' -- "$@"

用作：

$ u <<< 'ę£½'
U+0119 LATIN SMALL LETTER E WITH OGONEK
U+00A3 POUND SIGN
U+00BD VULGAR FRACTION ONE HALF

我也有這個openbox（我的視窗管理器）鍵綁定：

  <keybind key="W-J">
    <action name="Execute">
      <command>sh -c "notify-send -- \"$(xclip -o | perl -Mcharnames=:full -C -lne 'printf \"U+%04X %s\n\", $_, charnames::viacode($_) for map ord, /\P{ascii}/g')\""</command>
    </action>
  </keybind>

按Windows+後J會發送通知，描述主要 X11 選擇中的非 ASCII 字符，您可能會發現這很有用。

如何列印輸入字串的 Unicode 字形名稱？

答案1

答案2

答案3

相關內容