Wenn ich Linux (für das Gebietsschema GB) installiere, habe ich die Möglichkeit en_GB
, en_GB.UTF-8
und auszuwählen en_GB.ISO-8859-15
.
Welche Faktoren spielen bei der Auswahl eine Rolle? Soweit ich weiß, verwendet das britische Alphabet kein UTF-8, oder es verwendet UTF-8, aber ich habe weder erfahren noch erkannt, welche Probleme das auf einem Server verursacht.
Gibt es eine Möglichkeit herauszufinden, was im jeweiligen Fall besser geeignet ist? Ich weiß, dass Datenbankinstallationen wie Postgres, MySQL und SQLite das UTF-Gebietsschema zu bevorzugen scheinen.
Antwort1
Der Unterschied zwischen diesen Optionen besteht darin, welche Zeichenkodierung für den Text verwendet wird. Wenn Sie en_GB wählen, verwendet das System den Zeichensatz iso8859-1. Iso8859-15 entspricht in etwa iso8859-1, aber acht Codepunkte haben ihre Bedeutung geändert; beispielsweise wurde das Währungssymbol ¤ durch das Eurozeichen € ersetzt. Diese Kodierungen verwenden 8 Bits pro Zeichen und sind daher auf feste Sätze von 256 verschiedenen Zeichen beschränkt (in der Praxis sogar noch weniger).
UTF-8 ist eine Unicode-Kodierung. Unicode ist das allumfassende Zeichendarstellungsschema, das Codepunkte für mehr als 128.000 Zeichen und Emojis definiert. Unicode unterstützt definitiv auch das britische Alphabet.
Ich empfehle, UTF-8 zu verwenden, da es eine Obermenge der anderen Zeichensätze ist und heutzutage unter Linux weit verbreitet ist.