Wie kann ich feststellen, welche Kodierung ein Dateiname verwendet?

Question

Die Dateinamenkodierung wird durch das Dateisystem definiert. NTFS verwendet UTF-16. Das spielt jedoch keine Rolle.

In der Befehlszeile dirwerden Bytes nicht einfach blind kopiert. Es muss zuerst die entsprechende Betriebssystemfunktion aufrufen, um das Verzeichnis aufzulisten, und dann die empfangenen Dateidetails auf der Konsole ausgeben.

Wenn cmddie Systemfunktion aufgerufen wird, um die Verzeichnisliste abzurufen, erwartet sie bereits, dass sie in der bevorzugten Kodierung zurückgegeben wird (was nicht unbedingt Ihre bevorzugte Kodierung sein muss – mehr dazu später). Es ist egal, welche Kodierung intern im FS verwendet wird, da das Betriebssystem eine zusätzliche Abstraktionsebene zur Vereinfachung bereitstellt. FS kann jede erdenkliche Kodierung verwenden, aber solange das Betriebssystem dies unterstützt, cmdwerden Dateinamen in seiner bevorzugten Kodierung und nicht in der Kodierung des FS empfangen.

Die von mir erwähnte „bevorzugte Kodierung“ ist entweder ANSI mit angewendeter Codepage oder Unicode. ANSI wurde vor Windows 2000 als Standardkodierung verwendet. Windows 2000 und neuere Versionen verwenden standardmäßig Unicode, können aber trotzdem ANSI-Programme ausführen.

Bei Unicode-Programmen wird die Codepage vollständig ignoriert und chcphat keine Auswirkung. Sie wird nur für ältere ANSI-Programme verwendet, die auf die richtige Codepage angewiesen sind. Für Unicode spielt sie keine Rolle mehr, da sie wohldefiniert ist und alles unterstützt, was ein vernünftiges Programm ausgeben könnte.

cmdunterstützt Unicode und empfängt daher Dateinamen, die bereits in Unicode vorliegen.

Wie Sie bereits herausgefunden haben, war der Übeltäter die Standardschriftart. Dieses Problem wird erwähnt aufTechnet-Seite zu chcp:

In einem Eingabeaufforderungsfenster, das Rasterschriftarten verwendet, wird nur die mit Windows XP installierte OEM-Codepage (Original Equipment Manufacturer) korrekt angezeigt. Andere Codepages werden im Vollbildmodus oder in Eingabeaufforderungsfenstern, die TrueType-Schriftarten verwenden, korrekt angezeigt.

Answer 1

Die Dateinamenkodierung wird durch das Dateisystem definiert. NTFS verwendet UTF-16. Das spielt jedoch keine Rolle.

In der Befehlszeile dirwerden Bytes nicht einfach blind kopiert. Es muss zuerst die entsprechende Betriebssystemfunktion aufrufen, um das Verzeichnis aufzulisten, und dann die empfangenen Dateidetails auf der Konsole ausgeben.

Wenn cmddie Systemfunktion aufgerufen wird, um die Verzeichnisliste abzurufen, erwartet sie bereits, dass sie in der bevorzugten Kodierung zurückgegeben wird (was nicht unbedingt Ihre bevorzugte Kodierung sein muss – mehr dazu später). Es ist egal, welche Kodierung intern im FS verwendet wird, da das Betriebssystem eine zusätzliche Abstraktionsebene zur Vereinfachung bereitstellt. FS kann jede erdenkliche Kodierung verwenden, aber solange das Betriebssystem dies unterstützt, cmdwerden Dateinamen in seiner bevorzugten Kodierung und nicht in der Kodierung des FS empfangen.

Die von mir erwähnte „bevorzugte Kodierung“ ist entweder ANSI mit angewendeter Codepage oder Unicode. ANSI wurde vor Windows 2000 als Standardkodierung verwendet. Windows 2000 und neuere Versionen verwenden standardmäßig Unicode, können aber trotzdem ANSI-Programme ausführen.

Bei Unicode-Programmen wird die Codepage vollständig ignoriert und chcphat keine Auswirkung. Sie wird nur für ältere ANSI-Programme verwendet, die auf die richtige Codepage angewiesen sind. Für Unicode spielt sie keine Rolle mehr, da sie wohldefiniert ist und alles unterstützt, was ein vernünftiges Programm ausgeben könnte.

cmdunterstützt Unicode und empfängt daher Dateinamen, die bereits in Unicode vorliegen.

Wie Sie bereits herausgefunden haben, war der Übeltäter die Standardschriftart. Dieses Problem wird erwähnt aufTechnet-Seite zu chcp:

In einem Eingabeaufforderungsfenster, das Rasterschriftarten verwendet, wird nur die mit Windows XP installierte OEM-Codepage (Original Equipment Manufacturer) korrekt angezeigt. Andere Codepages werden im Vollbildmodus oder in Eingabeaufforderungsfenstern, die TrueType-Schriftarten verwenden, korrekt angezeigt.

Wie kann ich feststellen, welche Kodierung ein Dateiname verwendet?

Antwort1

verwandte Informationen