Verarbeiten Sie eine Datei, die mit einer BOM beginnt (FF FE).

Question 1

DavonWikipedia-Artikel, FF FEbedeutet UTF16LE. Sie sollten also angeben, von in iconvumzuwandeln :UTF16LEUTF8

iconv -f UTF-16LE -t UTF-8 dotan.csv > fixed.txt

Answer

DavonWikipedia-Artikel, FF FEbedeutet UTF16LE. Sie sollten also angeben, von in iconvumzuwandeln :UTF16LEUTF8

iconv -f UTF-16LE -t UTF-8 dotan.csv > fixed.txt

Question 2

dos2unixentfernt auch BOMs und konvertiert UTF-16 in UTF-8:

$ printf %s あ|recode ..utf16 >a;xxd -p a;dos2unix a;xxd -p a
feff3042
dos2unix: converting file a to Unix format...
e38182

dos2unixentfernt auch UTF-8-BOMs:

$ printf %b '\xef\xbb\xbfa'>a;dos2unix a;xxd -p a
dos2unix: converting file a to Unix format...
61

Answer

dos2unixentfernt auch BOMs und konvertiert UTF-16 in UTF-8:

$ printf %s あ|recode ..utf16 >a;xxd -p a;dos2unix a;xxd -p a
feff3042
dos2unix: converting file a to Unix format...
e38182

dos2unixentfernt auch UTF-8-BOMs:

$ printf %b '\xef\xbb\xbfa'>a;dos2unix a;xxd -p a
dos2unix: converting file a to Unix format...
61

Question 3

Auch auf StackOverflow beantwortet: Wie kann ich die BOM aus einer UTF-8-Datei entfernen? @ricihat eine gute Antwort.

Kurze Antwort:

Kurze Antwort: sed -i $'1s/^\uFEFF//' file.txt, aber nicht auf BSD oder OS/X.
Eine andere Antwort: vi file.txt, :set nobomb, :w, einfach, aber manuell
Installieren Sie dos2unuix;dos2unix -r file.txt
Diese Markierungen können mehrere Bedeutungen haben, einschließlich der einfachen Angabe, dass die Datei UTF-8 ist; sieheWikipedia-Artikel.
Windows-Programme fügen diese Markierungen gerne hinzu. Die meisten Editoren entfernen diese Markierungen nicht.

Answer

Auch auf StackOverflow beantwortet: Wie kann ich die BOM aus einer UTF-8-Datei entfernen? @ricihat eine gute Antwort.

Kurze Antwort:

Kurze Antwort: sed -i $'1s/^\uFEFF//' file.txt, aber nicht auf BSD oder OS/X.
Eine andere Antwort: vi file.txt, :set nobomb, :w, einfach, aber manuell
Installieren Sie dos2unuix;dos2unix -r file.txt
Diese Markierungen können mehrere Bedeutungen haben, einschließlich der einfachen Angabe, dass die Datei UTF-8 ist; sieheWikipedia-Artikel.
Windows-Programme fügen diese Markierungen gerne hinzu. Die meisten Editoren entfernen diese Markierungen nicht.

verwandte Informationen