
Ich arbeite mit dem Smooks-Framework für Java und habe ein Problem beim Laden eines Word-Dokuments. Das Dokument stammt aus einer nicht-englischen Quelle und ich muss die Zeichenkodierung herausfinden. Gibt es in Word 2010 eine Stelle, an der angegeben wird, welche Kodierung die Datei verwendet?
Antwort1
Word-Dokumente haben ein bestimmtes Format, das je nach Word-Version unterschiedlich ist. Es gibt keine separate Deklaration der Zeichenkodierung. Insbesondere verwendet Word 2010 ein spezielles Format auf XML-Basis mit impliziter UTF-8-Kodierung.