
私は Java 用の Smooks フレームワークを使用していますが、Word 文書を読み込むときに問題が発生しています。文書は英語以外のソースからのものであり、文字エンコードが何であるかを把握する必要があります。Word 2010 には、ファイルが使用するエンコードを示す場所はありますか?
答え1
Word 文書には特定の形式があり、Word のバージョンによって異なります。個別の文字エンコード宣言はありません。具体的には、Word 2010 では、暗黙的に UTF-8 エンコードされた XML に基づく特別な形式が使用されます。