Когда дефис в кодировке UTF-8 (U+2010) копируется из браузера (я пробовал Firefox и IE), а затем вставляется в такие программы, как Putty и Vim (варианты для Windows), все дефисы отображаются как «неизвестные глифы». Вставка в Notepad работает безупречно. Копирование/вставка в Debian/wheezy того же самого HTML-текста (копирование из iceweasel, вставка в vim) также работает, как и ожидалось.
Но символ utf-8 не искалечен. Сохранение на диск или копирование и вставка искалеченного текста работают так, как задумано.
Реальная проблема, которую мне нужно решить, связана с Confluence и его функцией экспорта в файл docx. HTML отображается нормально, docx показывает неподписанные глифы, копирование из docx в Notepad показывает дефисы во вставленном тексте.
Что я могу сделать, чтобы решить эту проблему?
решение1
Я провел дальнейшее расследование и нашел объяснение: дефис U+2010 НЕ содержится в большинстве шрифтов, особенно в фиксированных шрифтах, которые обычно требуются в таких программах, как Vim и PuTTY.
Таким образом, решение моей проблемы с Confluence таково: при конвертации содержимого вики Confluence в формат файла MS Word выберите «Arial Unicode MS Standard» в качестве шрифта по умолчанию.