У меня есть файл PDF с персидским шрифтом, и этоСправа налево. Поскольку персидский язык использует формат UTF-8, я не могу преобразовать его в обычный текст в Microsoft Word, также я не могу скопировать-вставить текст, в результате чего получаются нечитаемые символы. Я перепробовал много программ, таких какунипдфи e-Pdf Converter однако после конвертации символы все еще отображаются неправильно. Я даже попробовал OCR, но снова возникла та же проблема. У pdf нет пароля или ограничений.
У кого-нибудь есть другие идеи?
Редактировать: Я на самом деле попробовал создать файл в MS Word и преобразовать его в PDF, после этого у меня снова возникла та же проблема с PDF-файлом (даже кодировка была известна).
решение1
У меня была та же проблема с конвертацией файлов pdf в word. После копирования/вставки в Word форматирование изменилось и вызвало проблемы. Я попробовал несколько онлайн-конвертеров, но они тоже не сработали.
Единственный метод, который сработал, был следующим:
- Откройте файл pdf с помощью Adobe Acrobat Reader, затем в меню «Файл» выберите «Печать». Из названий принтеров выберите adobe acrobat. Да, вы собираетесь создать pdf из pdf!
- Откройте новый PDF-файл в Google Chrome (перетащите файл в Chrome).
- Теперь просто выделите весь текст (ctrl + A) и скопируйте/вставьте его в пустой файл Word.
решение2
Очень часто файлы PDF в нелатинских шрифтах (особенно в шрифтах RTL, таких как арабский, иврит и фарси) генерируются программным обеспечением, которое как бы LTR-ифицирует текст на уровне слов или фрагментов предложений, или просто каким-то образом получает нужные глифы для отображения, но вы получаете бессмыслицу вместо «логичного» текста. В этих случаях мало что можно сделать, кроме как написать собственный обратный конвертер, что фактически не вариант.
Однако если вы сможете выяснить, как создается файл (что часто указывается в метаданных, доступных с помощью обычных программ для чтения PDF-файлов), то, возможно, появится возможность открыть файл в приложении, которое его создало, или, по крайней мере, вы сможете конкретизировать свой вопрос.
решение3
В настоящее время я работаю над преобразованием pdf в редактируемый персидский текст. Лучшее решение, которое я нашел, — это использовать google doc следующим образом.
- Вам следует преобразовать страницы pdf в изображения. Для этого вы можете использовать Adobe Acrobat Reader (не Adobe Reader, который бесплатный) или в Linux я использую GIMP для открытия pdf, а затем выбираю открытие каждой страницы в отдельном изображении. Это ваш выбор.
- Загрузите файлы изображений на Google Диск.
- Перейдите на Google Диск и щелкните правой кнопкой мыши по каждому изображению, затем щелкните
open with google doc
- подождите, пока Google Doc откроет редактируемый текст из вашего изображения
- Скопировать в Word
Я не знаю, есть ли автоматизированные методы. Надеюсь, когда-нибудь у меня будет время сделать заявку на автоматическое выполнение этого.
решение4
Я знаю, что уже слишком поздно отвечать, но для тех, у кого возник такой же вопрос, я могу предложитьDelix.иркоторый представляет собой персидский OCR и конвертер PDF в Word.
Отказ от ответственности: Я являюсь основателем delix.ir и надеюсь, что это не будет расценено как реклама.