Как конвертировать персидский PDF-файл в формат Microsoft Word?

Как конвертировать персидский PDF-файл в формат Microsoft Word?

У меня есть файл PDF с персидским шрифтом, и этоСправа налево. Поскольку персидский язык использует формат UTF-8, я не могу преобразовать его в обычный текст в Microsoft Word, также я не могу скопировать-вставить текст, в результате чего получаются нечитаемые символы. Я перепробовал много программ, таких какунипдфи e-Pdf Converter однако после конвертации символы все еще отображаются неправильно. Я даже попробовал OCR, но снова возникла та же проблема. У pdf нет пароля или ограничений.

У кого-нибудь есть другие идеи?

Редактировать: Я на самом деле попробовал создать файл в MS Word и преобразовать его в PDF, после этого у меня снова возникла та же проблема с PDF-файлом (даже кодировка была известна).

решение1

У меня была та же проблема с конвертацией файлов pdf в word. После копирования/вставки в Word форматирование изменилось и вызвало проблемы. Я попробовал несколько онлайн-конвертеров, но они тоже не сработали.
Единственный метод, который сработал, был следующим:

  1. Откройте файл pdf с помощью Adobe Acrobat Reader, затем в меню «Файл» выберите «Печать». Из названий принтеров выберите adobe acrobat. Да, вы собираетесь создать pdf из pdf!
  2. Откройте новый PDF-файл в Google Chrome (перетащите файл в Chrome).
  3. Теперь просто выделите весь текст (ctrl + A) и скопируйте/вставьте его в пустой файл Word.

решение2

Очень часто файлы PDF в нелатинских шрифтах (особенно в шрифтах RTL, таких как арабский, иврит и фарси) генерируются программным обеспечением, которое как бы LTR-ифицирует текст на уровне слов или фрагментов предложений, или просто каким-то образом получает нужные глифы для отображения, но вы получаете бессмыслицу вместо «логичного» текста. В этих случаях мало что можно сделать, кроме как написать собственный обратный конвертер, что фактически не вариант.

Однако если вы сможете выяснить, как создается файл (что часто указывается в метаданных, доступных с помощью обычных программ для чтения PDF-файлов), то, возможно, появится возможность открыть файл в приложении, которое его создало, или, по крайней мере, вы сможете конкретизировать свой вопрос.

решение3

В настоящее время я работаю над преобразованием pdf в редактируемый персидский текст. Лучшее решение, которое я нашел, — это использовать google doc следующим образом.

  1. Вам следует преобразовать страницы pdf в изображения. Для этого вы можете использовать Adobe Acrobat Reader (не Adobe Reader, который бесплатный) или в Linux я использую GIMP для открытия pdf, а затем выбираю открытие каждой страницы в отдельном изображении. Это ваш выбор.
  2. Загрузите файлы изображений на Google Диск.
  3. Перейдите на Google Диск и щелкните правой кнопкой мыши по каждому изображению, затем щелкнитеopen with google doc
  4. подождите, пока Google Doc откроет редактируемый текст из вашего изображения
  5. Скопировать в Word

Я не знаю, есть ли автоматизированные методы. Надеюсь, когда-нибудь у меня будет время сделать заявку на автоматическое выполнение этого.

решение4

Я знаю, что уже слишком поздно отвечать, но для тех, у кого возник такой же вопрос, я могу предложитьDelix.иркоторый представляет собой персидский OCR и конвертер PDF в Word.

Отказ от ответственности: Я являюсь основателем delix.ir и надеюсь, что это не будет расценено как реклама.

Связанный контент