
Недавно я конвертировал PDF в Microsoft Word, и у меня возникла проблема после изменения полей и размера бумаги конвертированного файла. В середине диалога есть знак абзаца. Вот пример:
«Когда Филмор умирал, он был очень голоден. Но его врач пытался уморить его лихорадку голодом или что-то в этом роде.
Филмор не мог заткнуться и говорил, что ему хочется есть, поэтому в конце концов доктор дал ему маленькую чайную ложку супа.
И весь такой саркастический, Филмор сказал: «Питание вкусное», а затем умер. Никакого перемирия».
Этот диалог должен был быть в том же абзаце, а в преобразованной статье много тех же проблем. Как мне это исправить? (Надеюсь, я смогу исправить все сразу, что сэкономит время.)
решение1
Насколько я понимаю, проблема выше связана с обработкой OCR, а OCR просто преобразует то, что понимает, и создает документ, часто делая неправильные переводы, связанные с символами, которые могут быть неверно истолкованы. Так что, в любом случае, это пока не ТОЧНАЯ наука, поскольку программы OCR так хорошо эволюционировали, но они все еще не на 100% уверены в своей интерпретации. Нам всегда нужно вручную исправлять эти ошибки.
решение2
Я не думаю, что структуры абзацев PDF-документа такие же, как в любой программе обработки текста. Это просто позиционирование текста на листе, а символы представлены либо как напечатанное изображение, либо как связанный символ, но я не думаю, что он выполняет форматирование информации, такой как Цвет, Абзацы и Следующая строка или Введите код.