PDF-файл, состоящий из изображений текста — как преобразовать в текстовый файл?

PDF-файл, состоящий из изображений текста — как преобразовать в текстовый файл?

У меня есть PDF, состоящий из множества отсканированных страниц. Пример фрагмента текста показан ниже (не беспокойтесь о конфиденциальности, так как это общедоступный документ). Как видите, его очень трудно читать.

Пример PDF-файла

Я хотел бы запустить программу, которая может прочитать этот PDF, определить текст и вывести файл, содержащий текст (текстовый файл, markdown, файл Linux без суффиксов, даже другой очищенный PDF, любой подойдет), чтобы его было легче читать мне и другим. Меня не слишком волнует форматирование, за исключением таких вещей, как правильное расположение пробелов между предложениями.

Я пробовал pdftotext, но он выводит файл, который (в текстовом редакторе) снова и снова выглядит как "^L^L^L". Я также пробовал ocrmypdf, но он тоже не удался (хотя я не уверен, что использовал его правильно). Сложности включают относительную "грязность" изображений, то, что текст содержит различные типографские ошибки, лишние пробелы и неправильно написанные слова. Какие еще варианты (пригодные для использования в Linux) вы предлагаете для извлечения текста из этого документа?

решение1

Выход изFreeOCR, используя старыйДвижок OCR Tesseract v. 5.1, ниже. Это былонетоптимизировалось ни путем настройки параметров изображения (например, контрастности), ни путем выбора определенного шрифта (вероятно, использовался шрифт фиксированной ширины), ни путем выбора одного из файлов обучающего словаря (или путем создания нового со словами, такими как «Aronburg», характерными для данного субъекта), и оно, несомненно, улучшилось бы с этими изменениями.

Если этотолькоЕсли вы хотите обработать какой-либо элемент, то не стоит тратить усилия на улучшение обработки, но если у вас больше изображений, вы можете настроить параметры OCR, чтобы получить лучшие результаты.

еае лУлУлУлЛУлЛКУ

' почти уничтожен, и ангольская нация

ВВЕДЕНИЕ?

Это описание великого господина и его последующих результатов, возможно, является самым грандиозным из когда-либо написанных автором в духе любой сказочной войны, которая могла бы быть озаглавлена ​​таким именем. Война длилась около семи дней, и автор этой книги потратил более одиннадцати лет на описание длинных и красочных подробностей и сражался со дня на день, чтобы победить.

для христа инн сд сторона этой долгой и кровавой войны, и хотя христос = данс был на тридцатилетии поражения, из-за странной тайны Аронбурга |" |

которую не мог решить никто, даже мой сын, они в конце концов победили, когда переломили ход событий против врага в страшной битве при Аронбургской руне: .

Хотя Аронург уйстери, как и убийство ребенка Аронбурга, имело угрозу моему

енод ду трех христианских государств, на протяжении всей великой Гландко Анголинской войны, и было предсказано, что решение Аронбургской глиняной записки или месть ее убийц, были единственной надеждой — для любого шанса на победу христианской нации провода Аббиеании удалось сокрушить Глонделин сам, после того, как Клавериния была разрушена, и '

Gon wlnost уничтожен в хоранайозе

решение2

Это для одного человека, вероятно, займет минимум четыре года и семь месяцев, или, если повезет, только одиннадцать лет. Лучшее решение — посмотреть, возможно ли написать эту «Классику» толпой-призраком (или донимать благотворительный филиал Google), но вам нужны основные правила, как следует сохранять орфографические ошибки?

введите описание изображения здесь

Только более ранние страницы напечатаны на машинке, а многие более поздние — монохромные, поэтому их необходимо будет снова отсканировать в оттенках серого, чтобы получить возможность оптического распознавания текста (OCR) или человеческой транскрипции. введите описание изображения здесь

Связанный контент