
스캔한 여러 페이지로 구성된 PDF가 있습니다. 아래에는 텍스트 조각의 예가 나와 있습니다(이 문서는 공개적으로 사용 가능한 문서이므로 개인정보 보호에 대해 걱정하지 마세요). 보시다시피 읽기가 매우 어렵습니다.
이 PDF를 읽고, 텍스트를 결정하고, 텍스트가 포함된 파일(텍스트 파일, 마크다운, 접미사가 없는 Linux 파일, 심지어 정리된 다른 PDF도 가능)을 출력할 수 있는 프로그램을 실행하고 싶습니다. 나 자신과 다른 사람들이 읽기가 더 쉽습니다. 나는 문장의 간격을 적절하게 맞추는 것 외에 형식에 대해서는 크게 신경 쓰지 않습니다.
나는 pdftotext를 시도했지만 (텍스트 편집기에서) "^L^L^L"로 계속해서 나타나는 파일을 출력했습니다. ocrmypdf도 시도했지만 성공하지 못했습니다(제대로 사용했는지는 확실하지 않지만). 문제에는 이미지의 상대적 "더러움", 텍스트에 다양한 인쇄상의 오류, 추가 공백 및 철자가 틀린 단어가 포함되어 있다는 점 등이 포함됩니다. 이 문서에서 텍스트를 추출하기 위해 어떤 다른 옵션(Linux에서 사용 가능)을 제안합니까?
답변1
의 출력FreeOCR, 이전 버전을 사용하여Tesseract OCR 엔진 v. 5.1, 아래에 있습니다. 이했다~ 아니다이미지 매개변수(예: 대비)를 조정하거나 특정 글꼴을 선택하거나(아마도 고정 폭이 사용됨) 훈련 어휘 파일 중 하나를 선택하거나(또는 "Aronburg" 특정 단어로 새 파일을 생성하여 최적화) 주제에), 이러한 변경으로 인해 의심할 여지 없이 개선될 것입니다.
이것이라면오직처리할 항목이 있으면 처리를 개선하기 위해 노력할 가치가 없지만 이미지가 더 많으면 OCR 설정을 조정하여 더 나은 결과를 얻을 수 있습니다.
에에 룰루룰루쿠
' 거의 파괴되었고, 앙골린 nat
소개?
a 위대한 씨에 대한 이 기록은 아마도 그와 같은 내나마라는 제목을 붙일 수 있는 어떤 파볼루스 전쟁과 관련하여 작가가 쓴 것 중 가장 엄숙한 것일 것입니다. 전쟁. 이 이야기에 대해 7년 동안 지속되었으며, 이 책의 저자는 집필에 11년이 넘게 걸렸습니다. 길고 생생한 세부 사항을 파악하고 승리하기 위해 '오늘'앞날에서 싸웠습니다 |.
비록 크리스트 인 SD가 이 길고 피비린내 나는 전쟁의 편에 서 있었고, 비록 크리스 = 댄스가 이상한 아론버그 미스터리 때문에 패배로 삼켜졌음에도 불구하고 |" |
심지어 나조차도 해결할 수 없는 문제를, 당신이 반대했을 때 그들은 마침내 승리했습니다. Aronburgs Rune의 무서운 전투에서 적 : .
Aronburg 아이를 살해한 것만큼이나 Aronurg의 소행은 나에게 위협이 되었습니다.
글란드코 앙골린 전쟁의 전체 기간 동안 기독교 세 국가의 두 가지 문제를 해결했으며 아론버그 문제의 해결이나 그녀의 '암살자들'의 복수가 유일한 희망이라고 예측되었습니다. 기독교 국가의 전선에서 승리한 Abbieannia는 Glondelinin을 스스로 분쇄했고, 이후 Claverinia는 망가졌습니다.
곤나이오스에서는 절대 사라지지 않을 거야