텍스트 이미지로 구성된 PDF - 텍스트 파일로 변환하는 방법?

텍스트 이미지로 구성된 PDF - 텍스트 파일로 변환하는 방법?

스캔한 여러 페이지로 구성된 PDF가 있습니다. 아래에는 텍스트 조각의 예가 나와 있습니다(이 문서는 공개적으로 사용 가능한 문서이므로 개인정보 보호에 대해 걱정하지 마세요). 보시다시피 읽기가 매우 어렵습니다.

PDF의 예

이 PDF를 읽고, 텍스트를 결정하고, 텍스트가 포함된 파일(텍스트 파일, 마크다운, 접미사가 없는 Linux 파일, 심지어 정리된 다른 PDF도 가능)을 출력할 수 있는 프로그램을 실행하고 싶습니다. 나 자신과 다른 사람들이 읽기가 더 쉽습니다. 나는 문장의 간격을 적절하게 맞추는 것 외에 형식에 대해서는 크게 신경 쓰지 않습니다.

나는 pdftotext를 시도했지만 (텍스트 편집기에서) "^L^L^L"로 계속해서 나타나는 파일을 출력했습니다. ocrmypdf도 시도했지만 성공하지 못했습니다(제대로 사용했는지는 확실하지 않지만). 문제에는 이미지의 상대적 "더러움", 텍스트에 다양한 인쇄상의 오류, 추가 공백 및 철자가 틀린 단어가 포함되어 있다는 점 등이 포함됩니다. 이 문서에서 텍스트를 추출하기 위해 어떤 다른 옵션(Linux에서 사용 가능)을 제안합니까?

답변1

의 출력FreeOCR, 이전 버전을 사용하여Tesseract OCR 엔진 v. 5.1, 아래에 있습니다. 이했다~ 아니다이미지 매개변수(예: 대비)를 조정하거나 특정 글꼴을 선택하거나(아마도 고정 폭이 사용됨) 훈련 어휘 파일 중 하나를 선택하거나(또는 "Aronburg" 특정 단어로 새 파일을 생성하여 최적화) 주제에), 이러한 변경으로 인해 의심할 여지 없이 개선될 것입니다.

이것이라면오직처리할 항목이 있으면 처리를 개선하기 위해 노력할 가치가 없지만 이미지가 더 많으면 OCR 설정을 조정하여 더 나은 결과를 얻을 수 있습니다.

에에 룰루룰루쿠

' 거의 파괴되었고, 앙골린 nat

소개?

a 위대한 씨에 대한 이 기록은 아마도 그와 같은 내나마라는 제목을 붙일 수 있는 어떤 파볼루스 전쟁과 관련하여 작가가 쓴 것 중 가장 엄숙한 것일 것입니다. 전쟁. 이 이야기에 대해 7년 동안 지속되었으며, 이 책의 저자는 집필에 11년이 넘게 걸렸습니다. 길고 생생한 세부 사항을 파악하고 승리하기 위해 '오늘'앞날에서 싸웠습니다 |.

비록 크리스트 인 SD가 이 길고 피비린내 나는 전쟁의 편에 서 있었고, 비록 크리스 = 댄스가 이상한 아론버그 미스터리 때문에 패배로 삼켜졌음에도 불구하고 |" |

심지어 나조차도 해결할 수 없는 문제를, 당신이 반대했을 때 그들은 마침내 승리했습니다. Aronburgs Rune의 무서운 전투에서 적 : .

Aronburg 아이를 살해한 것만큼이나 Aronurg의 소행은 나에게 위협이 되었습니다.

글란드코 앙골린 전쟁의 전체 기간 동안 기독교 세 국가의 두 가지 문제를 해결했으며 아론버그 문제의 해결이나 그녀의 '암살자들'의 복수가 유일한 희망이라고 예측되었습니다. 기독교 국가의 전선에서 승리한 Abbieannia는 Glondelinin을 스스로 분쇄했고, 이후 Claverinia는 망가졌습니다.

곤나이오스에서는 절대 사라지지 않을 거야

답변2

이는 독신인 경우 최소 4년 7개월이 걸릴 가능성이 높으며 운이 좋으면 11년만 걸릴 수 있습니다. 가장 좋은 해결책은 군중 유령이 이 "클래식"을 쓰는 것이 가능한지 확인하는 것입니다(또는 Google의 자선 지점을 괴롭히는 경우). 하지만 맞춤법 오류를 유지해야 하는지에 대한 기본 규칙이 필요합니까?

여기에 이미지 설명을 입력하세요

이전 페이지만 타자기로 작성되고 이후의 많은 페이지는 흑백이므로 OCR 또는 인간 전사의 기회를 얻으려면 그레이스케일로 다시 스캔해야 합니다. 여기에 이미지 설명을 입력하세요

관련 정보