
최근에 PDF를 Microsoft Word로 변환했는데 변환된 파일의 여백과 용지 크기를 변경한 후 문제가 발생했습니다. 대화 중간에 단락 표시가 있습니다. 예는 다음과 같습니다.
"필모어가 죽어가고 있을 때, 그는 몹시 배가 고팠습니다. 그러나 그의 의사는 그의 열병이나 기타 등등을 굶기려고 했습니다.
하지만 필모어는 먹고 싶다는 말을 멈추지 않았습니다. 그래서 의사는 마침내 그에게 작은 티스푼의 수프를 주었습니다.
그리고 모두 필모어는 '영양이 맛있다'고 비꼬더니 휴전을 하지 않고 죽었습니다."
이 대화는 같은 문단에 있을 것으로 추정됐고, 변환된 글에도 같은 문제가 많다. 어떻게 해결하나요? (한 번에 모든 것을 고칠 수 있으면 시간이 절약되길 바랍니다.)
답변1
위의 문제에 대해 제가 이해한 바로는 OCR 처리와 관련이 있으며, OCR은 자신이 이해한 것을 변환하여 문서를 생성할 뿐, 오해할 수 있는 문자와 관련된 잘못된 번역을 하는 경우가 많습니다. 따라서 어쨌든 OCR 프로그램이 너무 잘 발전했기 때문에 이것은 아직 정확한 과학은 아니지만 해석에 대해 여전히 100% 긍정적인 것은 아닙니다. 우리는 항상 이러한 오류를 수동으로 수정해야 합니다.
답변2
나는 PDF 문서의 단락 구조가 다른 워드 프로세싱 프로그램과 동일하다고 생각하지 않습니다. 시트에 있는 텍스트의 위치를 지정하는 것일 뿐이며 문자는 인쇄된 이미지나 관련 문자로 표시되지만 색상, 단락, 다음 줄 또는 코드 입력과 같은 서식 정보를 수행한다고는 생각하지 않습니다.