종이 문서를 PDF 파일로 스캔하고 텍스트를 검색 가능하게 만들고 싶습니다. 나는 Tesseract 프로그램이 이를 도울 수 있다고 믿지만, 어떻게 시작해야 할지 모르고, 어떤 프로그램을 사용하는 것이 가장 좋은지 모릅니다.
검색 가능한 PDF 파일을 성공적으로 만드는 사람이 있습니까?
답변1
나는 추천할 수 ocrmypdf
있습니다.https://github.com/ocrmypdf/OCRmyPDF, Ubuntu용으로도 패키지되어 있습니다. 다음을 실행하여 설치할 수 있습니다.
sudo apt install ocrmypdf
다음과 같이 사용할 수 있습니다.
ocrmypdf -l eng infile.pdf outfile.pdf
위의 호출 ocrmypdf
은 문서 언어를 영어( )로 지정하는 간단한 호출입니다 -l eng
. 에는 많은 옵션이 있습니다.man
페이지; 시간이 지남에 따라 필요에 따라 검색할 수도 있습니다.