TIFF를 TEXT로 변환하거나 텍스트 내용을 기반으로 TIFF 파일을 색인화합니다.

TIFF를 TEXT로 변환하거나 텍스트 내용을 기반으로 TIFF 파일을 색인화합니다.

수천 개의 Tiff 파일이 있는데 각 파일은 여러 페이지로 구성된 텍스트 문서입니다. 이러한 파일의 내용을 검색하고 이름, 도시, 카운티, 주, 거리, 우편번호 등과 같은 특정 정보를 기반으로 구성/인덱싱할 수 있기를 원합니다. 목표는 다음을 기반으로 관련 파일을 찾는 것입니다. 검색어. 예를 들어 "Doyle, Bob" AND "Orange County"를 검색하면 해당 용어가 포함된 모든 파일이 검색됩니다. Windows와 Linux PC를 사용할 수 있지만 크로스 플랫폼일 필요는 없습니다.

당신은 무엇을 제안합니까?

답변1

나는 이 (tiff) 파일의 내용을 검색할 수 있기를 원합니다.

아래에는 Windows 및 Linux용 두 가지 솔루션이 제시되어 있습니다.


윈도우 솔루션

당신은 설치할 수 있습니다TIFF I필터.

Windows® TIFF IFilter를 사용하면 텍스트 내용을 기반으로 TIFF 문서를 검색할 수 있습니다. 로드되면 Windows TIFF IFilter는 TIFF 이미지의 OCR(광학 문자 인식) 처리를 수행한 다음 인식된 텍스트를 호출자에게 제공하여 검색 인덱스를 작성합니다.

Windows TIFF IFilter는 텍스트 기반 문서에 초점을 맞춥니다. 즉, 명확하게 식별 가능한 텍스트(예: 흰색 배경에 검정색 텍스트)가 포함된 문서에서는 검색이 더 성공하고 혼합 콘텐츠(예: 예술적 텍스트 또는 그림 내부의 텍스트). 또한 품질이 낮은 이미지와 혼합 언어는 OCR 처리에 부정적인 영향을 미치고 결과적으로 검색 결과의 품질을 낮출 수 있습니다.

Windows TIFF IFilter는 Adobe TIFF Revision 6.0 사양을 준수하는 모든 TIFF 문서를 지원하며 가장 자주 사용되는 압축(예: LZW, JPG, CCITT v4, CCITT v6 및 비압축)을 포함합니다.

소스 링크에는 자세한 설치 지침이 포함되어 있습니다.

메모:

원천Windows TIFF IFilter 설치 및 운영 가이드


리눅스 솔루션

  1. TIFF 파일을 텍스트 파일 또는 PDF 파일로 변환합니다.

    • 아래 링크는 중간 OCR 단계(Tesseract 사용)를 사용하여 PDF로 변환하는 방법을 보여줍니다.

    • 중간 단계에서는 텍스트 파일을 생성합니다.

    • 이는 PDF가 이미지가 아닌 텍스트로 생성되었음을 의미합니다.

  2. 원하는 대로 텍스트 파일이나 PDF 파일을 검색하세요.

보다OCR로 텍스트 스캔 및 편집변환을 위한 한 가지 접근 방식입니다.

관련 정보