나는 pdf와 epub 전자책 파일이 많이 들어 있는 큰 디렉토리를 가지고 있습니다. 같은 페이지에 여러 개의 키워드가 포함된 파일을 검색하고 싶습니다.
답변1
단일 페이지에서 텍스트를 추출할 수 있는 유틸리티(예: pdftext
)를 선택하고, 모든 페이지에 대해 반복하고, 텍스트를 추출하고, 추출된 텍스트에 정규 표현식을 적용합니다.
또는 원하는 프로그래밍 언어, 원하는 PDF 라이브러리를 사용하고 이를 위한 프로그램을 작성하세요.
EPUB
epub은 zip 파일일 뿐입니다. 압축을 풀면 html 파일이 많이 나옵니다. 이러한 파일에서 정규식을 검색하거나 일부 도구를 사용하여 서식을 무시하고 먼저 일반 텍스트로 변환할 수 있습니다.
epub 파일은 기본적으로페이지가 없습니다: 페이지 매김은 렌더링 장치에 의해 수행되며 렌더링 장치마다 다를 수 있습니다. 따라서 "동일한 페이지에서 여러 키워드 찾기"는 이를 고려하여 html 구조를 사용하여 어떻게든 변경되어야 합니다.