Microsoft Word 문서, PDF 및 jpg,gif와 같은 이미지 파일 집합에서 Solr에서 서버 이름을 검색하고 싶습니다. 서버 이름은 정규식(regex)으로 지정됩니다.
INFP[a-zA-z0-9]{3,9} TRKP[a-zA-z0-9]{3,9} PLCP[a-zA-z0-9]{3,9} SQRP[a-zA-z0-9]{3,9} ....
문제
정규식과 일치하는 문서의 텍스트를 가져오고 싶습니다. 예. INFPWSV01, PLCPLDB01
기본 스키마를 사용하여 Solr/Tikka/Tesseract를 사용하여 파일을 색인화했습니다.
하이라이트 검색 도구를 사용했습니다. hl이 선택되었습니다. hl.usePhraseHighlighter가 선택되었습니다.
Solr는 패턴이 포함된 파일의 파일 이름과 같은 메타데이터만 반환합니다.
질문
- 관리되는 스키마를 수정해야 합니까?
- 그렇다면 파일 내용을 스키마에 저장해야 합니다.
- 그렇다면 다음과 같이 하십시오:
a. solrconfig.xml <- 내 "코어" 내부
<requestHandler class="solr.extraction.ExtractingRequestHandler" name="/update/extract" start="lazy"> <목록 이름="기본값"> <str name="lowernames">사실</str> <str name="fmap.meta">무시됨_</str> <str name="fmap.content">_text_</str> </lst> ...
비. 줄 삭제
<str name="fmap.meta">무시됨_</str>
메타데이터를 원하므로
c. 이를 관리형 스키마로 변경하세요.
<필드 이름="_text_" 유형="text_general" multiValued="true" indexed="true" 저장="false"/>
"true"로 저장됨
컬 -X POST -H '콘텐츠 유형:application/json' --data-binary '{ "교체 필드":{ "이름":"_text_", "유형":"text_general", "다중값":true, "인덱싱됨":사실 "저장됨":사실 } }' http://localhost:8983/api/cores/gettingstarted/schema