기본 스키마를 사용하여 일치하는 텍스트를 정규식으로 반환하는 solr 쿼리

2024-8-23 • tag-icon

기본 스키마를 사용하여 일치하는 텍스트를 정규식으로 반환하는 solr 쿼리

Microsoft Word 문서, PDF 및 jpg,gif와 같은 이미지 파일 집합에서 Solr에서 서버 이름을 검색하고 싶습니다. 서버 이름은 정규식(regex)으로 지정됩니다.

INFP[a-zA-z0-9]{3,9}
TRKP[a-zA-z0-9]{3,9}
PLCP[a-zA-z0-9]{3,9}
SQRP[a-zA-z0-9]{3,9}
....

문제
정규식과 일치하는 문서의 텍스트를 가져오고 싶습니다. 예. INFPWSV01, PLCPLDB01

기본 스키마를 사용하여 Solr/Tikka/Tesseract를 사용하여 파일을 색인화했습니다.

하이라이트 검색 도구를 사용했습니다. hl이 선택되었습니다. hl.usePhraseHighlighter가 선택되었습니다.

Solr는 패턴이 포함된 파일의 파일 이름과 같은 메타데이터만 반환합니다.
질문

관리되는 스키마를 수정해야 합니까?
그렇다면 파일 내용을 스키마에 저장해야 합니다.
그렇다면 다음과 같이 하십시오:
a. solrconfig.xml <- 내 "코어" 내부

<requestHandler class="solr.extraction.ExtractingRequestHandler" name="/update/extract" start="lazy">
<목록 이름="기본값">
<str name="lowernames">사실</str>
<str name="fmap.meta">무시됨_</str>
<str name="fmap.content">_text_</str>
</lst>
...

비. 줄 삭제

<str name="fmap.meta">무시됨_</str>

메타데이터를 원하므로
c. 이를 관리형 스키마로 변경하세요.

<필드 이름="_text_" 유형="text_general" multiValued="true" indexed="true" 저장="false"/>

"true"로 저장됨

컬 -X POST -H '콘텐츠 유형:application/json' --data-binary '{
  "교체 필드":{
     "이름":"_text_",
     "유형":"text_general",
     "다중값":true,
     "인덱싱됨":사실
     "저장됨":사실 }
}' http://localhost:8983/api/cores/gettingstarted/schema

관련 정보