solr 查詢將符合的文字傳回具有預設架構的正規表示式

solr 查詢將符合的文字傳回具有預設架構的正規表示式

我想在 Solr 中搜尋一組 Microsoft Word 文件、PDF 和 jpg、gif 等圖像檔案中的伺服器名稱。伺服器名稱由正規表示式(regex)給出

INFP[a-zA-z0-9]{3,9}
TRKP[a-zA-z0-9]{3,9}
PLCP[a-zA-z0-9]{3,9}
SQRP[a-zA-z0-9]{3,9}
....


問題
我想獲取文檔中與正則表達式匹配的文本。例如。 INFPWSV01、PLCPLDB01

我已經使用 Solr/Tikka/Tesseract 使用預設模式對檔案進行了索引。

我用過高亮搜尋工具 hl 打勾 hl.usePhraseHighlighter 打勾

Solr 僅傳回元資料(大概),例如包含模式的檔案的檔案名稱。
問題

  1. 我是否必須修改託管架構?
  2. 如果是這樣,我必須將文件內容保存在架構中
  3. 如果是的話,這樣做的方法是
    : solrconfig.xml <- 在我的「核心」內
<requestHandler class="solr.extraction.ExtractingRequestHandler" name="/update/extract"startup="lazy">
<lst名稱=“預設”>
<str name="lowernames">true</str>
<str name="fmap.meta">忽略_</str>
<str name="fmap.content">_text_</str>
</lst>

b.刪除線

<str name="fmap.meta">忽略_</str>

因為我想要元資料
c。將此變更為託管架構

<欄位名稱=“_text_”類型=“text_general”multiValued=“true”索引=“true”儲存=“false”/>

儲存為“true”

curl -X POST -H '內容類型:application/json' --data-binary '{
  「替換欄位」:{
     “名稱”:“_text_”,
     “類型”:“text_general”,
     「多值」:true,
     “索引”:true
     「已儲存」:true }
}' http://localhost:8983/api/cores/gettingstarted/schema

相關內容