我想在 Solr 中搜尋一組 Microsoft Word 文件、PDF 和 jpg、gif 等圖像檔案中的伺服器名稱。伺服器名稱由正規表示式(regex)給出
INFP[a-zA-z0-9]{3,9} TRKP[a-zA-z0-9]{3,9} PLCP[a-zA-z0-9]{3,9} SQRP[a-zA-z0-9]{3,9} ....
問題
我想獲取文檔中與正則表達式匹配的文本。例如。 INFPWSV01、PLCPLDB01
我已經使用 Solr/Tikka/Tesseract 使用預設模式對檔案進行了索引。
我用過高亮搜尋工具 hl 打勾 hl.usePhraseHighlighter 打勾
Solr 僅傳回元資料(大概),例如包含模式的檔案的檔案名稱。
問題
- 我是否必須修改託管架構?
- 如果是這樣,我必須將文件內容保存在架構中
- 如果是的話,這樣做的方法是
: solrconfig.xml <- 在我的「核心」內
<requestHandler class="solr.extraction.ExtractingRequestHandler" name="/update/extract"startup="lazy"> <lst名稱=“預設”> <str name="lowernames">true</str> <str name="fmap.meta">忽略_</str> <str name="fmap.content">_text_</str> </lst> …
b.刪除線
<str name="fmap.meta">忽略_</str>
因為我想要元資料
c。將此變更為託管架構
<欄位名稱=“_text_”類型=“text_general”multiValued=“true”索引=“true”儲存=“false”/>
儲存為“true”
curl -X POST -H '內容類型:application/json' --data-binary '{ 「替換欄位」:{ “名稱”:“_text_”, “類型”:“text_general”, 「多值」:true, “索引”:true 「已儲存」:true } }' http://localhost:8983/api/cores/gettingstarted/schema