solr 查詢將符合的文字傳回具有預設架構的正規表示式

2024-8-23 • tag-icon

我想在 Solr 中搜尋一組 Microsoft Word 文件、PDF 和 jpg、gif 等圖像檔案中的伺服器名稱。伺服器名稱由正規表示式（regex）給出

INFP[a-zA-z0-9]{3,9}
TRKP[a-zA-z0-9]{3,9}
PLCP[a-zA-z0-9]{3,9}
SQRP[a-zA-z0-9]{3,9}
....

問題
我想獲取文檔中與正則表達式匹配的文本。例如。 INFPWSV01、PLCPLDB01

我已經使用 Solr/Tikka/Tesseract 使用預設模式對檔案進行了索引。

我用過高亮搜尋工具 hl 打勾 hl.usePhraseHighlighter 打勾

Solr 僅傳回元資料（大概），例如包含模式的檔案的檔案名稱。
問題

我是否必須修改託管架構？
如果是這樣，我必須將文件內容保存在架構中
如果是的話，這樣做的方法是
： solrconfig.xml <- 在我的「核心」內

<requestHandler class="solr.extraction.ExtractingRequestHandler" name="/update/extract"startup="lazy">
<lst名稱=“預設”>
<str name="lowernames">true</str>
<str name="fmap.meta">忽略_</str>
<str name="fmap.content">_text_</str>
</lst>
…

b.刪除線

<str name="fmap.meta">忽略_</str>

因為我想要元資料
c。將此變更為託管架構

<欄位名稱=“_text_”類型=“text_general”multiValued=“true”索引=“true”儲存=“false”/>

儲存為“true”

curl -X POST -H '內容類型：application/json' --data-binary '{
  「替換欄位」：{
     “名稱”：“_text_”，
     “類型”：“text_general”，
     「多值」：true，
     “索引”：true
     「已儲存」：true }
}' http://localhost:8983/api/cores/gettingstarted/schema

相關內容