デフォルトのスキーマを使用して、一致したテキストを正規表現に返す Solr クエリ

2024-8-23 • tag-icon

デフォルトのスキーマを使用して、一致したテキストを正規表現に返す Solr クエリ

Solr で Microsoft Word 文書、PDF、jpg、gif などの画像ファイル内のサーバー名を検索したいです。サーバー名は正規表現 (regex) で指定されます。

INFP[a-zA-z0-9]{3,9}
TRKP[a-zA-z0-9]{3,9}
PLCP[a-zA-z0-9]{3,9}
平方根[a-zA-z0-9]{3,9}
....

問題
正規表現に一致するドキュメント内のテキストを取得したい。例: INFPWSV01、PLCPLDB01

デフォルトのスキーマを使用して、Solr/Tikka/Tesseract を使用してファイルをインデックスしました。

ハイライト検索ツールhlを使用しました。hl.usePhraseHighlighterがチェックされています。

Solr は、パターンを含むファイルのファイル名などのメタデータのみを返します (おそらく)。
質問

管理対象スキーマを変更する必要がありますか?
もしそうなら、ファイルの内容をスキーマに保存する必要がありますか？
もしそうなら、これはそれを実行する方法ですか:
a. solrconfig.xml <- 私の「コア」内

<requestHandler クラス="solr.extraction.ExtractingRequestHandler" 名前="/update/extract" スタートアップ="lazy">
<lst name="デフォルト">
<str name="lowernames">真</str>
<str name="fmap.meta">無視されました_</str>
<str name="fmap.content">_テキスト_</str>
</lst>
...

b. 行を削除する

<str name="fmap.meta">無視されました_</str>

メタデータが欲しいので
c.これを管理スキーマに変更する

<フィールド名="_text_" タイプ="text_general" マルチ値="true" インデックス="true" 保存="false"/>

「true」に保存されます

curl -X POST -H 'コンテンツタイプ:application/json' --data-binary '{
  "フィールドを置換":{
     "名前":"_テキスト_",
     "タイプ":"テキスト一般",
     "複数値":true,
     "インデックス":true
     "保存":true }
}' http://localhost:8983/api/cores/gettingstarted/schema

関連情報