Solr で Microsoft Word 文書、PDF、jpg、gif などの画像ファイル内のサーバー名を検索したいです。サーバー名は正規表現 (regex) で指定されます。
INFP[a-zA-z0-9]{3,9} TRKP[a-zA-z0-9]{3,9} PLCP[a-zA-z0-9]{3,9} 平方根[a-zA-z0-9]{3,9} ....
問題
正規表現に一致するドキュメント内のテキストを取得したい。例: INFPWSV01、PLCPLDB01
デフォルトのスキーマを使用して、Solr/Tikka/Tesseract を使用してファイルをインデックスしました。
ハイライト検索ツールhlを使用しました。hl.usePhraseHighlighterがチェックされています。
Solr は、パターンを含むファイルのファイル名などのメタデータのみを返します (おそらく)。
質問
- 管理対象スキーマを変更する必要がありますか?
- もしそうなら、ファイルの内容をスキーマに保存する必要がありますか?
- もしそうなら、これはそれを実行する方法ですか:
a. solrconfig.xml <- 私の「コア」内
<requestHandler クラス="solr.extraction.ExtractingRequestHandler" 名前="/update/extract" スタートアップ="lazy"> <lst name="デフォルト"> <str name="lowernames">真</str> <str name="fmap.meta">無視されました_</str> <str name="fmap.content">_テキスト_</str> </lst> ...
b. 行を削除する
<str name="fmap.meta">無視されました_</str>
メタデータが欲しいので
c.これを管理スキーマに変更する
<フィールド名="_text_" タイプ="text_general" マルチ値="true" インデックス="true" 保存="false"/>
「true」に保存されます
curl -X POST -H 'コンテンツタイプ:application/json' --data-binary '{ "フィールドを置換":{ "名前":"_テキスト_", "タイプ":"テキスト一般", "複数値":true, "インデックス":true "保存":true } }' http://localhost:8983/api/cores/gettingstarted/schema