Solr-Abfrage zum Zurückgeben von übereinstimmendem Text an Regex mit Standardschema

2024-8-23 • tag-icon

Solr-Abfrage zum Zurückgeben von übereinstimmendem Text an Regex mit Standardschema

Ich möchte Solr nach Servernamen in einer Reihe von Microsoft Word-Dokumenten, PDF-Dateien und Bilddateien wie JPG und GIF durchsuchen. Servernamen werden durch den regulären Ausdruck (regex) angegeben.

INFP[a-zA-z0-9]{3,9}
TRKP[a-zA-z0-9]{3,9}
PLCP[a-zA-z0-9]{3,9}
SQRP[a-zA-z0-9]{3,9}
....

Problem
Ich möchte den Text in den Dokumenten erhalten, der dem regulären Ausdruck entspricht. zB. INFPWSV01, PLCPLDB01

Ich habe die Dateien mit Solr/Tikka/Tesseract unter Verwendung des Standardschemas indiziert.

Ich habe das Hervorhebungssuchtool verwendet hl aktiviert hl.usePhraseHighlighter aktiviert

Solr gibt (vermutlich) nur die Metadaten zurück, beispielsweise den Dateinamen für die Datei, die die Muster enthält.
Fragen

Muss ich das verwaltete Schema ändern?
Wenn ja, müsste ich den Dateiinhalt im Schema speichern
Wenn ja, ist dies die Vorgehensweise:
a. solrconfig.xml <- innerhalb meines „Kerns“

<requestHandler Klasse="solr.extraction.ExtractingRequestHandler" Name="/update/extract" startup="lazy">
<lst name="Voreinstellungen">
<str name="lowernames">wahr</str>
<str name="fmap.meta">ignoriert_</str>
<str name="fmap.content">_text_</str>
</lst>
...

b. Zeile entfernen

<str name="fmap.meta">ignoriert_</str>

da ich Metadaten möchte
c. Ändern Sie dies in das verwaltete Schema

<Feldname="_text_" Typ="text_general" multiValued="true" indexed="true" gespeichert="false"/>

auf "true" gespeichert

curl -X POST -H 'Inhaltstyp:application/json' --data-binary '{
  "Feld ersetzen":{
     "Name": "_Text_",
     "Typ": "text_general",
     "mehrwertig":true,
     "indiziert":true
     "gespeichert":true }
}' http://localhost:8983/api/cores/gettingstarted/schema

verwandte Informationen