Ich möchte Solr nach Servernamen in einer Reihe von Microsoft Word-Dokumenten, PDF-Dateien und Bilddateien wie JPG und GIF durchsuchen. Servernamen werden durch den regulären Ausdruck (regex) angegeben.
INFP[a-zA-z0-9]{3,9} TRKP[a-zA-z0-9]{3,9} PLCP[a-zA-z0-9]{3,9} SQRP[a-zA-z0-9]{3,9} ....
Problem
Ich möchte den Text in den Dokumenten erhalten, der dem regulären Ausdruck entspricht. zB. INFPWSV01, PLCPLDB01
Ich habe die Dateien mit Solr/Tikka/Tesseract unter Verwendung des Standardschemas indiziert.
Ich habe das Hervorhebungssuchtool verwendet hl aktiviert hl.usePhraseHighlighter aktiviert
Solr gibt (vermutlich) nur die Metadaten zurück, beispielsweise den Dateinamen für die Datei, die die Muster enthält.
Fragen
- Muss ich das verwaltete Schema ändern?
- Wenn ja, müsste ich den Dateiinhalt im Schema speichern
- Wenn ja, ist dies die Vorgehensweise:
a. solrconfig.xml <- innerhalb meines „Kerns“
<requestHandler Klasse="solr.extraction.ExtractingRequestHandler" Name="/update/extract" startup="lazy"> <lst name="Voreinstellungen"> <str name="lowernames">wahr</str> <str name="fmap.meta">ignoriert_</str> <str name="fmap.content">_text_</str> </lst> ...
b. Zeile entfernen
<str name="fmap.meta">ignoriert_</str>
da ich Metadaten möchte
c. Ändern Sie dies in das verwaltete Schema
<Feldname="_text_" Typ="text_general" multiValued="true" indexed="true" gespeichert="false"/>
auf "true" gespeichert
curl -X POST -H 'Inhaltstyp:application/json' --data-binary '{ "Feld ersetzen":{ "Name": "_Text_", "Typ": "text_general", "mehrwertig":true, "indiziert":true "gespeichert":true } }' http://localhost:8983/api/cores/gettingstarted/schema