consulta solr para devolver texto coincidente a expresiones regulares con el esquema predeterminado

consulta solr para devolver texto coincidente a expresiones regulares con el esquema predeterminado

Quiero buscar en Solr nombres de servidores en un conjunto de documentos de Microsoft Word, PDF y archivos de imágenes como jpg, gif. Los nombres de los servidores vienen dados por la expresión regular (regex)

INFP[a-zA-z0-9]{3,9}
TRKP[a-zA-z0-9]{3,9}
PLCP[a-zA-z0-9]{3,9}
SQRP[a-zA-z0-9]{3,9}
....


Problema
Quiero obtener el texto de los documentos que coincida con la expresión regular. p.ej. INFPWSV01, PLCPLDB01

Indexé los archivos usando Solr/Tikka/Tesseract usando el esquema predeterminado.

He utilizado la herramienta de búsqueda de resaltado hl marcado hl.usePhraseHighlighter marcado

Solr solo devuelve los metadatos (presumiblemente) como el nombre de archivo para el archivo que contiene los patrones.
Preguntas

  1. ¿Tendría que modificar el esquema administrado?
  2. Si es así, ¿tendría que guardar el contenido del archivo en el esquema?
  3. Si es así, esta es la forma de hacerlo:
    a. solrconfig.xml <- dentro de mi "núcleo"
<requestHandler class="solr.extraction.ExtractingRequestHandler" name="/update/extract" startup="lazy">
<lst nombre="valores predeterminados">
<str name="lowernames">verdadero</str>
<str name="fmap.meta">ignorado_</str>
<str nombre="fmap.content">_text_</str>
</lst>
...

b. Quitar línea

<str name="fmap.meta">ignorado_</str>

ya que quiero metadatos
c. Cambie esto al esquema administrado

<campo nombre="_text_" tipo="text_general" multiValued="true" indexed="true" almacenado="false"/>

almacenado en "verdadero"

curl -X POST -H 'Tipo de contenido: aplicación/json' --data-binary '{
  "campo de reemplazo":{
     "nombre":"_text_",
     "tipo": "text_general",
     "multivalor": verdadero,
     "indexado": verdadero
     "almacenado": verdadero}
}' http://localhost:8983/api/cores/gettingstarted/schema

información relacionada