Indexación de Solr en el rastreador Apache Nutch

Indexación de Solr en el rastreador Apache Nutch

Estoy trabajando con el rastreador Apache Nutch y seguí las pautas mencionadas enhttps://wiki.apache.org/nutch/NutchTutorial. Pero cuando estoy indexando, aparece el siguiente error.

El directorio de segmentos está completo: rastreo/segmentos/2xxxxxxxxxxxxx.

La ruta de entrada en -filer no es un segmento... omitiendo

Indexador: a partir del 2019-04-02 14:16:21

Indexador: eliminando documentos desaparecidos: verdadero

Indexador: filtrado de URL: falso

Indexador: normalización de URL: verdadero

No se configuró ningún intercambio. Los documentos se enviarán a todos los redactores de índices.

Active IndexWriters: SOLRIndexWriter type: Tipo de servidor. Puede ser: "nube", "concurrente", "http" o "lb" url: URL de la instancia de SOLR o URL del quórum de Zookeeper commitSize: tamaño del búfer al enviar a SOLR (predeterminado 1000) auth: usar autenticación (predeterminado falso ) nombre de usuario: nombre de usuario para autenticación contraseña: contraseña para autenticación

Indexación de documentos 1/1 Eliminación de 0 documentos El trabajo de indexación no se realizó correctamente, estado del trabajo: FALLADO, motivo: NA Indexador: java.lang.RuntimeException: el trabajo de indexación no se realizó correctamente, estado del trabajo: FALLADO, motivo: NA en org.apache.nutch .indexer.IndexingJob.index(IndexingJob.java:152) en org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235) en org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70 ) en org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)

¿Como puedo resolver esto?

Respuesta1

Si lo ve This IndexSchema is not mutable. en solr.log, en solrconfig.xml, reemplace verdadero con falso en

<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
           processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">

Entonces puede que funcione o, al menos, habrá algo más informativo en solr.log.

Respuesta2

Estaba enfrentando el mismo problema y descubrí que en Solr el núcleo llamado 'nutch' no estaba asignado, así que creé un nuevo núcleo llamado 'nutch' desde Solr > Core admin (http://localhost:8983/solr/#/) (creé una nueva carpeta llamada nutch y copié archivos de esquema) y funcionó.

información relacionada