Estoy trabajando con el rastreador Apache Nutch y seguí las pautas mencionadas enhttps://wiki.apache.org/nutch/NutchTutorial. Pero cuando estoy indexando, aparece el siguiente error.
El directorio de segmentos está completo: rastreo/segmentos/2xxxxxxxxxxxxx.
La ruta de entrada en -filer no es un segmento... omitiendo
Indexador: a partir del 2019-04-02 14:16:21
Indexador: eliminando documentos desaparecidos: verdadero
Indexador: filtrado de URL: falso
Indexador: normalización de URL: verdadero
No se configuró ningún intercambio. Los documentos se enviarán a todos los redactores de índices.
Active IndexWriters: SOLRIndexWriter type: Tipo de servidor. Puede ser: "nube", "concurrente", "http" o "lb" url: URL de la instancia de SOLR o URL del quórum de Zookeeper commitSize: tamaño del búfer al enviar a SOLR (predeterminado 1000) auth: usar autenticación (predeterminado falso ) nombre de usuario: nombre de usuario para autenticación contraseña: contraseña para autenticación
Indexación de documentos 1/1 Eliminación de 0 documentos El trabajo de indexación no se realizó correctamente, estado del trabajo: FALLADO, motivo: NA Indexador: java.lang.RuntimeException: el trabajo de indexación no se realizó correctamente, estado del trabajo: FALLADO, motivo: NA en org.apache.nutch .indexer.IndexingJob.index(IndexingJob.java:152) en org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235) en org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70 ) en org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)
¿Como puedo resolver esto?
Respuesta1
Si lo ve
This IndexSchema is not mutable.
en solr.log, en solrconfig.xml, reemplace verdadero con falso en
<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">
Entonces puede que funcione o, al menos, habrá algo más informativo en solr.log.
Respuesta2
Estaba enfrentando el mismo problema y descubrí que en Solr el núcleo llamado 'nutch' no estaba asignado, así que creé un nuevo núcleo llamado 'nutch' desde Solr > Core admin (http://localhost:8983/solr/#/) (creé una nueva carpeta llamada nutch y copié archivos de esquema) y funcionó.