Indexação Solr no rastreador Apache Nutch

Indexação Solr no rastreador Apache Nutch

Estou trabalhando com o rastreador Apache Nutch e segui as diretrizes mencionadas emhttps://wiki.apache.org/nutch/NutchTutorial. Mas quando estou indexando, recebo um erro conforme a seguir.

O diretório do segmento está completo: crawl/segments/2xxxxxxxxxxxxx.

O caminho de entrada em -filer não é um segmento... pulando

Indexador: a partir de 02/04/2019 14:16:21

Indexador: excluindo documentos perdidos: verdadeiro

Indexador: filtragem de URL: falso

Indexador: normalização de URL: verdadeiro

Nenhuma troca foi configurada. Os documentos serão encaminhados para todos os criadores de índices.

IndexWriters ativos: tipo SOLRIndexWriter: tipo do servidor. Pode ser: "cloud", "concurrent", "http" ou "lb" url: URL da instância SOLR ou URL do quorum Zookeeper commitSize: tamanho do buffer ao enviar para SOLR (padrão 1000) auth: usar autenticação (padrão false ) nome de usuário: nome de usuário para autenticação senha: senha para autenticação

Indexação de documentos 1/1 Exclusão de 0 documentos O trabalho de indexação não teve êxito, status do trabalho: FAILED, motivo: NA Indexador: java.lang.RuntimeException: O trabalho de indexação não teve êxito, status do trabalho: FAILED, motivo: NA em org.apache.nutch .indexer.IndexingJob.index(IndexingJob.java:152) em org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235) em org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70 ) em org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)

Como posso resolver isso?

Responder1

Se você estiver vendo This IndexSchema is not mutable. em solr.log, em solrconfig.xml, substitua true por false em

<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
           processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">

Pode então funcionar ou, pelo menos, haverá algo mais informativo em solr.log

Responder2

Eu estava enfrentando o mesmo problema e descobri que no Solr o núcleo chamado 'nutch' não estava mapeado, então criei um novo núcleo chamado 'nutch' em Solr> Core admin (http://localhost:8983/solr/#/) (criei uma nova pasta chamada nutch e copiei os arquivos de esquema) e funcionou.

informação relacionada