Estou trabalhando com o rastreador Apache Nutch e segui as diretrizes mencionadas emhttps://wiki.apache.org/nutch/NutchTutorial. Mas quando estou indexando, recebo um erro conforme a seguir.
O diretório do segmento está completo: crawl/segments/2xxxxxxxxxxxxx.
O caminho de entrada em -filer não é um segmento... pulando
Indexador: a partir de 02/04/2019 14:16:21
Indexador: excluindo documentos perdidos: verdadeiro
Indexador: filtragem de URL: falso
Indexador: normalização de URL: verdadeiro
Nenhuma troca foi configurada. Os documentos serão encaminhados para todos os criadores de índices.
IndexWriters ativos: tipo SOLRIndexWriter: tipo do servidor. Pode ser: "cloud", "concurrent", "http" ou "lb" url: URL da instância SOLR ou URL do quorum Zookeeper commitSize: tamanho do buffer ao enviar para SOLR (padrão 1000) auth: usar autenticação (padrão false ) nome de usuário: nome de usuário para autenticação senha: senha para autenticação
Indexação de documentos 1/1 Exclusão de 0 documentos O trabalho de indexação não teve êxito, status do trabalho: FAILED, motivo: NA Indexador: java.lang.RuntimeException: O trabalho de indexação não teve êxito, status do trabalho: FAILED, motivo: NA em org.apache.nutch .indexer.IndexingJob.index(IndexingJob.java:152) em org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235) em org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70 ) em org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)
Como posso resolver isso?
Responder1
Se você estiver vendo
This IndexSchema is not mutable.
em solr.log, em solrconfig.xml, substitua true por false em
<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">
Pode então funcionar ou, pelo menos, haverá algo mais informativo em solr.log
Responder2
Eu estava enfrentando o mesmo problema e descobri que no Solr o núcleo chamado 'nutch' não estava mapeado, então criei um novo núcleo chamado 'nutch' em Solr> Core admin (http://localhost:8983/solr/#/) (criei uma nova pasta chamada nutch e copiei os arquivos de esquema) e funcionou.