Ich arbeite mit Apache Nutch Crawler und befolge die Richtlinien inhttps://wiki.apache.org/nutch/NutchTutorial. Aber beim Indizieren erhalte ich den folgenden Fehler.
Segmentverzeichnis ist vollständig: crawl/segments/2xxxxxxxxxxxxx.
Der Eingabepfad bei -filer ist kein Segment ... wird übersprungen
Indexer: ab 2019-04-02 14:16:21
Indexer: Löschen verschwundener Dokumente: true
Indexer: URL-Filterung: false
Indexer: URL-Normalisierung: true
Es wurde kein Austausch konfiguriert. Die Dokumente werden an alle Indexschreiber weitergeleitet.
Aktive IndexWriter: SOLRIndexWriter Typ: Typ des Servers. Kann sein: „Cloud“, „concurrent“, „http“ oder „lb“ URL: URL der SOLR-Instanz oder URL des Zookeeper-Quorums CommitSize: Puffergröße beim Senden an SOLR (Standard 1000) Auth: Authentifizierung verwenden (Standard: „false“) Benutzername: Benutzername für Authentifizierung Passwort: Passwort für Authentifizierung
1/1 Dokumente werden indiziert. 0 Dokumente werden gelöscht. Der Indizierungsjob war nicht erfolgreich. Jobstatus: FEHLGESCHLAGEN, Grund: N/A. Indexer: java.lang.RuntimeException: Der Indizierungsjob war nicht erfolgreich. Jobstatus: FEHLGESCHLAGEN, Grund: N/A. bei org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:152) bei org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235) bei org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) bei org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)
Wie kann ich das lösen?
Antwort1
Wenn Sie in solr.log sehen
This IndexSchema is not mutable.
, ersetzen Sie in solrconfig.xml true durch false in
<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">
Dann könnte es funktionieren oder zumindest wird etwas informativeres in solr.log stehen
Antwort2
Ich hatte das gleiche Problem und fand heraus, dass in Solr der Kern mit dem Namen „nutch“ nicht zugeordnet war. Daher erstellte ich einen neuen Kern mit dem Namen „nutch“ unter Solr > Core-Admin (http://localhost:8983/solr/#/) (neuen Ordner namens „nutch“ erstellt und Schemadateien kopiert) und es hat funktioniert.