Solr-Indizierung im Apache Nutch Crawler

Solr-Indizierung im Apache Nutch Crawler

Ich arbeite mit Apache Nutch Crawler und befolge die Richtlinien inhttps://wiki.apache.org/nutch/NutchTutorial. Aber beim Indizieren erhalte ich den folgenden Fehler.

Segmentverzeichnis ist vollständig: crawl/segments/2xxxxxxxxxxxxx.

Der Eingabepfad bei -filer ist kein Segment ... wird übersprungen

Indexer: ab 2019-04-02 14:16:21

Indexer: Löschen verschwundener Dokumente: true

Indexer: URL-Filterung: false

Indexer: URL-Normalisierung: true

Es wurde kein Austausch konfiguriert. Die Dokumente werden an alle Indexschreiber weitergeleitet.

Aktive IndexWriter: SOLRIndexWriter Typ: Typ des Servers. Kann sein: „Cloud“, „concurrent“, „http“ oder „lb“ URL: URL der SOLR-Instanz oder URL des Zookeeper-Quorums CommitSize: Puffergröße beim Senden an SOLR (Standard 1000) Auth: Authentifizierung verwenden (Standard: „false“) Benutzername: Benutzername für Authentifizierung Passwort: Passwort für Authentifizierung

1/1 Dokumente werden indiziert. 0 Dokumente werden gelöscht. Der Indizierungsjob war nicht erfolgreich. Jobstatus: FEHLGESCHLAGEN, Grund: N/A. Indexer: java.lang.RuntimeException: Der Indizierungsjob war nicht erfolgreich. Jobstatus: FEHLGESCHLAGEN, Grund: N/A. bei org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:152) bei org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235) bei org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) bei org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)

Wie kann ich das lösen?

Antwort1

Wenn Sie in solr.log sehen This IndexSchema is not mutable. , ersetzen Sie in solrconfig.xml true durch false in

<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
           processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">

Dann könnte es funktionieren oder zumindest wird etwas informativeres in solr.log stehen

Antwort2

Ich hatte das gleiche Problem und fand heraus, dass in Solr der Kern mit dem Namen „nutch“ nicht zugeordnet war. Daher erstellte ich einen neuen Kern mit dem Namen „nutch“ unter Solr > Core-Admin (http://localhost:8983/solr/#/) (neuen Ordner namens „nutch“ erstellt und Schemadateien kopiert) und es hat funktioniert.

verwandte Informationen