Индексация Solr в краулере Apache Nutch

Индексация Solr в краулере Apache Nutch

Я работаю с Apache Nutch Crawler и следую рекомендациям, указанным вhttps://wiki.apache.org/nutch/NutchTutorial. Но при индексации я получил следующую ошибку.

Каталог сегмента заполнен: crawl/segments/2xxxxxxxxxxxx.

Входной путь в -filer не является сегментом... пропускается

Индексатор: начало в 2019-04-02 14:16:21

Индексатор: удаление ушедших документов: правда

Индексатор: Фильтрация URL: ложно

Индексатор: нормализация URL: true

Обмен не настроен. Документы будут направлены всем авторам индекса.

Active IndexWriters : SOLRIndexWriter type : Тип сервера. Может быть: "cloud", "concurrent", "http" или "lb" url : URL-адрес экземпляра SOLR или URL-адрес кворума Zookeeper commitSize : размер буфера при отправке в SOLR (по умолчанию 1000) auth : использовать аутентификацию (по умолчанию false) username : имя пользователя для аутентификации password : пароль для аутентификации

Индексирование 1/1 документов Удаление 0 документов Задание индексирования не выполнено, статус задания: FAILED, причина: NA Индексатор: java.lang.RuntimeException: Задание индексирования не выполнено, статус задания: FAILED, причина: NA в org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:152) в org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235) в org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) в org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)

Как мне решить эту проблему?

решение1

Если вы видите This IndexSchema is not mutable. в solr.log, то в solrconfig.xml замените true на false в

<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
           processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">

Тогда это может сработать или, по крайней мере, в solr.log появится что-то более информативное.

решение2

Я столкнулся с той же проблемой и выяснил, что в Solr ядро ​​с именем «nutch» не было отображено, поэтому я создал новое ядро ​​с именем «nutch» из Solr > Администрирование ядра (http://localhost:8983/solr/#/) (создал новую папку с именем nutch и скопировал файлы схемы) и это сработало.

Связанный контент