Я работаю с Apache Nutch Crawler и следую рекомендациям, указанным вhttps://wiki.apache.org/nutch/NutchTutorial. Но при индексации я получил следующую ошибку.
Каталог сегмента заполнен: crawl/segments/2xxxxxxxxxxxx.
Входной путь в -filer не является сегментом... пропускается
Индексатор: начало в 2019-04-02 14:16:21
Индексатор: удаление ушедших документов: правда
Индексатор: Фильтрация URL: ложно
Индексатор: нормализация URL: true
Обмен не настроен. Документы будут направлены всем авторам индекса.
Active IndexWriters : SOLRIndexWriter type : Тип сервера. Может быть: "cloud", "concurrent", "http" или "lb" url : URL-адрес экземпляра SOLR или URL-адрес кворума Zookeeper commitSize : размер буфера при отправке в SOLR (по умолчанию 1000) auth : использовать аутентификацию (по умолчанию false) username : имя пользователя для аутентификации password : пароль для аутентификации
Индексирование 1/1 документов Удаление 0 документов Задание индексирования не выполнено, статус задания: FAILED, причина: NA Индексатор: java.lang.RuntimeException: Задание индексирования не выполнено, статус задания: FAILED, причина: NA в org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:152) в org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235) в org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) в org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)
Как мне решить эту проблему?
решение1
Если вы видите
This IndexSchema is not mutable.
в solr.log, то в solrconfig.xml замените true на false в
<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">
Тогда это может сработать или, по крайней мере, в solr.log появится что-то более информативное.
решение2
Я столкнулся с той же проблемой и выяснил, что в Solr ядро с именем «nutch» не было отображено, поэтому я создал новое ядро с именем «nutch» из Solr > Администрирование ядра (http://localhost:8983/solr/#/) (создал новую папку с именем nutch и скопировал файлы схемы) и это сработало.