Apache Nutch クローラーでの Solr インデックス作成

Apache Nutch クローラーでの Solr インデックス作成

私はApache Nutchクローラーを使用しており、以下のガイドラインに従っています。https://wiki.apache.org/nutch/Nutchチュートリアルしかし、インデックス作成時に次のようなエラーが発生しました。

セグメント ディレクトリが完了しました: crawl/segments/2xxxxxxxxxxxxx。

-filer の入力パスはセグメントではありません...スキップします

インデクサー: 2019-04-02 14:16:21 から

インデクサー: 削除されたドキュメントを削除する: true

インデクサー: URL フィルタリング: false

インデクサー: URL 正規化: true

交換は構成されていません。ドキュメントはすべてのインデックス ライターにルーティングされます。

アクティブな IndexWriters: SOLRIndexWriter type: サーバーのタイプ。次の値を指定できます: "cloud"、"concurrent"、"http"、"lb" url: SOLR インスタンスの URL または Zookeeper クォーラムの URL commitSize: SOLR に送信するときのバッファ サイズ (既定値は 1000) auth: 認証を使用する (既定値は false) username: 認証用のユーザー名 password: 認証用のパスワード

1/1 ドキュメントのインデックス作成中 0 ドキュメントの削除中 インデックス作成ジョブが成功しませんでした。ジョブ ステータス: 失敗、理由: NA インデクサー: java.lang.RuntimeException: インデックス作成ジョブが成功しませんでした。ジョブ ステータス: 失敗、理由: NA at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:152) at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)

これをどうすれば解決できますか?

答え1

solr.logに表示されている場合は This IndexSchema is not mutable. 、solrconfig.xmlでtrueをfalseに置き換えてください。

<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
           processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">

そうすれば、うまくいくかもしれませんし、少なくともsolr.logにもっと有益な情報が表示されるでしょう。

答え2

私も同じ問題に直面していましたが、Solrでは「nutch」という名前のコアがマップされていないことがわかったので、Solr > Core admin(http://localhost:8983/solr/#/) (nutch という名前の新しいフォルダーを作成し、スキーマ ファイルをコピーしました)、動作しました。

関連情報