Apache Nutch 크롤러의 Solr 인덱싱

Apache Nutch 크롤러의 Solr 인덱싱

저는 Apache Nutch 크롤러로 작업 중이며 다음에 언급된 지침을 따랐습니다.https://wiki.apache.org/nutch/NutchTutorial. 그런데 색인을 생성할 때 다음과 같은 오류가 발생했습니다.

세그먼트 디렉토리가 완료되었습니다: 크롤링/세그먼트/2xxxxxxxxxxxxx.

-filer의 입력 경로가 세그먼트가 아닙니다... 건너뛰는 중

인덱서: 2019-04-02 14:16:21부터 시작

인덱서: 사라진 문서 삭제: true

인덱서: URL 필터링: false

인덱서: URL 정규화: true

교환이 구성되지 않았습니다. 문서는 모든 색인 작성자에게 전달됩니다.

Active IndexWriters : SOLRIndexWriter 유형 : 서버 유형입니다. "cloud", "concurrent", "http" 또는 "lb"일 수 있습니다. url : SOLR 인스턴스의 URL 또는 Zookeeper 쿼럼의 URL commitSize : SOLR로 보낼 때의 버퍼 크기(기본값 1000) auth : 인증 사용(기본값 false ) 사용자 이름 : 인증용 사용자 이름 비밀번호 : 인증용 비밀번호

인덱싱 1/1 문서 0개 문서 삭제 중 인덱싱 작업이 성공하지 못했습니다. 작업 상태:FAILED, 이유: NA 인덱서: java.lang.RuntimeException: 인덱싱 작업이 성공하지 못했습니다. 작업 상태:FAILED, 이유: org.apache.nutch에서 NA org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:235)의 .indexer.IndexingJob.index(IndexingJob.java:152) org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) ) org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:244)에서

이 문제를 어떻게 해결할 수 있나요?

답변1

solr.log에 표시되는 경우 This IndexSchema is not mutable. solrconfig.xml에서 true를 false로 바꾸십시오.

<updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:false}"
           processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">

그러면 작동할 수도 있고 적어도 solr.log에 더 많은 정보가 있을 것입니다.

답변2

나는 같은 문제에 직면했고 Solr에서 'nutch'라는 코어가 매핑되지 않았으므로 Solr > Core admin(http://localhost:8983/solr/#/) (nutch라는 새 폴더를 만들고 스키마 파일을 복사했습니다) 작동했습니다.

관련 정보