CandidateScoper

  • 앞서 정의한 scope rule 들을 각 URI에 적용하는 processor.
    Pass-in URI를 모두 candidate로 놓고, scope를 벗어나는 URI에 대해선 fetch_status를 negative로 변경하여 작업이 끝날 때 까지 skip한다.

기존 설정 값

 <!-- first, processors are declared as top-level named beans -->
 <bean id="candidateScoper" class="org.archive.crawler.prefetch.CandidateScoper">
 </bean>


Posted by Righ
,