Candidates

  • 두가지 역할을 하는 processor이다.
    1. 발견된 후보 링크들을 CandidateChain으로 보내면서 non-negative status code로 스케줄링 ( ACCEPT)
    2. seed에서 리다이렉트 되는 URI 같은 새로 발견한 seed들을 처리한다. -> scope 확장과 같은 처리

기존 설정 값

 <bean id="candidates" class="org.archive.crawler.postprocessor.CandidatesProcessor">
  <!-- <property name="seedsRedirectNewSeeds" value="true" /> -->
  <!-- <property name="processErrorOutlinks" value="false" /> -->
 </bean>
  • [property 에 대한 설명]
    1. seedRedirectNewSeeds : seed에서 리다이렉션 되어 찾아진 URL들(return code 301 또는 302)을 seed와 같이 취급한다. 단, 이 경우 seed로 부터의 hop count 가 5이하여야 한다.
    2. processErrorOutlinks : error code를 리턴한 outlink들을 ( <200 && >= 400 ) CandidateChain으로 보낼지 말지의 여부.


Posted by Righ
,