Preselector

  • queue에서 대기하던 uri를 pop한 후 먼저 처리할 사항을 설정하는 부분이다.

기존 설정 값

 <!-- first, processors are declared as top-level named beans -->
 <bean id="preselector" class="org.archive.crawler.prefetch.Preselector">
  <!-- <property name="recheckScope" value="false" /> -->
  <!-- <property name="blockAll" value="false" /> -->
  <!-- <property name="blockByRegex" value="" /> -->
  <!-- <property name="allowByRegex" value="" /> -->
 </bean>
  • [property에 대한 설명]
    1. recheckScope : queue에 push하기 전에 scope를 체크하였으나 pop 후 다시 체크가도록 설정하는 부분. crawl 중간에 scope 설정을 바꿀 경우 사용하는 옵션이다.
    2. blockAll : 모든 uri를 block 처리한다. 특정 host에 대한 진행을 기각처리하고 싶을 때 사용한다.
    3. blockByRex : 정규식에 매칭되는 uri는 block 처리한다.
    4. allowByRex : 정규식에 매칭되는 uri외의 uri들을 block 처리한다.


Posted by Righ
,