[Heritrix/crawler-beans.cxml]FETCH CHAIN-preselector
212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:14Preselector
- queue에서 대기하던 uri를 pop한 후 먼저 처리할 사항을 설정하는 부분이다.
기존 설정 값
<!-- first, processors are declared as top-level named beans -->
<bean id="preselector" class="org.archive.crawler.prefetch.Preselector">
<!-- <property name="recheckScope" value="false" /> -->
<!-- <property name="blockAll" value="false" /> -->
<!-- <property name="blockByRegex" value="" /> -->
<!-- <property name="allowByRegex" value="" /> -->
</bean>
- [property에 대한 설명]
- recheckScope : queue에 push하기 전에 scope를 체크하였으나 pop 후 다시 체크가도록 설정하는 부분. crawl 중간에 scope 설정을 바꿀 경우 사용하는 옵션이다.
- blockAll : 모든 uri를 block 처리한다. 특정 host에 대한 진행을 기각처리하고 싶을 때 사용한다.
- blockByRex : 정규식에 매칭되는 uri는 block 처리한다.
- allowByRex : 정규식에 매칭되는 uri외의 uri들을 block 처리한다.
'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0) | 2016.08.01 |
---|---|
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateProcessors (0) | 2016.07.27 |
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-preparer (0) | 2016.07.27 |
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateScoper (0) | 2016.07.26 |