[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-candidates
212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 17:36Candidates
- 두가지 역할을 하는 processor이다.
1. 발견된 후보 링크들을 CandidateChain으로 보내면서 non-negative status code로 스케줄링 ( ACCEPT)
2. seed에서 리다이렉트 되는 URI 같은 새로 발견한 seed들을 처리한다. -> scope 확장과 같은 처리
기존 설정 값
<bean id="candidates" class="org.archive.crawler.postprocessor.CandidatesProcessor">
<!-- <property name="seedsRedirectNewSeeds" value="true" /> -->
<!-- <property name="processErrorOutlinks" value="false" /> -->
</bean>
- [property 에 대한 설명]
- seedRedirectNewSeeds : seed에서 리다이렉션 되어 찾아진 URL들(return code 301 또는 302)을 seed와 같이 취급한다. 단, 이 경우 seed로 부터의 hop count 가 5이하여야 한다.
- processErrorOutlinks : error code를 리턴한 outlink들을 ( <200 && >= 400 ) CandidateChain으로 보낼지 말지의 여부.
'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글
[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-dispositionProcessors (0) | 2016.08.01 |
---|---|
[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-disposition (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-warcWriter (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchProcessors (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorSwf (0) | 2016.08.01 |