[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-disposition
212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 17:37Disposition
- frontier 배치에 영향을 주는 값을 매기는 작업을 수행한다. 이때 fetch에 의해 변경된 정보들도 업데이트한다.
기본 설정 값
<bean id="disposition" class="org.archive.crawler.postprocessor.DispositionProcessor">
<!-- <property name="delayFactor" value="5.0" /> -->
<!-- <property name="minDelayMs" value="3000" /> -->
<!-- <property name="respectCrawlDelayUpToSeconds" value="300" /> -->
<!-- <property name="maxDelayMs" value="30000" /> -->
<!-- <property name="maxPerHostBandwidthUsageKbSec" value="0" /> -->
</bean>
- [property에 대한 설명]
- delayFactor : fetch 후 같은 서버에 재접촉을 하기 전까지 기다릴 시간. 마지막 fetch가 경과한 시간의 multiples.
- minDelayMs : 하나의 process가 끝난 후 같은 서버에 재접촉을 하기 전까지 기다릴 시간. 위의 multiple 값을 무시한다.
- respectCrawlDelayUpToSeconds : site의 robots.txt에 주어진 'Crawl-Delay' 값을 신뢰할 시간 설정.
- maxDelayMs : 이 값보다 오래는 기다리지 않는다. delayFactor 값 무시한다.
- maxPerHostBandwidthUsageKbSec : 하나의 Host 당 사용할 최대 대역폭 설정
'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글
[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-dispositionProcessors (0) | 2016.08.01 |
---|---|
[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-candidates (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-warcWriter (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchProcessors (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorSwf (0) | 2016.08.01 |