[Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions
212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:15Preconditions
- fetch를 하기 전 사전 조건(DNS lookup 또는 robots.txt 정책 준수)이 제대로 되어 있는지 확인한다.
기존 설정 값
<bean id="preconditions" class="org.archive.crawler.prefetch.PreconditionEnforcer">
<!-- <property name="ipValidityDurationSeconds" value="21600" /> -->
<!-- <property name="robotsValidityDurationSeconds" value="86400" /> -->
<!-- <property name="calculateRobotsOnly" value="false" /> -->
</bean>
- [property에 대한 설명]
- ipValidityDurationSeconds : dns 기록이 유효하다고 판단할 최소 시간을 적어준다. 저장된 dns ttl 값이 이 값보다 큰 경우엔 dns-ttl 값으로 대체한다.
- robotsValidityDurationSeconds : fetch한 robots.txt 가 유효하다고 판단할 최소 시간을 적어준다. 0일 경우는 robots.txt 정보가 만료되지 않을 것.
- calculateRobotsOnly : robots 상태를 체크만 하고 실제 exclusion을 적용하진 않는다. true로 할 시에는 배제된 uri들이 주석처리되어 crawl.log에 남지만 fetch는 된다.
'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp (0) | 2016.08.01 |
---|---|
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preselector (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateProcessors (0) | 2016.07.27 |
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-preparer (0) | 2016.07.27 |