Preconditions

  • fetch를 하기 전 사전 조건(DNS lookup 또는 robots.txt 정책 준수)이 제대로 되어 있는지 확인한다.

기존 설정 값

<bean id="preconditions" class="org.archive.crawler.prefetch.PreconditionEnforcer">
  <!-- <property name="ipValidityDurationSeconds" value="21600" /> -->
  <!-- <property name="robotsValidityDurationSeconds" value="86400" /> -->
  <!-- <property name="calculateRobotsOnly" value="false" /> -->
 </bean>
  • [property에 대한 설명]
    1. ipValidityDurationSeconds : dns 기록이 유효하다고 판단할 최소 시간을 적어준다. 저장된 dns ttl 값이 이 값보다 큰 경우엔 dns-ttl 값으로 대체한다.
    2. robotsValidityDurationSeconds : fetch한 robots.txt 가 유효하다고 판단할 최소 시간을 적어준다. 0일 경우는 robots.txt 정보가 만료되지 않을 것.
    3. calculateRobotsOnly : robots 상태를 체크만 하고 실제 exclusion을 적용하진 않는다. true로 할 시에는 배제된 uri들이 주석처리되어 crawl.log에 남지만 fetch는 된다.


Posted by Righ
,