Disposition

  • frontier 배치에 영향을 주는 값을 매기는 작업을 수행한다. 이때 fetch에 의해 변경된 정보들도 업데이트한다.

기본 설정 값

 <bean id="disposition" class="org.archive.crawler.postprocessor.DispositionProcessor">
  <!-- <property name="delayFactor" value="5.0" /> -->
  <!-- <property name="minDelayMs" value="3000" /> -->
  <!-- <property name="respectCrawlDelayUpToSeconds" value="300" /> -->
  <!-- <property name="maxDelayMs" value="30000" /> -->
  <!-- <property name="maxPerHostBandwidthUsageKbSec" value="0" /> -->
 </bean>
  • [property에 대한 설명]
    1. delayFactor : fetch 후 같은 서버에 재접촉을 하기 전까지 기다릴 시간. 마지막 fetch가 경과한 시간의 multiples.
    2. minDelayMs : 하나의 process가 끝난 후 같은 서버에 재접촉을 하기 전까지 기다릴 시간. 위의 multiple 값을 무시한다.
    3. respectCrawlDelayUpToSeconds : site의 robots.txt에 주어진 'Crawl-Delay' 값을 신뢰할 시간 설정.
    4. maxDelayMs : 이 값보다 오래는 기다리지 않는다. delayFactor 값 무시한다.
    5. maxPerHostBandwidthUsageKbSec : 하나의 Host 당 사용할 최대 대역폭 설정


Posted by Righ
,