'212.Heritrix_설정파일/06. CRAWLCONTROLLER'에 해당되는 글 1건

  1. 2016.08.01 [Heritrix/crawler-beans.cxml]crawlcontroller

Crawlcontroller

  • 크롤링을 구현하는 모든 class들을 모아 크롤링을 실행시키기 위한 인터페이스를 제공한다. 서브 컴포넌트들이 서로 접근할 수 있는 통합 컨텍스트라고 보면 된다.

기존 설정 값

 <!-- CRAWLCONTROLLER: Control interface, unifying context -->
 <bean id="crawlController" 
   class="org.archive.crawler.framework.CrawlController">
  <!-- <property name="maxToeThreads" value="25" /> -->
  <!-- <property name="pauseAtStart" value="true" /> -->
  <!-- <property name="runWhileEmpty" value="false" /> -->
  <!-- <property name="recorderInBufferBytes" value="524288" /> -->
  <!-- <property name="recorderOutBufferBytes" value="16384" /> -->
  <!-- <property name="scratchDir" value="scratch" /> -->
 </bean>
  • [property에 대한 설명]
    1. maxToeThreads : 동시에 URI를 프로세싱하는 thread의 최대 개수.
    2. pauseAtStart : 크롤링 시작할 때 pause 할 것 인지에 대한 여부
    3. runWhileEmpty : frontier가 empty 상태 일 때 pause 하거나 finish하지 않고 실행 상태를 유지할 것인지에 대한 여부
    4. recorderInBufferBytes : in-bound 트래픽을 저장할 in-memory 버퍼 사이즈
    5. recorderOutBufferBytes : out-bound 트래픽을 저장할 in-memory 버퍼 사이즈
    6. scratchDir : 일시적인 overflow-to-disk를 위한 scrach 디렉토리의 경로


Posted by Righ
,