[Heritrix/crawler-beans.cxml]crawlcontroller
212.Heritrix_설정파일/06. CRAWLCONTROLLER 2016. 8. 1. 17:57Crawlcontroller
- 크롤링을 구현하는 모든 class들을 모아 크롤링을 실행시키기 위한 인터페이스를 제공한다. 서브 컴포넌트들이 서로 접근할 수 있는 통합 컨텍스트라고 보면 된다.
기존 설정 값
<!-- CRAWLCONTROLLER: Control interface, unifying context -->
<bean id="crawlController"
class="org.archive.crawler.framework.CrawlController">
<!-- <property name="maxToeThreads" value="25" /> -->
<!-- <property name="pauseAtStart" value="true" /> -->
<!-- <property name="runWhileEmpty" value="false" /> -->
<!-- <property name="recorderInBufferBytes" value="524288" /> -->
<!-- <property name="recorderOutBufferBytes" value="16384" /> -->
<!-- <property name="scratchDir" value="scratch" /> -->
</bean>
- [property에 대한 설명]
- maxToeThreads : 동시에 URI를 프로세싱하는 thread의 최대 개수.
- pauseAtStart : 크롤링 시작할 때 pause 할 것 인지에 대한 여부
- runWhileEmpty : frontier가 empty 상태 일 때 pause 하거나 finish하지 않고 실행 상태를 유지할 것인지에 대한 여부
- recorderInBufferBytes : in-bound 트래픽을 저장할 in-memory 버퍼 사이즈
- recorderOutBufferBytes : out-bound 트래픽을 저장할 in-memory 버퍼 사이즈
- scratchDir : 일시적인 overflow-to-disk를 위한 scrach 디렉토리의 경로