[Heritrix/crawler-beans.cxml]actionDirectory
212.Heritrix_설정파일/09. OPTIONAL BUT RECOMMENED BEANS 2016. 8. 3. 16:46ActionDirectory
- 크롤링 중간(mid-crawl)에 작업을 하기 위한 디렉토리. 실행중인 job은 이 디렉토리에 새로운 파일이 있는 지 확인한다. 이 디렉토리에서 추가된 설정에 따른 결과는 done 디렉토리에 새로운 이름으로 남는다.
현재 done 폴더에 남기는 파일들로는.. - .seeds(.gz) : 새로운 seed 들을 기록
- (.s).recover(.gz) : 기존 recovery log 와 같은 파일
- (.s).include(.gz) : recover-log 에서 발견된 URI들을 담고 있다. 이 URI들을 필터에 포함시켜 다시 크롤링하지 않을 수 있도록 한다.
- (.s).schedule(.gz) : recover-log 에서 발견된 URI들을 담고 있다. 이 URI들을 frontier queue에 포함시켜 다시 크롤링 할 수 있도록 한다.
기존 설정 값
<bean id="actionDirectory" class="org.archive.crawler.framework.ActionDirectory">
<!-- <property name="actionDir" value="action" /> -->
<!-- <property name="doneDir" value="${launchId}/actions-done" /> -->
<!-- <property name="initialDelaySeconds" value="10" /> -->
<!-- <property name="delaySeconds" value="30" /> -->
</bean>
- [property에 대한 설명]
- actionDir : 실행중인 job이 계속 주시할 directory 경로. base 경로는 job 폴더 바로 아래 경로이다.
- doneDir : actionDir 에서 발견한 파일에 의해 새로 추가된 URI 정보 및 여러 사항들을 기록할 폴더 경로.
- initialDelaySeconds : 처음 action directory를 스캔 한 후 몇초 뒤에 크롤링을 시작할 것인지 설정해줌.
- delaySeconds : actionDirectory 내부의 새 파일들을 스캔할 때, 파일 사이 사이의 텀.
'212.Heritrix_설정파일 > 09. OPTIONAL BUT RECOMMENED BEANS' 카테고리의 다른 글
[Heritrix/crawler-beans.cxml]checkpointService (0) | 2016.08.03 |
---|---|
[Heritrix/crawler-beans.cxml]crawlLimiter (0) | 2016.08.03 |