ActionDirectory

  • 크롤링 중간(mid-crawl)에 작업을 하기 위한 디렉토리. 실행중인 job은 이 디렉토리에 새로운 파일이 있는 지 확인한다. 이 디렉토리에서 추가된 설정에 따른 결과는 done 디렉토리에 새로운 이름으로 남는다.
    현재 done 폴더에 남기는 파일들로는..
    1. .seeds(.gz) : 새로운 seed 들을 기록
    2. (.s).recover(.gz) : 기존 recovery log 와 같은 파일
    3. (.s).include(.gz) : recover-log 에서 발견된 URI들을 담고 있다. 이 URI들을 필터에 포함시켜 다시 크롤링하지 않을 수 있도록 한다.
    4. (.s).schedule(.gz) : recover-log 에서 발견된 URI들을 담고 있다. 이 URI들을 frontier queue에 포함시켜 다시 크롤링 할 수 있도록 한다.

기존 설정 값

<bean id="actionDirectory" class="org.archive.crawler.framework.ActionDirectory">
  <!-- <property name="actionDir" value="action" /> -->
  <!-- <property name="doneDir" value="${launchId}/actions-done" /> -->
  <!-- <property name="initialDelaySeconds" value="10" /> -->
  <!-- <property name="delaySeconds" value="30" /> -->
 </bean>
  • [property에 대한 설명]
    1. actionDir : 실행중인 job이 계속 주시할 directory 경로. base 경로는 job 폴더 바로 아래 경로이다.
    2. doneDir : actionDir 에서 발견한 파일에 의해 새로 추가된 URI 정보 및 여러 사항들을 기록할 폴더 경로.
    3. initialDelaySeconds : 처음 action directory를 스캔 한 후 몇초 뒤에 크롤링을 시작할 것인지 설정해줌.
    4. delaySeconds : actionDirectory 내부의 새 파일들을 스캔할 때, 파일 사이 사이의 텀.


Posted by Righ
,