'212.Heritrix_설정파일/09. OPTIONAL BUT RECOMMENED BEANS'에 해당되는 글 3건

  1. 2016.08.03 [Heritrix/crawler-beans.cxml]checkpointService
  2. 2016.08.03 [Heritrix/crawler-beans.cxml]crawlLimiter
  3. 2016.08.03 [Heritrix/crawler-beans.cxml]actionDirectory

CheckpointService

  • checkpoint에 관련한 사항을 관리하는 모듈이다.

기존 설정 값

 <bean id="checkpointService" 
   class="org.archive.crawler.framework.CheckpointService">
  <!-- <property name="checkpointIntervalMinutes" value="-1"/> -->
  <!-- <property name="checkpointsDir" value="checkpoints"/> -->
  <!-- <property name="forgetAllButLatest" value="true"/> -->
 </bean>
  • [property에 대한 설명]
    1. checkpointIntervalMinutes : 자동으로 checkpoint를 생성하도록 할 때 그 텀을 설정한다. '-1'은 자동으로 checkpoint를 생성하지 않겠다는 뜻이다.
    2. checkpointsDir : checkpoint 정보를 저장할 디렉토리 설정
    3. forgetAllButLatest : true 시에 오직 가장 최근의 checkpoint만 저장한다.


Posted by Righ
,

CrawlLimiter

  • 이곳에 설정된 제한 값들에 도달하면 크롤링을 중단한다.

기존 설정 값

 <bean id="crawlLimiter" class="org.archive.crawler.framework.CrawlLimitEnforcer">
       <property name="maxBytesDownload" value="0" />       
       <property name="maxDocumentsDownload" value="0" /> <property name="maxTimeSeconds" value="0" />
</bean>
  • [property에 대한 설명]
    1. maxBytesDownload : 총 다운로드한 byte가 이 값을 초과하면 크롤링이 중단 된다.
    2. maxDocumentsDownload : 총 다운로드한 문서의 개수가 이 값을 초과 하면 크롤링이 중단 된다.
    3. maxTimeSeconds : 총 크롤링한 시간이 이 값을 초과 하면 크롤링이 중단 된다.


Posted by Righ
,

ActionDirectory

  • 크롤링 중간(mid-crawl)에 작업을 하기 위한 디렉토리. 실행중인 job은 이 디렉토리에 새로운 파일이 있는 지 확인한다. 이 디렉토리에서 추가된 설정에 따른 결과는 done 디렉토리에 새로운 이름으로 남는다.
    현재 done 폴더에 남기는 파일들로는..
    1. .seeds(.gz) : 새로운 seed 들을 기록
    2. (.s).recover(.gz) : 기존 recovery log 와 같은 파일
    3. (.s).include(.gz) : recover-log 에서 발견된 URI들을 담고 있다. 이 URI들을 필터에 포함시켜 다시 크롤링하지 않을 수 있도록 한다.
    4. (.s).schedule(.gz) : recover-log 에서 발견된 URI들을 담고 있다. 이 URI들을 frontier queue에 포함시켜 다시 크롤링 할 수 있도록 한다.

기존 설정 값

<bean id="actionDirectory" class="org.archive.crawler.framework.ActionDirectory">
  <!-- <property name="actionDir" value="action" /> -->
  <!-- <property name="doneDir" value="${launchId}/actions-done" /> -->
  <!-- <property name="initialDelaySeconds" value="10" /> -->
  <!-- <property name="delaySeconds" value="30" /> -->
 </bean>
  • [property에 대한 설명]
    1. actionDir : 실행중인 job이 계속 주시할 directory 경로. base 경로는 job 폴더 바로 아래 경로이다.
    2. doneDir : actionDir 에서 발견한 파일에 의해 새로 추가된 URI 정보 및 여러 사항들을 기록할 폴더 경로.
    3. initialDelaySeconds : 처음 action directory를 스캔 한 후 몇초 뒤에 크롤링을 시작할 것인지 설정해줌.
    4. delaySeconds : actionDirectory 내부의 새 파일들을 스캔할 때, 파일 사이 사이의 텀.


Posted by Righ
,